MICCAI论文精选：如何用联邦学习解决医学影像数据隐私问题？

雷锋网新闻，日前，英伟达与伦敦邦王学院以及一家法邦草创公司Owkin合营，正在新建立的伦敦医学影像与人工智能中央中操纵了联邦练习技巧。

这项技巧论文正在本年的MICCAI 2019大会上揭晓，英伟达与伦敦邦王学院探索职员正在大会上先容了联邦练习技巧的施行细节。

探索职员暗示：“联邦练习正在无需共享患者数据的情景下，即可完毕合营与散开化的神经汇集教练。各节点刻意教练其自己的当地模子，并按期提交给参数任职器。任职器络续累积并鸠合各自的功劳，进而创修一个全体模子，分享给通盘节点。”

探索职员进一步解说道，固然联邦练习能够保障极高的隐私安定性，但通过模子反演，仍能够想法使数据重现。为了助助提升联邦练习的安定性，探索职员探索试验了利用ε-差分隐私框架的可行性。这个框架是一种正式界说隐私耗费的格式，能够借助其庞大的隐私保护性来维持患者与机构数据。

据认识，试验是基于取自BraTS 2018数据集的脑肿瘤支解数据施行的。BraTS 2018 数据集包括有285位脑肿瘤患者的MRI扫描结果。

NVIDIA团队解说到，联邦练习希望有用鸠合各机构从私稀有据中当地习得的常识，从而进一步提升深度模子真实实性、庄重性与通用化本事。

以下为论文注意内容，由雷锋网AI掘金志学术组编译。体贴AI掘金志公家号，正在对话框恢复环节词“英伟达”，即可获取原文PDF。

因为医疗数据的隐私法则，正在召集数据湖中搜罗和共享患者数据日常是不成行的。这就给教练机械练习算法带来了离间，比方深度卷积汇集日常须要洪量差别的教练示例。联邦练习通过将代码带给患者数据通盘者，而且只正在他们之间共享中心模子教练的音信，从而避开了这一难题。纵然妥当地鸠合这些模子能够获取更高精度的模子，但共享的模子能够会间接吐露当地教练数据。

正在本文中，咱们切磋了正在联邦练习体系中操纵微分隐私技巧来维持病人数据的可行性。咱们正在BraTS数据集上操纵并评估了用于脑肿瘤支解的适用联邦练习体系。实践结果证据，模子职能与隐私维持本钱之间存正在一种折衷合联。

深度练习神经汇集（DNN）正在众种医学操纵中都显示出很好的成果，但它高度依赖于教练数据的数目和众样性[11]。正在医学成像方面，这组成了一种异常难题：比方，因为患者数目或病理类型的理由，所需的教练数据能够无法正在单个机构中获取。同时，因为医疗数据隐私法则，正在召集数据湖中搜罗和共享患者数据日常是不成行的。

处置此题目的一个最新格式是联邦练习（FL）[7,9]：它许可正在不共享患者数据的情景下对DNN举办合营和漫衍式教练。每个节点都教练本人的当地模子，并按期将其提交给参数任职器。任职器搜罗并鸠合各个节点模子以天生一个全体模子，然后与通盘节点共享。

须要提神的是，教练数据对每个节点都是私有的，正在练习流程中不会被共享。只共享模子的可教练权重或更新，从而依旧患者数据的私密性。以是，FL简单地处置了很众数据安定离间，将数据放正在须要的地方，并援手众机构合营。

固然FL能够正在隐私方面供给高程度的安定性，但它已经存正在风险，比方通过模子逆推来重修单个教练模子。一种应对手段是正在每个节点的教练流程中注入噪声并对更新举办扭曲，以隐蔽单个模子节点的功劳并局部教练节点之间共享音信的粒度。[3,1,10]然而，现有的隐私维持探索只体贴凡是机械练习基准，如MNIST和随机梯度低落算法。

正在这项使命中，咱们完毕并评估适用的联邦练习体系，用于脑肿瘤支解。通过对BraTS 2018的一系列实践，咱们注明了医学成像隐私维持技巧的可行性。

咱们的紧要功劳是：（1）尽咱们所知，完毕并评估第一个用于医学图像说明的隐私维持联邦练习体系；（2）较量和比较撮合均匀算法措置基于动量的优化和不服均教练节点的各个方面；（3）对疏落向量技巧举办了实证探索，以获取一个较强的微分隐私保障。

咱们利用撮合均匀算法探索基于客户端-任职器架构（如图1（左）所示）的FL体系[7]，个中召集任职器爱护全体DNN模子并和谐客户端的限制随机梯度低落（SGD）更新。本节先容客户端模子教练流程、任职器端模子鸠合流程以及铺排正在客户端的隐私维持模块。

咱们假设每个撮合客户端都有一个固定的当地数据集和适应的揣测资源来运转小批量SGD更新。客户端也共享雷同的DNN布局和耗费函数。教练顺序详睹 Algorithm 1图中。正在撮合教练t轮中，通过从任职器读取全体模子参数w（t）初始化当地模子，并通过运转众次SGD迭代将其更新为w（l，t）。正在固定次数的迭代n（当地）之后，将模子不同△w（t）与鸠合任职器共享。

医学图像的DNN日常采用基于动量的SGD举办教练。正在优化流程中引入基于动量的梯度，正在揣测现在方法时将上一步SGD方法纳入揣测。它有助于加快教练，节减振荡。咱们查究了正在FL中措置这些方法的策画采选。正在咱们提出的流程（Algorithm1；以ADAM Optimiser[5]为例）中，咱们正在每轮撮合教练发轫时（第3行；暗示为m.restart）从头初始化每个客户端的基于动量的梯度。

因为当地模子参数是从鸠合其他客户端音信的全体模子参数初始化的，以是从头启动操作有用地扫除了可精明扰教练流程的客户端当地形态。体味性的与以下两种形式举办较量（a）客户礼貌在不共享的情景下保存一组当地震量变量；暗示为baseline m；（b）将动量变量视为模子的一局限，即变量正在当地更新并由任职器鸠合（暗示为m.aggregation）。固然m.aggregation正在外面上是合理的[12]，但它须要将动量变量传送到任职器。这加添了通讯开销和数据安定危机。

客户端被策画为对共享的数据举办完整驾驭，而且当地教练数据长远不会分开客户端的站点。不外，像参考文献[4]中如许的模子逆推侵袭能够从更新的△w（t）或者撮合教练中的全体模子w（t）提取中出病人隐私音信。咱们采用采选性参数更新和疏落向量技巧（SVT）来供给对间接性数据吐露的庞大维持。

采选性参数更新：客户端教练终了时的完美模子能够会过拟合，并回想了当地教练示例。共享此模子会带来揭示教练数据的危机。采选性参数共享格式局部客户端共享的音信量。这是通过（1）只上传△w（t）k的一局限：假设abs（wi）大于阈值τ（t）k，则共享△w（t）k的分量wi；（2）通过将值剪裁到固定周围[-γ，γ]来进一措施换△w（t）k来完毕的。这里abs（x）暗示x的绝对值；τ（t）k是通过揣测abs(△w（t）k)的百分位数来采选的；γ独立于特定的教练数据，而且能够正在教练前通过一个小型的群众可用验证集来采选。梯度剪裁行为一种模子正则化格式也被通常操纵，以防范模子过拟合。

微分隐私模子：使用SVT能够进一步革新采选性参数共享，使其具有很强的微分隐私保障。Algorithm 2形容了wi采选和共享被打乱分量的流程。直观地说，共享wi的每一个查问都是由Laplacian机制驾驭的，而不是简陋地对abs（△w（t）k）举办阈值化并共享分量wi。这是开始通过较量剪接及参与噪声的abs（wi）和噪声阈值τ（t）+Lap（s/ε2）（第8行，Algorithm 2），然后仅共享噪声结果（wi+Lap（qs/ε3），γ）（假设知足阈值条目）。这里Lap（x）暗示从由x参数化的laplace漫衍中采样的随机变量；clip（x，γ）暗示x的剪裁到[-γ，γ]的周围内；s暗示正在这种情景下由γ局限的撮合梯度的灵活度。反复采选顺序，直到开释△w（t）k的q分数。此流程知足（ε1+ε2+ε3）-不同隐私。

任职器漫衍一个全体模子，并正在每个撮合轮次吸取来自通盘客户端的同步更新（Algorithm 3）。差别的客户端能够有差别数目的当地迭代用于天生△w（t）k，以是客户端的功劳能够是差别教练速率下的SGD更新。很要紧的一点是哀求客户端供给一个n（local），并正在鸠合它们时对功劳举办加权（第9行，Algorithm 3）。正在局限模子共享的情景下，使用△w（t）k的疏落性情来节减通讯开销是畴昔须要做的使命。

数据企图：BraTs 2018数据集包括285例脑肿瘤患者的众参数术前MRI扫描。每个受试者用四种形式扫描，即：（1）T1加权，（2）T1加权巩固，（3）T2加权，（4）T2液体衰减反转还原（T2-FLAIR）。扫描结果被配准到雷同的剖解模板上，从头取样到1×1×1 mm3的空间区别率，并剥离颅骨。每个受试者数据再有体味充分的神经放射学专家的像素级标注，标注出“通盘肿瘤”、“肿瘤焦点”和“巩固肿瘤”。相合数据搜聚和评释订定的注意音信，请参阅Bakas等人。这个已完整标注的肿瘤支解数据集以前用于评估机械练习算法的圭臬，而且是公然的。咱们采选利用它来评估具有众模态和众分类支解职司的FL算法。关于客户端当地教练，咱们采用了最优秀的教练格式，最初是行为Nvidia Clara Train SDK3的一局限策画和施行的，用于数据召集教练。

为了正在受试者中测试模子泛化本事，咱们将数据集随机分成一个模子教练集（n=242名患者）和一个验证测试集（n=43名被试）。这些扫描图像是从13个具有差别配置和成像订定的机构搜聚的，从而导致图像特质漫衍的不匀称性。为了使咱们的撮合教练更真正，咱们进一步将教练集分为13个不交友的子集，这些子集遵循图像数据的根源和分派给每个撮合客户端。这种成立对FL算法来说是一个离间，由于（1）每个撮合客户端只措置来自简单机构的数据，与数据召集教练比拟，该机构能够会遭遇更主要的域转化和过拟合题目；（2）它反响了数据集的高度不服均性（如Fig1所示）。最大的机构具有的教练数据是最小机构的25倍。

撮合模子修设：FL的评估流程与卷积汇集布局的采选是笔直的。正在不失通用性的条件下，咱们采选Myronenko[8]提出的支解骨干行为底层撮合教练模子，对通盘实践利用雷同的限制教练超参数集：汇集的输入图像窗口巨细为224×224×128像素，第一卷积层的空间丢掉率为0.2。与[8]相似，咱们利用ADAM Optimiser将soft Dice loss 最小化，练习率为10-4，批量巨细为1，β1为0.9，β2为0.999，l2重量衰减系数为10-5。关于通盘撮合教练，咱们将撮合教练轮次的数目成立为300，每个撮合教练轮次中每个客户端运转两个当地epoch。当地epoch被界说为每个客户端“看到”其当地教练数据一次。正在每个epoch的发轫，正在撮合教练中，数据被当地打乱后给每个客户端。为了较量模子的收敛性，咱们还做了600个epoch的数据召集的教练行为参考基准。

正在揣测价格方面，支解模子的参数约为1.2×106；利用nvidia tesla v100 gpu举办的教练迭代大约须要0.85s。

模子评估：咱们利用三种肿瘤区域和通盘测试对象的均匀Dice score来丈量模子正在测试集上的支解职能。关于FL体系，咱们通告撮合客户端之间共享的全体模子的职能。

隐私维持模块成立：采选性参数更新模块有两个人系参数：模子q的分数和梯度限幅值γ。咱们通过变换两者来测试模子职能。关于微分隐私模块，咱们遵循文献[6]将γ固定为10-4，灵活度s固定为2γ，以及ε2 to（2qs）2／3ε1。下一节将先容通过变换q、ε1和ε3而获取的模子职能。

撮合VS数据召集教练：将FL体系与Fig.2（左）中的数据召集教练举办较量。正在不共享客户数据的情景下，咱们提出的FL顺序能够获取不错的支解职能。从教练光阴上看，数据召集模子正在约300个教练时段收敛，FL模子教练正在约600个教练时段收敛。正在咱们的实践中，利用Nvidia Tesla V100 GPU举办数据召集教练（n=242）的光阴为0.85s×242=205.70s/epoch。FL教练光阴由最慢的客户端（n=77）断定，它须要0.85s×77=65.45s再加上用于客户端-任职器通讯的少量光阴。

动量重启和权值均匀：Fig.2（左）中也较量了FL顺序的变体。关于措置动量变量，正在每一轮撮合轮回中从头启动它们的成果优于通盘其他变量。这证据（1）每一个客户端爱护一组独立的动量变量会减慢撮合模子的收敛速率；（2）均匀每个客户端的动量变量会提升baseline m的收敛速率，但已经得出比召集数据更差的全体模子。正在任职器端，模子参数的加权均匀优于简陋的模子均匀。这证据加权版本能够措置跨客户端的不服均当地教练迭代次数。

限制模子共享：Fig.2（右）通过变换要共享的模子的比例和梯度剪切值来较量限制模子共享。这个数字证据，共享更大比例的模子能够获取更好的职能。限制模子共享不影响模子的收敛速率，当客户端共享通盘模子的40%时，职能低落险些能够疏忽不计。对梯度举办剪裁有时能够提升模子职能。可是，须要留意调理该值。

微分隐私模子：通过变换微分隐私（DP）参数的模子职能如Fig.3所示。正如预期的那样，DP维持和模子职能之间存正在量度。正在雷同的DP成立下，共享10%模子比共享40%模子发扬出更好的职能。这是由于总的隐私本钱ε是由教练流程中加添的噪声量和共享的参数数联合界说的。通过固定每个参数DP本钱，共享较少的变量具有更少的总体DP本钱，从而获取更好的模子职能。

咱们提出了一个用于脑肿瘤支解的联邦练习体系，查究了撮合模子共享的各个现实操纵方面，中心探索怎么维持患者数据隐私。固然供给了庞大的不同性隐私维持手段，但隐私本钱分派是守旧的。正在异日，咱们将查究用于医学图像说明职司的微分隐私SGD算法（如参考文献[1]）。雷锋网

联系人：	王先生
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们