联合学习(Federated Learning)如何解决数据隐私问题?

在资料共享的大数据时代下,个人资料隐私问题也逐渐被大家重视,现在AI面临的最大挑战,就是要想出怎么解决隐私问题,同时优化中心模型算法。如今“联合学习”(Federated Learning),做到了!

我们都知道,要成为一个领域的专家,“经验”正是其中关键,而AI(人工智能)算法正是基于这样的概念不断突破进步。2015年10月,计算机围棋程序AlphaGo击败中国出生的法国职业二段围棋棋士,樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋士的AI,写下了历史,该事件更在2016年1月发布在知名期刊《Nature》上。

经过这件事后,AI算法被大量广泛运用,科技的进步让数据无所不在。

隐私法案的出现,让资料取得出现重重阻力!

2018年,脸书爆出剑桥分析事件后,各国更加重视资料隐私权,并纷纷祭出严格的隐私条款。

像欧盟就在2018年5月通过GDPR(General Data Protection Regulation)法案,明确规定所有与个人相关的信息都是个人数据,对数据的使用行为必需要有用户的明确授权与同意,这让数据使用、集成与共享难上加难。

在这样的挑战下,Google于2016年推出一项崭新概念:“联合学习”(Federated Learning)。

你知道机器学习,但你知道什么是联合学习(Federated Learning)吗?

为了解释联合学习的概念,Google还特地推出一款漫画。

简单来说,联合学习(federated learning)可以让人工智能算法从不同来源的大量资料中获得经验,同时在“敏感用户资料”不离开设备的前提下进行机器学习。有了联合学习,我们可以使用“去中心化的数据来训练中心化的模型”

这是什么意思呢?因为过去为了优化AI算法,会将用户数据上传到数据中心服务器中进行机器学习。

现在为了保护用户隐私,加上边缘运算的趋势,联合学习只需要将“模型训练”导入各个用户的设备上,接着算法就会将“用户设备上集成得到的相关数据”,直接送到数据中心服务器上,这样就能用来强化中心服务器的演算力,也能确保修户隐私受到保护。

联合学习(Federated Learning):改变医疗科技面貌

联合学习这项技术的优点特别适合用在医疗生态系统统,彻底改变训练人工智能模型的方式。

过去为了保护病患隐私,医院只能依赖自己收集的资料,很难取得大量的疾病资料,但是在联合学习的协助下,多个组织可以合作开发模型,又不用彼此直接分享机密的临床资料。

在经过多次训练反复运算的过程中,医疗机构之间的共享模型接触到的资料量,会比任何单一组织内部拥有的资料量还要更多。

文章开头提到“要成为专家一定要累计经验”之谈,运用在医疗场景中,就代表要成为医学专家,少说也要工作15年才能培养出特定医学专业能力,而这样的专家一年大概要看1.5万个病人,也就是说,这15年中医生总共读22.5万个病例才能够达到临床等级的准确性。

但是如果今天是罕见疾病,就算是一位有30年经验的专家,在医学生涯中顶多也只能接触到100个病患。

用去中心化的数据强化中心模型

为了训练出与医学专家水准相当的模型,我们需要将大量病例投到AI算法中,但是为了保护病患隐私,联合学习不用把资料集中到一处,而是在分散的地方进行多次反复运算,以训练深度学习模型。

例如,有三间医院决定合作开发一个自动分析脑瘤图片的模型。他们就需要使用客户端服务器,省去创建“单一资料湖训练模型”的过程各参与的医院只需从每个终端设备发送分析结果到“中央服务器”就能训练,还能将资料集存放在自己的安全基础设施中。

中央服务器再汇总各参与医院送回的模型,同时将更新后的参数分享给参与的医院,以便它们能够继续在客户端进行训练。

如果其中一间医院决定要离开训练团队,模型训练事宜也不会中断,因为它并不依赖任何特定资料,新医院也能选择随时加入这项训练活动。

这只是联合学习的多种做法之一,而这些做法的公用点是各参与者都能投入自己资料,又获得完整知识,可谓是各方皆赢的做法。

联合学习(Federated Learning):解决收集机密临床资料的挑战

实施联合学习依旧要谨慎,以确保患者资料的安全无虞,不过联合学习或许有机会解决部分需要收集机密临床资料之方法所面临的挑战。

这么一来就变得更难拿取机密的患者资料,联合学习让医疗团队可以创建规模更庞大多样的资料集,以训练其AI算法。

规模大的医院网络可以提供协同作业的程度,且享有跨机构取得安全资料的优点;规模较小的社区医院与乡村医院则能取得专家级的AI算法。

这么一来便能将人工智能带到医疗看护环境,将来自单位的大量多样资料纳入模型开发作业,又能遵守在本地管理临床资料的要求。

Nvidia利用联合学习开发医疗图片AI系统

最近Nvidia与伦敦国王学院(King’s College)合作利用此学习模式,开发医疗用图片的AI系统,可在无需创建单一资料湖(Data Lake)的情况下训练,确保隐私受保护。

总部设于英国的药物研发联盟MELLODDY,旨在证明联合学习技术能让制药领域的合作伙伴享受到两全其美的优点,也就是能够利用全球最大的人工智能合作药物化合物资料集进行训练,又不失去资料隐私。

参考资料

《Federated. withGoogle》、《Nvidia》