医疗业走出联合学习跨业结盟新模式,更成其他产业AI协助典范

对台湾医疗界来说,刚结束的2020年是特别的一年。2020年初,COVID-19疫情暴发,台湾人工智能实验室(AI Labs)联手台大医院、医保局、疾管局,以联合学习(Federated Learning)开发肺炎病症检测模型,随后,台北荣总也发布了以国产AI超级计算机验证联合学习可行性的成果,更成立全脑联盟,联手数家医学中心进行脑部联合学习项目。此后,即便历经疫情间各行业的沉寂,联合学习趋势不减反增,还实现更多里程碑,“从此打开台湾联合学习的时代,”AI Labs创办人杜奕瑾直言。

联合学习解决医疗AI小数据瓶颈

AI是场资料竞赛,资料量越大、种类越多,AI的预测能力越好。但对医疗来说,先天的高度资料隐私特性,导致训练资料取得不易。在小数据的限制下,医院要开发够强够准确的AI,可谓难上加难。

因此近年来,国际兴起一种分布式机器学习方法──联合学习。它的核心概念是,以模型共享取代资料共享,在顾及资料隐私的前提下,解决训练资料不足的问题。它的机制是,分散各地的端点将各自的模型参数,上传至中央服务器,再通过服务器聚合(Aggregate)这些模型参数,经优化后再回放到各端点,进行下一轮模型训练,不断重复直到模型收敛。如此,各端点不必贡献资料,也能享有集中式机器学习的效果。

这个源自Google为了训练手机键盘App的做法,立刻引起苦于个人信息隐私瓶颈的金融圈、医疗界的重视,比如,微众银行发起一个跨国合作的联合学习框架,要来打造信用卡防欺诈模型,或是英特尔联手宾州大学医学院,与29家跨国医疗机构开发脑瘤侦测AI算法,又或是Nvidia携手全球20家医疗机构,以联合学习打造COVID-19肺炎病情恶化预警模型。

在屈指可数的联合学习框架上,还出现了专门用于医疗的联合学习框架Nvidia Clara以及国产的Harmonia,使医疗业在联合学习发展上,成了领头产业代表。

AI Labs助力、北荣验证,揭开台湾医疗联合学习序幕

台湾在2020年也跟上了这股医疗联合学习的新浪潮。国际疫情急剧升温时,催生了台湾第一套开放全球使用的医疗联合学习模型。当时,AI Labs联手台大医院和医保局,以自家医疗图片平台TAIMedimg的联合学习架构,开发出SARS-CoV-2检测模型平台,用来侦测肺炎病灶。这套模型能在无症状疑似个案的核酸检验报告出来前几天,协助医生从X光片判断肺炎病症,只要20秒就能完成,准确率达90%以上。

当时,行政院还主导将这套AI模型部署至医保局,只要医院上传胸部X光片,就会启动模型检测,如呈高风险,便会自动通报疾管局。这不仅是台湾第一个获政府采用的联合学习模型,还是第一套开放给全球医学专家使用的联合学习模型。

同样在2020年初,也出现了台湾医院自主发起的联合学习应用试验性研究,掀起医院主导联合学习的开端。这场试验发起人为开发脑瘤侦测AI DeepMets的关键人物,也就是台北荣总放射线部主任郭万佑。他找来擅长AI研究的瑞典查尔摩斯理工大学交换生Lukas Nyström,利用国网中心台湾杉二号的云计算虚拟环境,构建5个代表不同医院的节点(Node),来测试联合学习训练方法。

在这场试验后,他也启动全脑联盟,联手台大医院、三军总医院、林口长庚医院等医学中心,来进行脑部联合学习项目。至此,台湾联合学习时代在医疗业揭开序幕。

台湾也有自产联合学习开源框架,本土联合学习力量渐强

紧接着,7月,AI Labs开源了自家联合学习框架Harmonia,开放Harmonia-operator SDK和差分隐私(Differential Privacy)函数库下载。AI Labs开源Harmonia的目的,是要让联合学习“Made easy”,让用户轻松训练、部署联合学习模型。

此前,台湾一直是联合学习后进者,没有太多技术掌控力和话语权。但Harmonia的开源,让这一情况有了新的转变。一般常见的联合学习框架有Google的Tensorflow Federated、脸书的PySyft、Nvidia的Clara、百度的Paddle Federated Learning(PFL),以及中国纯网银微众银行的FATE,但前两者只限于模拟,无法用来部署。

而Harmonia的加入,不仅让联合学习工具的选择更多样,还可实际部署,提高实用性。它采用工程师熟悉的环境和语言,如热门的开源工具Kubernetes、Git Large File Storage和GitOps等。此外,Harmonia也具差分隐私函数库,专门用来防止有心人窃取模型参数,从中推导出特定个人信息。

台湾联合学习医疗联盟成立,生态系统俨然成形

11月,台湾医疗联合学习迎来值得纪念的里程碑。当时,AI Labs号召六大指标医院和政府机关,包括台大医院、三军总医院、台北荣总、北医附医、台北慈济医院、中国附医,以及掌握医保大数据的医保局、负责制定医材法规的食药店,还有推动医疗AI政策的科技部和国发会,来共同成立台湾联合学习医疗联盟。

联盟的运行,会由各领域专家提出联合学习协议,先行训练出一套联合学习样板AI模型后,再邀请有意愿的医疗单位加入,以各自的资料在端点训练模型。联盟一成立,便获得不少医院询问,关键推手杜奕瑾举例,不只台湾各地医学中心表明入盟意愿,就连规模较小的区域医院和地区医院,也对入会有着浓厚兴趣。目前,联盟进行的联合学习题目,已涵盖医疗图片、医疗数据、多组位基因、个人生理资料等领域。

杜奕瑾指明,联盟目标不只要提供医院构建联合学习系统的资源,还要以台湾为示范场景创建平台机制,来降低入门门槛。重要的是,联盟还将提供联合学习临床验证成果与相关法规认证的对接资源。

不只如此,台湾联合学习经验在2020年也获得不少国际注目。比如,由OECD国家倡议成立的国际指标性AI组织人工智能全球伙伴联盟(GPAI),就邀请台湾分享医疗防疫联合学与资料治理经验,作为AI发展所需解决的跨机构资料共享难题参考。此外,多个国家也找上AI Labs,来签订联合学习项目协议,像是全球基因组学与健康联盟(GA4GH)。

东风已来,台湾医疗FL模式成产业AI协助示范

至此,台湾医疗联合学习发展走过试验落地、开发工具自产、产官联盟正式成立的阶段,加乘了医疗联合学习的发展能量,生态系统俨然成形。

更大的意义是,这一套联合学习框架、工具和实务发展经验,不只适用于医疗产业,只要有小数据或资料隐私考量,又需要大数据来训练AI模型的场景,也可以借鉴医界结盟的做法和经验,来发展出其他产业或集团式的联合学习实践,甚至是用来尝试更多过去受限资料不足无法展开的AI应用创新。杜奕瑾更透露,AI Labs正将医疗联合学习模式,推广到智慧城市和人机应用领域,将陆续提出相关计划。

联合学习东风已来,先行乘风起飞的台湾医疗业,成为AI协助开发的产业代表,可以成为其他产业发展AI小数据的参考范例。