美国国卫院创建国家级医疗AI数据库,未来数据将完全共享

随着医疗AI兴起,近年来,不少国家开始构建国家级医疗AI数据库。

而美国则不限定图片领域,“在去年启动了医疗AI数据库计划,”美国国家卫生研究院(NIH)神经异常暨中风研究中心(NINDS)信息科技与生物信息部门主任范扬政说道。他在美国国卫院任职近20年,构建过不少主要IT系统和大型生医数据库,像是可预测蛋白质交互作用的数据库IBIS、生医转译研究信息系统(BTRIS)、生医研究消息运算系统(BRICS)等,近来更专注于医疗AI数据库的构建。

他指出,2018年时,美国国卫院与Google、微软、麻省理工学院等在医疗AI领先的团队,共同讨论未来方向,一致认为唯有NIH构建AI-ready的数据库,医疗AI才能大幅进步。

FHIR和FAIR是美国国卫院医疗AI数据库的2大准则,首重数据可取性和共享性

于是,NIH制定了几个大方向,并启动了医疗AI数据库的构建计划。首先,医疗AI数据库的目标有两个,第一是要创建、管理可用于AI生医应用的数据集,而且这些数据集要可用、有​​代表性且合乎伦理;第二则是要共享和维护这些数据集。

要达到这两个目标,“FHIR和FAIR就是2大准则。”其中,FHIR指的是一套数据标准,能用来描述数据格式(Data format)和元素(Element),此外,它也指用来交换电子病历或生医研究数据集的应用程序接口(API)。FHIR旨在强化医疗信息的流通,不仅能让医疗消息用于多种设备,比如计算机、手机、平板,还可提供信息给第三方服务开发者,有助于医疗信息的互通。

对NIH来说,FHIR还包括一个关键,也就是数字对象识别码(DOI)。DOI就像参考文献的身份证号码,具永久且唯一的特质,不必担心连接失效问题,因此可帮助研究人员快速找到数据库中的特定数据,是进行集成分析(Meta Study)的利器,“这也是NIH这1、2年构建数据库的重点。”

再来则是FAIR,也就是数据共享的原则,包括了可搜索(Findable)、可取得(Accessible)、可交互使用(Interoperable)、可重复使用(Reusable)等特点。范扬政指出,FAIR原则是要确保研究员能存储、使用和分享NIH产出的数据与软件,来加速创新技术的研发。

在这个基础上,他表示,未来NIH医疗AI数据库构建完成后,将提供完全开放的数据共享(Data Commons)服务,“这也是NIH未来5至10年的AI数据库走向,”就如同其他100多个已开放的研究数据库一样。

然而,数据开放难免引起个人信息隐私争议。范扬政解释,美国国卫院遵照新一套数据共享规则(Common Rules),除特殊疾病如精神疾病、爱滋病等之外,其他临床实验数据只要经去识别化,即可公开共享。这套规则,也适用于以往研究成果,也就是说,以往研究要是含有病人数据、且无法再次联系上病人时,只要将其数据去识别化即可发布。