美国国卫院创建国家级医疗AI数据库，未来数据将完全共享

随着医疗AI兴起，近年来，不少国家开始构建国家级医疗AI数据库。

而美国则不限定图片领域，“在去年启动了医疗AI数据库计划，”美国国家卫生研究院（NIH）神经异常暨中风研究中心（NINDS）信息科技与生物信息部门主任范扬政说道。他在美国国卫院任职近20年，构建过不少主要IT系统和大型生医数据库，像是可预测蛋白质交互作用的数据库IBIS、生医转译研究信息系统（BTRIS）、生医研究消息运算系统（BRICS）等，近来更专注于医疗AI数据库的构建。

他指出，2018年时，美国国卫院与Google、微软、麻省理工学院等在医疗AI领先的团队，共同讨论未来方向，一致认为唯有NIH构建AI-ready的数据库，医疗AI才能大幅进步。

FHIR和FAIR是美国国卫院医疗AI数据库的2大准则，首重数据可取性和共享性

于是，NIH制定了几个大方向，并启动了医疗AI数据库的构建计划。首先，医疗AI数据库的目标有两个，第一是要创建、管理可用于AI生医应用的数据集，而且这些数据集要可用、有代表性且合乎伦理；第二则是要共享和维护这些数据集。

要达到这两个目标，“FHIR和FAIR就是2大准则。”其中，FHIR指的是一套数据标准，能用来描述数据格式（Data format）和元素（Element），此外，它也指用来交换电子病历或生医研究数据集的应用程序接口（API）。FHIR旨在强化医疗信息的流通，不仅能让医疗消息用于多种设备，比如计算机、手机、平板，还可提供信息给第三方服务开发者，有助于医疗信息的互通。

对NIH来说，FHIR还包括一个关键，也就是数字对象识别码（DOI）。DOI就像参考文献的身份证号码，具永久且唯一的特质，不必担心连接失效问题，因此可帮助研究人员快速找到数据库中的特定数据，是进行集成分析（Meta Study）的利器，“这也是NIH这1、2年构建数据库的重点。”

再来则是FAIR，也就是数据共享的原则，包括了可搜索（Findable）、可取得（Accessible）、可交互使用（Interoperable）、可重复使用（Reusable）等特点。范扬政指出，FAIR原则是要确保研究员能存储、使用和分享NIH产出的数据与软件，来加速创新技术的研发。

在这个基础上，他表示，未来NIH医疗AI数据库构建完成后，将提供完全开放的数据共享（Data Commons）服务，“这也是NIH未来5至10年的AI数据库走向，”就如同其他100多个已开放的研究数据库一样。

然而，数据开放难免引起个人信息隐私争议。范扬政解释，美国国卫院遵照新一套数据共享规则（Common Rules），除特殊疾病如精神疾病、爱滋病等之外，其他临床实验数据只要经去识别化，即可公开共享。这套规则，也适用于以往研究成果，也就是说，以往研究要是含有病人数据、且无法再次联系上病人时，只要将其数据去识别化即可发布。