纽约大学以神经网络改进放射科医师判读乳癌精确度

纽约大学训练深度卷积神经网络(CNN)用于判读乳房X光片,找出乳癌病征,并期望将机器学习模型侦测集成进乳癌筛检流程,能提高筛检效率,而实验也证实,机器学习模型预测乳癌的精确度已经高于单位放射科医师,而且在筛检流程中,同时结合医师的专业和模型预测,将能有效减少医生人力并提升判读精确度。

研究人员提到,乳癌的研究主要遭遇两项困难,第一是训练数据集不足,另一个则是乳房摄影的图像分辨率过大。由于采用深度学习方法的计算机视觉技术,需要大量的训练图像数据集,数据集的多寡会直接影响模型预测的精确度,而通常一般的计算机视觉应用,会使用拥有1,400万张图片的ImageNet数据集,作为训练数据。

不过,可用的公共乳癌数据集非常少,像是DDSM(Digital Database for Screening Mammography)数据集仅有一万张图像,因此为了要解决这个问题,纽约大学自己构建了乳癌筛检数据集,这是拥有大量乳房筛检X光片的庞大数据集,总共包含超过一百万张乳房X光照片。

另一个问题便是乳房X光照片的分辨率非常大,而且也必须要这么高的图片分辨率,模型才能良好地预测结果,但因为这些照片比起像是ImageNet这类数据集里的图像分辨率还要高上许多,碍于GPU内存的限制,研究团队必须要调整模型架构,他们创建了与一般ImageNet模型相比,相对较浅的22层ResNet模型。由于完整的乳房X光照片,是由4张乳房X光照片组成,因此研究团队也就同时为筛检应用4个ResNet模型。

研究人员解释,使用较浅的模型架构,意味着模型可能无法侦测到较小且局部的癌症组织,因此为弥补不足,他们也同时训练一个完整50层的ResNet-50模型,但仅用来分类图片补丁(Patch),而非整个乳房X光照片。采样的图片补丁大小为224×224像素,这个补丁会在完整的图片上滑动,以判断补丁中是否存在病变,借此搭建出癌症热点图。结合局部补丁与全局预测方法,该模型能侦测乳房X光照片中全局与局部特征。

研究团队对模型进行多个实验,该乳癌预测模型判读精确度比单个放射科医生还要高,而当一位放射科医生结合使用乳癌预测模型,则判断的精确度会比多位放射科医生的综合判读精确度还高,当多位放射科医生的判读加上乳癌预测模型,则精确度就更高了。总体而言,深度神经网络能有效的减轻放射科医生判读乳房X光片的负担,且能明显提高精确度。