微软开源多个基因组研究项目,方便用户以Azure进行生物信息运算

作为支持基因组学(Genomics)发展的实际作为,微软在GitHub上发布了多个相关开源项目,包括在Azure上支持科学用开源工作流程管理系统Cromwell,以及生物信息工具存储库Bioconductor,并且发布基因组学用笔记本Genomics Notebook,另外,微软也持续在Azure开放资料集平台,添加更多的基因组学公共资料集,供相关人员免费取用。

DNA定序技术推动了基因组学的研究进展,微软提到,在未来10年,基因组会成为临床决策,以及医疗保健服务的核心,而基因组学资料运算需求,将呈现爆炸性增长,相关的应用需要依赖云计算的敏捷性、可扩展存储与运算能力,还有资料安全性的支持。

微软持续在基因组学领域耕耘,对社群做出贡献,现在于GitHub开源Cromwell on Azure项目,Cromwell是一个用于科学的开源工作流程管理系统,而通过Cromwell on Azure项目,科学家可以方便地运用Azure运算能力,以超大规模计算资源,加速基因研究,Cromwell能够调度Azure Batch,协调动态计算资源,并且集成用户的Azure Blob资料存储,以方便访问资料进行高性能科学运算。

而微软也在Azure上,提供方便的生物信息工具Bioconductor,Bioconductor是用R语言开发的可扩展统计和图形组件存储库,可用于分析高通量基因组与生物医学资料,微软与Bioconductor核心团队合作,在Azure提供Bioconductor组件存储库支持。

现在,通过Docker Hub上的微软容器注册表,部署预先配置的Bioconductor Docker镜像文件,生物信息科学家和资料科学家,就能够快速使用Bioconductor组件,此外,用户还能取用Azure虚拟机模板,部署预先配置的基因组资料科学虚拟机,进行探索、分析和机器学习模型开发。

另外,微软也将Azure上的Jupyter Notebook开发为Genomics Notebook,专门提供基因组研究使用。Jupyter Notebook能够让资料科学家,使用R或是Python进行资料分析,而生物信息研究人员,也越来越依赖笔记本执行基因组资料分析,并利用临床、基因组以及EMR等资料,构建机器学习模型。

微软的Genomics Notebook,提供方便的预配置,用户可以在Azure工作区启动Genomics Notebook,使用预配置的功能,进行基因组变异检测、过滤、注释和转换基因组,并且构建机器学习模型。

Azure开放资料集平台上的基因组资料湖,提供更多公开可用的基因组资料集,现在包括医疗保健、制药和生命科学领域的用户,可以在Azure上免费访问这些资料集,并且把这些资料,集成到分析工作流程中使用。