微软公开预览先进计算机视觉基础模型Florence

微软公开Project Florence的最新成果,公开预览Florence基础模型,该模型现在已集成至Azure Cognitive Service for Vision,提供新的计算机视觉服务。新的视觉服务提供自动图说、智能裁切、分类、背景移除和图像搜索等功能,同时该服务还提供负责任人工智能功能,用户可以控制关注活动、分析环境,并接收即时警示。

Project Florence是微软的人工智能认知服务研究计划,目的是要研发先进的计算机视觉技术,开发下一代计算机视觉识别框架。官方提到,从2012年深度学习技术有所突破以来,图像分类的准确率,已经从50.9%上升到90.2%。

但是微软认为,距离实际应用计算机视觉技术仍有一段路要走,通用对象侦测的精确度只有65.9%,无法实际应用在关键任务,况且在视频上的应用挑战更大。因此微软想借由Project Florence,推进计算机视觉技术的发展。

微软在2021年发布《Florence: A New Foundation Model for Computer Vision》论文,Florence是一个计算机视觉的基础模型,在资料集ImageNet-1K零样本分类中,top-1精确度达到83.74%,top-5精确度可达97.18%。微软提到,该模型经数十亿笔图像文本资料进行训练,现在集成至Azure Cognitive Service for Vision,提供生产用计算机视觉服务。

微软开始在旗下的应用程序中集成新的视觉服务,包括Teams、PowerPoint、Outlook、Word、Designer、OneDrive等Microsoft 365应用程序,Teams应用新模型的图像分割功能,而PowerPoint、Outlook和Word以模型替图像自动产生替代文本,以提高无障碍性,Designer和OneDrive则是运用新视觉服务的图像标记、图像搜索和背景生成,以简化图像搜索和编辑任务。另外,Microsoft Datacenters也使用新的视觉服务,强化安全性和基础架构可靠性。

用户现在可于Vision Studio立即试用由Florence基础模型所加持的计算机视觉功能,诸如图说生成、图像搜索、背景移除、模型自订等功能。在Vision Studio中还能试用视频总结功能,不需要额外的元数据,让用户可直觉地搜索视频内容。