微软公开预览先进计算机视觉基础模型Florence

微软公开Project Florence的最新成果，公开预览Florence基础模型，该模型现在已集成至Azure Cognitive Service for Vision，提供新的计算机视觉服务。新的视觉服务提供自动图说、智能裁切、分类、背景移除和图像搜索等功能，同时该服务还提供负责任人工智能功能，用户可以控制关注活动、分析环境，并接收即时警示。

Project Florence是微软的人工智能认知服务研究计划，目的是要研发先进的计算机视觉技术，开发下一代计算机视觉识别框架。官方提到，从2012年深度学习技术有所突破以来，图像分类的准确率，已经从50.9%上升到90.2%。

但是微软认为，距离实际应用计算机视觉技术仍有一段路要走，通用对象侦测的精确度只有65.9%，无法实际应用在关键任务，况且在视频上的应用挑战更大。因此微软想借由Project Florence，推进计算机视觉技术的发展。

微软在2021年发布《Florence: A New Foundation Model for Computer Vision》论文，Florence是一个计算机视觉的基础模型，在资料集ImageNet-1K零样本分类中，top-1精确度达到83.74%，top-5精确度可达97.18%。微软提到，该模型经数十亿笔图像文本资料进行训练，现在集成至Azure Cognitive Service for Vision，提供生产用计算机视觉服务。

微软开始在旗下的应用程序中集成新的视觉服务，包括Teams、PowerPoint、Outlook、Word、Designer、OneDrive等Microsoft 365应用程序，Teams应用新模型的图像分割功能，而PowerPoint、Outlook和Word以模型替图像自动产生替代文本，以提高无障碍性，Designer和OneDrive则是运用新视觉服务的图像标记、图像搜索和背景生成，以简化图像搜索和编辑任务。另外，Microsoft Datacenters也使用新的视觉服务，强化安全性和基础架构可靠性。

用户现在可于Vision Studio立即试用由Florence基础模型所加持的计算机视觉功能，诸如图说生成、图像搜索、背景移除、模型自订等功能。在Vision Studio中还能试用视频总结功能，不需要额外的元数据，让用户可直觉地搜索视频内容。