多任务多模态AI加速商品化，企业流程虚实集成有更多新选择

一套模型通吃多任务，是迈向通用AI的关键一步。这个顶尖专家努力钻研数十年的题目，在2021年，有了新的大变化。各大科技巨头相继发现，原本擅长自然语言处理（NLP）的Transformer架构，也能用来同时解决文本、图片，甚至是视频等不同模态的任务，效果还更好。

比如在2021年10月，微软亚洲研究院披露了一款超强OCR工具TrOCR，完全不需要计算机视觉专用的卷积网络（CNN），单用一套Transformer就能识别图片和生成文本，手写识别和复印识别两种任务更达到高端水准。

OCR工具用途广泛，银行票据手写识别、街景招牌识别、发票识别都少不了它，如何让数字世界理解真实世界信息的意义，OCR正是最关键的核心技术。这个技术的演进，带来的不只是应用面的提升，更是会对虚实集成应用带来根本性的影响，例如企业就更容易将实体流程，串联到数字应用上，来展开更自动化的流程。

Transformer：从跨域尝鲜到快速爆发

Transformer架构是这场多任务、多模态AI竞赛的主角。它是NLP专用架构，2017年问世后，改写了NLP设计思维，堪称NLP分水岭的大型语言预训练模型BERT和能生成真人难以识别文章的模型GPT-3，都以Transformer为基础。

2020年夏天，脸书开出第一枪，将Transformer用于文本处理以外的计算机视觉任务，打造一套图片识别模型DETR，不仅简化了识别工作，表现还达到Faster R-CNN般的高端水准。Google也紧追在后，以Transformer实例计算机视觉任务，打造出广受AI社群爱戴的图片识别模型ViT，号称比CNN网络更有效率。

这两项研究一发布，立刻引起各大AI领袖和ML社群关注，因为，两大巨头都证实了Transformer的计算机视觉潜力，很可能挤下独占鳌头的CNN。他们也证明，Transformer有能力处理不同模态的任务。

两大巨头的研究揭开序幕后，2021年迎来Transformer多任务、多模态AI的快速爆发潮。就重点模型来说，年初，OpenAI先是以Transformer架构打造可同时处理图片和文本这两种模态资料的模型DALL·E，号称是图片版GPT-3，还推出能配对文本和图片的CLIP模型。脸书也随之发布一系列Transformer改良模型，其一是UniT，能同步处理两种模态资料和7种任务，NLP、自然语言理解（NLU）、图片识别、对象侦测等任务都能解。

年中，Google在自家年度开发大会I/O上，首度披露两款能同时处理文本和图片的Transformer模型MUM与LaMDA，甚至还预告要用来改善Google搜索的用户体验。同时，北京智源AI研究院发布的悟道2.0模型，不仅能文生文、图生文，还能图文生文，兴诗作词、文案和图片生成都不是问题。

而DeepMind，也用Transformer打造精准预测蛋白质结构的AlphaFold 2，再次证明Transformer的普适性。DeepMind后来还发布跨模态模型Perceiver IO，能精准分类文本、图片、视频和用来表示对象外观的点云数据。

从研究实验走向商用化，企业将有更多选择

虽然这些多任务、多模态AI系统多处于研究实验阶段，但也有些已在实用上拿下好成绩。比如，斯坦福大学开源一套Transformer模型ConVIRT，可自动替X光片加上文本注解。脸书则利用多模态模型来侦测仇恨言论，能一次阅读文本、图片和视频等内容并归类为有害或无害。

甚至，微软年底发展出新一代计算机视觉基础模型Florence v1.0，除了通吃各计算机视觉任务外，还能处理图片与文本任务，拿下TextCaps等多项挑战赛榜首。但这不单是研究成果，微软强调，Florence v1.0已集成至Azure云平台，来优化自动添加图说、加标签、自定义对象侦测等功能。

微软更透露，Florence系列模型未来还能作为预训练模型，企业只要提供少样本资料，就能微调模型，打造成所需的预测系统。而且，微软还打算用Florence模型来改善微软365的智慧照片功能，以及产业云中的商品图片合规性检查。

在公有云企业手上，多任务AI已经开始成为商用化产品的新服务。按照微软近年加速将AI技术商品化的策略，开头提到的OCR工具TrOCR，很可能明年就用来改善微软原有的企业级OCR服务，甚至打造成一项新服务，供企业用来打造自己的OCR工具。

抢进Transformer多任务、多模态AI商机的不只微软。Line在年末的全球开发者大会中，披露一款企业级AI服务HyperCLOVA，该服务就以同名的大型多语言模型HyperCLOVA为核心，不仅能生成广告文案、摘要等，还能作为企业训练NLP模型的帮手，比如产生训练资料集、开放预训练模型来让企业用户微调。Line预告，接下来，他们还要让HyperCLOVA学会处理图片信息，来提供结合图文分析能力的服务。

对企业来说，明年，将见到更多以Transformer为基础的多任务、多模态AI服务，不仅不需要耗费训练成本自行开发，这些模型，还将提供更多新选择。像是，多任务多模态AI中，图片识别AI、OCR文本AI结合成单一的图文AI服务，就已跨出商品化的第一步：微软Florence已成为Azure平台认知服务的增值功能，也有机会变成企业可以定制使用的独立服务。

许多纸质文件、实体物品上的文本，都需要通过OCR技术，若进一步运用图文AI，一次取得文本和图片，让数字世界的App能同步取得文本意义和图片来展开交互，当这样的多任务多模态AI商用化之后，不只冲击企业流程自动化，也能带来更多企业虚实集成应用的新可能。