多任务多模态AI加速商品化,企业流程虚实集成有更多新选择

一套模型通吃多任务,是迈向通用AI的关键一步。这个顶尖专家努力钻研数十年的题目,在2021年,有了新的大变化。各大科技巨头相继发现,原本擅长自然语言处理(NLP)的Transformer架构,也能用来同时解决文本、图片,甚至是视频等不同模态的任务,效果还更好。

比如在2021年10月,微软亚洲研究院披露了一款超强OCR工具TrOCR,完全不需要计算机视觉专用的卷积网络(CNN),单用一套Transformer就能识别图片和生成文本,手写识别和复印识别两种任务更达到高端水准。

OCR工具用途广泛,银行票据手写识别、街景招牌识别、发票识别都少不了它,如何让数字世界理解真实世界信息的意义,OCR正是最关键的核心技术。这个技术的演进,带来的不只是应用面的提升,更是会对虚实集成应用带来根本性的影响,例如企业就更容易将实体流程,串联到数字应用上,来展开更自动化的流程。

Transformer:从跨域尝鲜到快速爆发

Transformer架构是这场多任务、多模态AI竞赛的主角。它是NLP专用架构,2017年问世后,改写了NLP设计思维,堪称NLP分水岭的大型语言预训练模型BERT和能生成真人难以识别文章的模型GPT-3,都以Transformer为基础。

2020年夏天,脸书开出第一枪,将Transformer用于文本处理以外的计算机视觉任务,打造一套图片识别模型DETR,不仅简化了识别工作,表现还达到Faster R-CNN般的高端水准。Google也紧追在后,以Transformer实例计算机视觉任务,打造出广受AI社群爱戴的图片识别模型ViT,号称比CNN网络更有效率。

这两项研究一发布,立刻引起各大AI领袖和ML社群关注,因为,两大巨头都证实了Transformer的计算机视觉潜力,很可能挤下独占鳌头的CNN。他们也证明,Transformer有能力处理不同模态的任务。

两大巨头的研究揭开序幕后,2021年迎来Transformer多任务、多模态AI的快速爆发潮。就重点模型来说,年初,OpenAI先是以Transformer架构打造可同时处理图片和文本这两种模态资料的模型DALL·E,号称是图片版GPT-3,还推出能配对文本和图片的CLIP模型。脸书也随之发布一系列Transformer改良模型,其一是UniT,能同步处理两种模态资料和7种任务,NLP、自然语言理解(NLU)、图片识别、对象侦测等任务都能解。

年中,Google在自家年度开发大会I/O上,首度披露两款能同时处理文本和图片的Transformer模型MUM与LaMDA,甚至还预告要用来改善Google搜索的用户体验。同时,北京智源AI研究院发布的悟道2.0模型,不仅能文生文、图生文,还能图文生文,兴诗作词、文案和图片生成都不是问题。

而DeepMind,也用Transformer打造精准预测蛋白质结构的AlphaFold 2,再次证明Transformer的普适性。DeepMind后来还发布跨模态模型Perceiver IO,能精准分类文本、图片、视频和用来表示对象外观的点云数据。

从研究实验走向商用化,企业将有更多选择

虽然这些多任务、多模态AI系统多处于研究实验阶段,但也有些已在实用上拿下好成绩。比如,斯坦福大学开源一套Transformer模型ConVIRT,可自动替X光片加上文本注解。脸书则利用多模态模型来侦测仇恨言论,能一次阅读文本、图片和视频等内容并归类为有害或无害。

甚至,微软年底发展出新一代计算机视觉基础模型Florence v1.0,除了通吃各计算机视觉任务外,还能处理图片与文本任务,拿下TextCaps等多项挑战赛榜首。但这不单是研究成果,微软强调,Florence v1.0已集成至Azure云平台,来优化自动添加图说、加标签、自定义对象侦测等功能。

微软更透露,Florence系列模型未来还能作为预训练模型,企业只要提供少样本资料,就能微调模型,打造成所需的预测系统。而且,微软还打算用Florence模型来改善微软365的智慧照片功能,以及产业云中的商品图片合规性检查。

在公有云企业手上,多任务AI已经开始成为商用化产品的新服务。按照微软近年加速将AI技术商品化的策略,开头提到的OCR工具TrOCR,很可能明年就用来改善微软原有的企业级OCR服务,甚至打造成一项新服务,供企业用来打造自己的OCR工具。

抢进Transformer多任务、多模态AI商机的不只微软。Line在年末的全球开发者大会中,披露一款企业级AI服务HyperCLOVA,该服务就以同名的大型多语言模型HyperCLOVA为核心,不仅能生成广告文案、摘要等,还能作为企业训练NLP模型的帮手,比如产生训练资料集、开放预训练模型来让企业用户微调。Line预告,接下来,他们还要让HyperCLOVA学会处理图片信息,来提供结合图文分析能力的服务。

对企业来说,明年,将见到更多以Transformer为基础的多任务、多模态AI服务,不仅不需要耗费训练成本自行开发,这些模型,还将提供更多新选择。像是,多任务多模态AI中,图片识别AI、OCR文本AI结合成单一的图文AI服务,就已跨出商品化的第一步:微软Florence已成为Azure平台认知服务的增值功能,也有机会变成企业可以定制使用的独立服务。

许多纸质文件、实体物品上的文本,都需要通过OCR技术,若进一步运用图文AI,一次取得文本和图片,让数字世界的App能同步取得文本意义和图片来展开交互,当这样的多任务多模态AI商用化之后,不只冲击企业流程自动化,也能带来更多企业虚实集成应用的新可能。