自然语言处理服务Amazon Comprehend现支持Word和PDF文件格式

AWS更新自然语言处理服务Amazon Comprehend,开始支持Word和PDF文件,让用户可以从这些类型的文件截取资料。Amazon Comprehend能够分析不同语言的文本,并且识别这些文本的内容,诸如人名、地点、品牌和产品等,同时还能理解文本中的关键句子和情绪,或对大量文件的内容,依照主题加以分类。

无论是开设银行账户、申请保险或是房屋借款等程序,皆大量使用纸质文件,而这些文件动辄超过百页,对于企业来说,手动处理这些文件是一件繁琐的工作,不只需要人工,而且速度缓慢容易出错,而借由使用Amazon Comprehend,可以大幅加速文件的创建和管理,并且降低出错几率。

Amazon Comprehend新的解决方案,可处理PDF、Word和原始文本等文件格式,或是笔记和列表等布局,并进行内容截取和分析,AWS提到,这次推出的解决方案,结合自然语言处理和光学字符识别技术,能够减少企业文件的预处理和后处理工作量,用户不再需要将文件转换成原始文本,就能够使用自定义命名实体识别(NER)功能。

过去Amazon Comprehend只能处理纯文本文件,这需要用户先将文件整理成机器可读的文本,但用户现在能够利用Amazon Comprehend以相同的API,直接从PDF和Word中的文本或是列表等不同文件布局,截取特定词语。

新的Amazon Comprehend自定义实体识别模型,综合分析结构上下文和自然语言上下文,从文件中的任何位置,截取自定义词语实体。AWS提到,用户对于每一种实体类型,只要提供250个文件和100个注解,即可训练模型并且开始使用该功能,而为了要扫描PDF并截取空间位置,Amazon Comprehend会调用Amazon Textract服务,来执行必要的处理。

这项新功能有助于企业处理保险、抵押、金融等业务中的文件处理工作流程,通常这些文件布局复杂,用户也不需要页面上的每一个人信息料点,因此截取特定信息存在困难,而Amazon Comprehend这项新功能,可以使用机器学习,使用单个模型和API调用,快速截取自定义的词语,像是处理汽车或健康保险文件中的索赔金额,甚至是在抵押贷款中,截取申请人姓名、共同签署人或是其他财务文件信息等。