自然语言处理服务Amazon Comprehend现支持Word和PDF文件格式

AWS更新自然语言处理服务Amazon Comprehend，开始支持Word和PDF文件，让用户可以从这些类型的文件截取资料。Amazon Comprehend能够分析不同语言的文本，并且识别这些文本的内容，诸如人名、地点、品牌和产品等，同时还能理解文本中的关键句子和情绪，或对大量文件的内容，依照主题加以分类。

无论是开设银行账户、申请保险或是房屋借款等程序，皆大量使用纸质文件，而这些文件动辄超过百页，对于企业来说，手动处理这些文件是一件繁琐的工作，不只需要人工，而且速度缓慢容易出错，而借由使用Amazon Comprehend，可以大幅加速文件的创建和管理，并且降低出错几率。

Amazon Comprehend新的解决方案，可处理PDF、Word和原始文本等文件格式，或是笔记和列表等布局，并进行内容截取和分析，AWS提到，这次推出的解决方案，结合自然语言处理和光学字符识别技术，能够减少企业文件的预处理和后处理工作量，用户不再需要将文件转换成原始文本，就能够使用自定义命名实体识别（NER）功能。

过去Amazon Comprehend只能处理纯文本文件，这需要用户先将文件整理成机器可读的文本，但用户现在能够利用Amazon Comprehend以相同的API，直接从PDF和Word中的文本或是列表等不同文件布局，截取特定词语。

新的Amazon Comprehend自定义实体识别模型，综合分析结构上下文和自然语言上下文，从文件中的任何位置，截取自定义词语实体。AWS提到，用户对于每一种实体类型，只要提供250个文件和100个注解，即可训练模型并且开始使用该功能，而为了要扫描PDF并截取空间位置，Amazon Comprehend会调用Amazon Textract服务，来执行必要的处理。

这项新功能有助于企业处理保险、抵押、金融等业务中的文件处理工作流程，通常这些文件布局复杂，用户也不需要页面上的每一个人信息料点，因此截取特定信息存在困难，而Amazon Comprehend这项新功能，可以使用机器学习，使用单个模型和API调用，快速截取自定义的词语，像是处理汽车或健康保险文件中的索赔金额，甚至是在抵押贷款中，截取申请人姓名、共同签署人或是其他财务文件信息等。