Dropbox通过文本识别技术带来更强大的图片和PDF搜索能力

当一份文件被拍成照片并放入PDF 文件后,要在茫茫的文件海中找到它,往往是件旷日耗时的苦差事,然而昨天Dropbox 公布的新文本识别技术,或许多少能帮助你解决这项棘手的问题,至少当文件存放于该平台上的时候。据Dropbox 表示,在他们的服务上共存储了200 亿个图片和PDF 文件,其中的10% 到20% 的比例是文件的照片,而新的技术将能在搜索时提供识别图片和PDF 中文本的能力,帮助用户更快速找到需要的文件。

往后用户若需要通过关键字寻找特定的图片或是PDF,只要正常的使用搜索功能,Dropbox 便会显示包含相关字词的文件。 Dropbox 向网络媒体VentureBeat 表示,由于PDF 文件往往带有不只一页的内容,其庞大的运算需求大大增加了该功能的开发难度,也让此成为该公司机器学习团队成立以来,最复杂的挑战。然而,为了让功能顺利运行,目前的文本识别功能只会作用于文件中前 10 页的内容。

现阶段这项功能仅拥有识别英语的能力,并支持JPEG、静态的GIF、PNG、TIFF 和PDF 文件,即使文件是在该功上线前就上传至 Dropbox,也可以通过其进行搜索。比较遗憾的是,若你不是特定付费方案的用户,可能暂时无缘体验这项功能。首先,Dropbox Business Advanced 和 Enterprise 用户应该会在短期内就能享用到这项功能,接着 Dropbox Professional 也预计在几个月内会开放使用,但确切的时间仍待官方公布。