脸书开发用于预防隐私外泄的AI资料分类系统

脸书结合多种资料信号、可扩展的系统基础架构，以及机器学习技术，构建了一个人信息料分类系统，以侦测语义类型，脸书提到，这对于以多种格式存储资料的组织特别重要，先以分类系统分类资料，后续才能让组织得以执行像是访问控制政策等，自动化隐私与安全相关的政策。

传统的资料外泄防护（Data Loss Prevention，DLP）系统，是利用资料指纹进行识别，通过监控端点以侦测与指纹相符的资料，但脸书表示，这种方法对于拥有大量且不断变化资料资产的组织来说，不只难以扩展，而且也无法有效率的探索资料的所在。而脸书的新系统，强调采用可缩放的基础架构，以多种信号以及机器学习技术，通过持续训练模型来解决这个问题，且可扩展应用到持久性与非持久性用户资料，处理各种资料类型和格式。

脸书提到，资料通常以两种形式进入组织，因此需要使用两种不同的策略，来侦测和分类这些资料。对于脱机存储的持久性资料，系统必须了解资料资产的范围，该系统会在不使客户端和其他资源重载的情况下，收集每个人信息料存储的元资料，并且创建成目录，使得资料检索更有效率。该系统会根据目录中需要扫描的资产，个别启动工作程序对资料资产进行实际的扫描。

每个工作程序都是已编译的二进制文件，并对可用的新资料进行采样，这些资料会被分成几列，并以列为单位截取特征，预测服务会根据这些特征，激活基于规则的机器学习分类，预测每列资料的标签，所有下游程序都能够从资料集读取这些预测结果，也可以从即时资料目录API读取预测结果。

而线上的非持久性资料，也需要受到保护，因此系统提供了一个线上API，可对非持久性流量产生即时的分类预测，该即时预测系统可对流出的流量、流入机器学习模型的流量，以及任何的即时资料进行分类。另外，脸书也设计了特别的机器学习系统，来处理非结构化资料分类。

脸书提到，企业通常需要制定一套明确的隐私政策，以保护人们的个人资料隐私，因此企业需要了解哪些元资料与特定消息相关联，以加快政策执行并且减少错误发生。脸书的新系统为自家数十个来源的资料资产，进行资料类型分类，以确保隐私与安全策略的执行，而且比传统资料外泄防护服务更灵活，能够简单增加对其他资料类型的侦测支持，并在有限的内存使用下，进行低延迟分类。