LinkedIn以机器学习侦测不适当的个人文件内容

LinkedIn披露自家处理猥亵与非法服务广告等，不当个人文件内容的方法。官方提到，他们一直在开发各种安全系统，阻止假账号、防止滥用以及避免用户受虚假个人数据欺骗，他们以自动系统侦测并打击违反服务条款的行为，而不当个人文件内容便是其中一部分。

LinkedIn起初使用黑名单方法，创建一组违反服务条款的单词和短语，当系统发现账户的个人文件，含有其中任何一个不适当的单词和短语时，便将账户标记为欺诈账号，并从LinkedIn中移除。

但这个方法有一些缺点，首先是不可扩展性，因为这个方法需要手动调整黑名单列表，评估阻挡词句需要非常的小心，且许多单词适当与不适当的用法，跟上下文有关，LinkedIn表示，像是外送茶（Escort）这个词常用在卖淫上，但是也可用作医疗护送（Medical Escort）。

另外，黑名单方法的可维护性不好，要名单关注整体的性能很简单，但是根据列表关注每个词就不是一件容易的事，需要大量的时间确保系统的稳定性。LinkedIn需要非常确定账户的不合法性，才能删除账号，但由于以上原因，像是上下文影响字义的情况，管理员需要花费许多心力判断，因而限制了LinkedIn可以处理的账户数量。

为了提高侦测效率，LinkedIn决定使用机器学习方法，模型使用卷积神经网络（CNN），LinkedIn提到，CNN可以简单地处理像是Escort这种要依据上下文判断字义的案例。训练的数据集分为适当与不适当，不适当数据集大部分的数据来源，是以黑名单方法捕捉的，一小部分则是成员回应并经过人工审核。适当的数据集则直接从6.6亿个会员中抽样。

但由于数据集中不良的样本太少，可能会使训练产生偏见，LinkedIn提到，适当数据集中的合法数据，有一大部分是因为受黑名单的限制，当没有仔细调整训练数据集，则模型可能会模仿过去黑名单系统的行为。

以Escort作为例子，不适当使用Escort的个人文件数量，只是6.6亿个会员基础中的一小部分，当Escort适当使用的案例被降采样，而不适当使用Escort的案例采样数量不变，则会使训练数据集看起来，像是Escort不当使用的案例比适当使用的案例还要多，但是以实际全球会员个人文件来看，情况恰巧相反。针对这个问题，LinkedIn表示，他们找出各种产生伪阳性的问题词汇，并搜索正常使用这些词汇的会员文件，经手动标示放进适当数据集中。

目前这个模型被用来侦测平台上滥用账户，除了评估新账户之外，也会用来识别不适当内容的旧账户，LinkedIn提到，他们会扩展训练数据集，来扩张可识别的内容范围。