LinkedIn以机器学习侦测不适当的个人文件内容

LinkedIn披露自家处理猥亵与非法服务广告等,不当个人文件内容的方法。官方提到,他们一直在开发各种安全系统,阻止假账号、防止滥用以及避免用户受虚假​​个人数据欺骗,他们以自动系统侦测并打击违反服务条款的行为,而不当个人文件内容便是其中一部分。

LinkedIn起初使用黑名单方法,创建一组违反服务条款的单词和短语,当系统发现账户的个人文件,含有其中任何一个不适当的单词和短语时,便将账户标记为欺诈账号,并从LinkedIn中移除。

但这个方法有一些缺点,首先是不可扩展性,因为这个方法需要手动调整黑名单列表,评估阻挡词句需要非常的小心,且许多单词适当与不适当的用法,跟上下文有关,LinkedIn表示,像是外送茶(Escort)这个词常用在卖淫上,但是也可用作医疗护送(Medical Escort)。

另外,黑名单方法的可维护性不好,要名单关注整体的性能很简单,但是根据列表关注每个词就不是一件容易的事,需要大量的时间确保系统的稳定性。LinkedIn需要非常确定账户的不合法性,才能删除账号,但由于以上原因,像是上下文影响字义的情况,管理员需要花费许多心力判断,因而限制了LinkedIn可以处理的账户数量。

为了提高侦测效率,LinkedIn决定使用机器学习方法,模型使用卷积神经网络(CNN),LinkedIn提到,CNN可以简单地处理像是Escort这种要依据上下文判断字义的案例。训练的数据集分为适当与不适当,不适当数据集大部分的数据来源,是以黑名单方法捕捉的,一小部分则是成员回应并经过人工审核。适当的数据集则直接从6.6亿个会员中抽样。

但由于数据集中不良的样本太少,可能会使训练产生偏见,LinkedIn提到,适当数据集中的合法数据,有一大部分是因为受黑名单的限制,当没有仔细调整训练数据集,则模型可能会模仿过去黑名单系统的行为。

以Escort作为例子,不适当使用Escort的个人文件数量,只是6.6亿个会员基础中的一小部分,当Escort适当使用的案例被降采样,而不适当使用Escort的案例采样数量不变,则会使训练数据集看起来,像是Escort不当使用的案例比适当使用的案例还要多,但是以实际全球会员个人文件来看,情况恰巧相反。针对这个问题,LinkedIn表示,他们找出各种产生伪阳性的问题词汇,并搜索正常使用这些词汇的会员文件,经手动标示放进适当数据集中。

目前这个模型被用来侦测平台上滥用账户,除了评估新账户之外,也会用来识别不适当内容的旧账户,LinkedIn提到,他们会扩展训练数据集,来扩张可识别的内容范围。