Mozilla研究:光靠网页浏览记录就能精确识别用户

即便用户阻挡了第三方定位器,但第三方仍有办法识别用户,Mozilla研究指出,只要通过分析用户的浏览历史记录,就能够通过独特的网页浏览习惯,识别出用户,让广告商能够创建精确的个人资料文件,向用户推送精准广告。即便类似的研究在2012年已经进行过,但到了2020年,随着技术发展,现在能更精确的关注用户了。

Mozilla的研究人员复制并且扩展2012年的论文〈Why Johnny Can’t Browse in Peace: On the Uniqueness of Web Browsing History Patterns〉,并在2020安全会议Usenix上发布研究成果。在之前的研究中,研究人员预先列出了6,000个网站,并且使用特殊的CSS程序代码,关注441,627个不同的受试者,各访问过这6,000个网站中的哪些网站,并为每个用户创建一个专有的网站浏览历史记录列表。

研究人员发现,其中有97%的用户,拥有唯一的浏览历史记录,而这便可作为用户指纹,供第三方进行识别。当研究人员要求这些用户再次访问测试网站,只要查看用户在50个域名的浏览历史资料,就能识别出38%的用户,扩展分析到500个域名,则能将识别准确度提高到70%。

Mozilla的研究人员想要查看,2012年的这篇论文结论是否依然成立,因此在2019年7月开始了另一波新的实验,有超过52,000名Firefox用户自愿参加,由于这次的浏览历史资料直接从Firefox收集而来,比起过去的CSS方法更加可靠,而且研究人员收集的这些资料,与线上广告、移动应用程序和资料分析厂商收集的资料大致相同,也就是说,当Mozilla研究人员如果能够从这些资料识别出用户,则显然第三方也可以。

实验总共进行了两个星期,受试者会先于第一个星期,向Mozilla分享浏览历史记录,并会在第二个星期,再次与Mozilla共享资料,研究人员将尝试依据第一星期的资料,识别出用户。根据两周收集来的资料,研究人员收集了约66万个不同的域名浏览资料,共有3,500万次的网站访问资料,发现这超过52,000名的Firefox受试者,其中有48,919名具有唯一的浏览配置资料,也就是有99%是唯一的。

而且即便只关注前100名的网站,试用者的浏览模式仍然维持高度的唯一性,研究人员发现,只要用户在资料收集期间,曾拜访过50个或以上唯一域名的网站,光关注前1万个网站,就约可以识别出50%的用户,当用户浏览过越多网站,识别度就越高,当用户浏览超过150个不同的网站,则研究人员可以识别出80%的用户。研究人员警告,无数的第三方已经通过收集用户的浏览历史资料,将其作为唯一识别指纹来识别用户。