5亿份简历数据被爬取后出售，领英诉爬取者为何陷入困局

6月14日，美国最高法院要求下级法院重审hiQ抓取领英用户资料一案。此前的裁决认为，领英不应禁止竞争对手hiQ Labs从领英用户公开的个人资料中收集用户信息。

领英认为，运用“机器人”对用户资料进行大规模抓取会严重威胁用户隐私。而对手hiQ Labs则辩称，自己并未出售用户信息，领英的诉讼目的是垄断公共数据，会伤害互联网的开放和创新。

尽管hiQ Labs未出售抓取的用户信息，但对领英来说，数据被各种爬虫工具抓取导致的“用户隐私风险”确实存在。今年4月，有媒体报道，从5亿份领英简历中抓取的数据存档在一个黑客论坛上被出售。

对手抓取用户公开数据，领英认为威胁隐私

领英是微软旗下拥有7亿多用户的职场社交平台，大量用户在该平台上公开自己的教育背景、从业经历等个人信息。hiQ Labs是一家数据分析公司，该公司官网介绍“运用机器学习技术向企业提供员工离职风险和技能分析，帮助HR更好地做决策”。

领英对hiQ Labs的诉讼始于2017年，反对hiQ Labs用“机器人”在网站上抓取用户资料。在该诉讼中，领英援引了美国反黑客的《计算机欺诈和滥用法案》（CFAA），该法案禁止未经授权访问他人计算机。领英称，hiQ Labs对用户数据的大规模自动抓取，违反了领英用户协议中的访问和使用限制，等同于黑客行为，威胁到用户的隐私。

hiQ Labs 辩称，公共数据必须保持公开，大公司不应以垄断的方式囤积公共数据，领英的诉求会影响互联网的开放和创新。而且，hiQ Labs只将抓取的信息用于宏观分析，并未售卖用户的个人资料。

2019年，法院做出判决，领英败诉。判决理由是，CFAA法案不禁止公司抓取可在互联网上公开访问的数据。

值得一提的是，该法案于1996年颁布，在近几年引发越来越多的争议，被很多人批评“已跟不上时代发展”。

随后，领英诉至最高法院，认为hiQ Labs的自动抓取软件“机器人”可以大规模收集数据，远远超出任何个人查看公共资料可带来的后果，不能等同于互联网的一般访问。

最高法院要求上诉法院重审此案，这或许将给领英一个机会保有对用户数据的控制权。

事实上，不论领英诉讼的真正动机是垄断还是保护用户隐私，其主张的数据抓取风险已被证实。今年4月，微软发布公告称，领英的一些数据已被抓取并发布出售，包括可公开查看的用户个人资料。尽管微软没有说明多少用户的资料被售卖，但有媒体报道，从5 亿份领英简历中抓取的数据存档在一个黑客论坛上被出售。

四年诉讼无果，数据爬虫是否违法难界定

从2017年至今，领英的反数据抓取诉讼已经过了4年，至今未有结论。有律师认为，如果法律禁止“机器人”对互联网上的公开数据进行抓取，那么所有的搜索引擎都将不复存在。

领英曾在2019年起诉100个未具名的数据抓取者，请求法院揭露这100个IP地址背后的爬虫者身份。这份诉讼书中介绍，领英通过拦截工具来防止数据抓取行为，这些工具可以监控用户的网络流量，并限制用户查看的个人资料的数量以及用户查看这些个人资料的速度。因此，当爬虫软件访问网站时，会被识别为异常流量而被拦截。

但领英会将谷歌这样的搜索引擎网站设置到“白名单”中，这些受信任网站在访问领英时，可以抓取公开数据，不会受爬虫拦截工具影响。2019年，在面对媒体询问“好的抓取”和“坏的抓取”的区分标准时，领英没有给出明确答案。

一方面，搜索引擎作为互联网非常重要的一部分，其对网页的抓取正是利用爬虫工具。如果禁止爬取数据，搜索引擎将不能使用。另一方面，进入大数据时代，非法的数据爬取带来的负面影响正不断显现。

2019年，南都曾报道大数据爬虫黑产，揭秘非法抓取用户数据的黑色产业链——“专业老手”编写爬虫软件、提供软件定制服务、黑产团伙购买软件批量生成“大数据”信息再转手出售。

2020年，美国的人脸识别公司Clearview AI声称其从公开的社交网络上收集了超过30亿张人脸照片，引发外界强烈批评。Facebook、LinkedIn 和 Twitter 均要求该公司停止收集行为。

今年2月，加拿大隐私监管机构裁定，Clearview AI的行为违反了加拿大隐私法。此前，Clearview AI已经因违反美国伊利诺伊州的生物识别保护法而面临集体诉讼。（李娅宁）

声明：本文来自反垄断前沿，版权归作者所有。文章内容仅代表作者独立观点，不代表士冗科技立场，转载目的在于传递更多信息。如有侵权，请联系 service@expshell.com。