网络爬虫作为一种计算机技术就决定了它的中立性,爬虫本身在法律上并不被禁止,但是如果有一些别有用心的人,去使用爬虫做一些违法的事情,那就违法了。爬虫本无罪,有罪的是贪得无厌、险恶的人心。正如水果刀本身在法律生并不被禁止,但你用来杀人,就等着坐牢吧!

尽管在过去 20 年间已经做出了诸多相关裁决,不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。如果被抓取的数据用于个人用途,且在合理使用版权法的情况下,通常没有问题。

但是,如果这些数据会被重新发布,并且抓取行为的攻击性过强导致网站宕机,或者其内容受版权保护,抓取行为违反了其服务条款的话,那么则有一些法律判例可以提及。

网络爬虫界有一句流行的话“爬虫玩的好,监狱进的早;爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”,纵观国内外,不少因为网络爬虫引发的案件,两个公司之间打官司,公司员工被抓进去等等,这些案例不胜枚举。

国外案例

发生在美国一个起诉案件,在 F 公司 起诉 R 公司使用爬虫技术抓取了网站客户的联系方式,美国联邦最高法院裁定抓取并转载真实数据(比如电话清单)是允许的。在澳大利亚,发生的一类似案件中,则裁定只有拥有明确作者的数据,才可以受到版权的保护。

另一起发生于美国的美联社起诉融文集团的内容抓取案件中,则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。此外,在欧盟发生的一个案件中,最终裁定定期抓取和深度链接是允许的。还有一些案件中,原告控告一些公司抓取强度过大,尝试通过法律手段停止其抓取行为。在 Q 公司 诉讼 W 公司的案件中,裁定除非抓取行为造成了私人财产损失,否则不能被认定为故意侵害,即使爬虫活动导致了部分站点的可用性问题。

这些案件告诉我们,当抓取的数据是现实生活中真实的公共数据(比如,营业地址、电话清单)时,在遵守合理的使用规则的情况下是允许转载的。但是,如果是原创数据(比如,意见和评论或用户隐私数据),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款,确保你所获取的数据不是私有或受版权保护的内容。如果你还有疑虑或问题,可以向媒体律师咨询你所在地区的相关判例。

国内案例

国内相关条文与国外存在许多不同,如果您使用爬虫技术窃取个人隐私信息,或者公司的商业机密信息等,则真的会面临牢狱之灾,同时使用爬虫技术攻击他人网站,造成他人网站宕机,从而引起财产受到损失的也会受到相应处罚。

2021 年10 月 15 日,北京市朝阳公安分局对外公开,按照公安部“净网 2021”专项行动整体部署,朝阳警方深入落实打击网络违法犯罪。

在市局网安总队等有关部门的支持下,经过半个多月的缜密侦查,将一个非法获取计算机信息系统数据的犯罪团伙一网打尽,抓获 23 名犯罪嫌疑人。据朝阳警方称,某购物网站工作人员近期报警,其网络购物“直播间”存在异常访问情况,怀疑直播数据被非法窃取。

经审讯,王某漪、杨某宁和杨某等人交代了他们利用“爬虫”软件非法获取网站数据,进行数据处理后倒卖获利 40 余万元的犯罪事实。据悉,王某漪等人此前曾合伙创业,但因经营不善没有赚到钱,心灰意冷之际,他们发现买卖购物网站上的客户信息可以赚大钱,于是便走上了这条违法犯罪的不归路。

2020 年 9 月份,河南商丘市睢阳区人民法院的一份刑事判决书,曝光了这起淘宝爬虫案件的细节,涉及11亿条用户个人信息,数量之大,让人大跌眼镜。淘宝公司报警称,有黑产通过mtop订单评价接口,绕过平台风控批量爬取加密数据,爬取字段量巨大,平均每天爬取数量 500万,爬取内容包括:买家用户昵称,用户评价内容,昵称等敏感字段。

警方将该案立为刑事案件。因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,2020年8月15日,逯某被商丘市公安局新城分局刑事拘留,2020年9月22日被逮捕。6天后,也就是8月21日,因涉嫌侵犯公民个人信息罪,黎某被抓获,并于2020年8月22日被商丘市公安局新城分局刑事拘留,9月22日被逮捕。

最终,法院判定:被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元;被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。

总结

通过上述案例,我们应该牢记一点,一定要遵守爬虫的使用规范、礼仪,切记不要做损害他人利益、抓取个人隐私的事情,否则真的要“牢底坐穿”。同时还要注意国内外对爬虫的限制存在不同,在国内要遵守网络安全法。

论Python爬虫是否合法(一定要看看)相关推荐

  1. 如何合法的利用 Python 爬虫,避免从入职到入狱

    基本约定 在使用 Python 爬虫时,最重要的是遵守法律法规,并且要尊重网站的服务条款和隐私政策. 遵守爬虫协议:很多网站都会有一些特定的爬虫协议,例如爬取频率的限制,允许的爬取内容和限制爬取的内容 ...

  2. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  3. 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  4. 学python爬虫需要什么基础-从零开始教你学爬虫!python爬虫的基本流程!

    世界那么大,谢谢你来看我!!! 网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序 网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内 ...

  5. python爬虫教程视频-13天搞定Python分布爬虫

    1. 什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分 ...

  6. python爬虫代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  7. Python爬虫之(一):爬虫简介

    什么是爬虫 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom ...

  8. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  9. 无敌python爬虫教程学习笔记(一)

    python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...

最新文章

  1. 89岁屠呦呦再次震惊世界!视频介绍疟疾、青蒿素和背后的故事
  2. SAP WM 有无保存WM Level历史库存的Table?
  3. SAP S/4HANA表结构之变
  4. .net下Selenium2使用方法总结
  5. 关系型数据库(RDBMS)优势
  6. Pandas时间差(Timedelta)
  7. Microsoft.Ink namespace
  8. 【web开发】☆★之利用POI操作Excel表格系列教程【6】遍历工作簙行和列取值
  9. sigar 网络 java_java-Sigar网络速度
  10. Linux知识点小结--精华总结
  11. css背景图铺满后图片变模糊的解决办法
  12. Intel Altera cyclone V HPS GIC
  13. python正则判断邮箱_Python实现正则表达式匹配任意的邮箱方法
  14. 浅析:光纤跳线的插入损耗和回波损耗
  15. 计算机等级考试:IE地址栏不见了 怎么让消失了的IE地址栏神奇的再次出现。?
  16. Python实现草莓熊手拿风车和鲜花
  17. SpringCloud——网关2
  18. Token系列 - 加密猫智能合约源码分析
  19. 什么是库存周转率周转天数?
  20. C#工控上位机实例_工控学习,搞工控的到底什么是上位机,什么是下位机?

热门文章

  1. 如何下载GitHub上指定某个文件夹(下载仓库子文件夹)
  2. 用命令查看cisco光模块型号及序列号(转载)
  3. python中的自定义模块及其使用
  4. 各种游戏特效(持续更新)
  5. 美国B2签证申请要准备哪些材料?
  6. jQuery UI 添加法定节假日显示
  7. Linux系统校准时间同步时间
  8. autojs之淘宝养猫活动
  9. ftp服务器 解压文件,ftp服务器解压zip
  10. 怎么用计算机写材料,在ps中如何写字?ps文字工具使用教程 -电脑资料