前言


这本书我是真的强烈推荐的。

本书讲解了如何使用 Python 来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用 Scarpy 和 Portia 来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。

本书适合有一定 Python 编程经验,而且对爬虫技术感兴趣的读者阅读。

关于作者:Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。华业后,他创办了一家专注于网络爬电的公司,为超过 50个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究牛学位,并利用业余时间研发自丰无人机。

本书内容

第1章,网络爬虫简介,介绍了网络爬虫,并讲解了爬取网站的方法。

第2章,数据抓取,展示了如何从网页中抽取数据。

第了章,下载缓存,学习了如何通过缓存结果避免重复下载的问题。

第4章,并发下载,通过并行下载加速数据抓取。

第5 章,动态内容,展示了如何从动态网站中抽取数据。

第6章,表单交互,展示了如何与表单进行交互,从而访问你需要的数据。

第7章,验证码处理,阐述了如何访问被验证码图像保护的数据。

第8章,Scrapy,学习了如何使用流行的高级框架 Scrapy。

第9章,总结,对我们介绍的这些网络爬虫技术进行总结。


网络爬虫何时有用

假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中了一双鞋,想等它促销时再购买。我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要等待几个月的时间,我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程,都可以利用本书介绍的网络爬虫技术实现自动化处理。

网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了。世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications, Inc.起诉 Rural Telephone Service Co.的案件中,美国联邦量高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而在澳大利亚,Telsira Corporation Limited 起诉 Phone Direciories Compary PoLid 这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权此外,在欧盟的ofir.dk起诉home.dk 一案中,最终裁定定期抓取和深度链接是允许的。

这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见和评论),通常就会受到版权限制,而不能转载。无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己。

读者福利:如果你对Python感兴趣,这套python学习资料可能你需要,文末可以免费领取,

对于0基础小白入门:

如果你是零基础小白,想快速入门Python是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:Python永久使用安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习等教程。带你从零基础系统性的学好Python!

零基础Python学习资源介绍

用python如何写网络爬虫?相关推荐

  1. python编写爬虫的步骤-python学习: 写网络爬虫程序的三个难点

    写爬虫,是一个非常考验综合实力的活儿.有时候,你轻而易举地就抓取到了想要的数据:有时候,你费尽心思却毫无所获. 好多Python爬虫的入门教程都是一行代码就把你骗上了"贼船",等上 ...

  2. 网页爬虫python代码_《用python写网络爬虫》完整版+源码

    原标题:<用python写网络爬虫>完整版+源码 <用python写网络爬虫>完整版+附书源码 本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中 ...

  3. 《用Python写网络爬虫》——1.5 本章小结

    本节书摘来自异步社区<用Python写网络爬虫>一书中的第1章,第1.5节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区"异步 ...

  4. python网络爬虫权威指南 豆瓣_豆瓣Python大牛写的爬虫学习路线图,分享给大家!...

    豆瓣Python大牛写的爬虫学习路线图,分享给大家! 今天给大家带来我的Python爬虫路线图,仅供大家参考! 第一步,学会自己安装python.库和你的编辑器并设置好它 我们学习python的最终目 ...

  5. 用Python写网络爬虫pdf

    下载地址:网盘下载 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <用Pyt ...

  6. 用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)

    用Python写网络爬虫(第2版)电子书 畅销的Python网络爬虫发实战图书全新升级版,上一版年销量近40000册. 针对Python 3.6版本编写. 提供示例完整源码和实例网站搭建源码,确保用户 ...

  7. 网络爬虫python的特点有哪些_为什么写网络爬虫天然就是择Python而用

    关于这个问题,老猿就先从自己的经历讲起吧.很多年前,大约11年前,老猿我接手了一个搜索引擎的网络爬虫,那是一个用C++写的通用搜索引擎的爬虫.C++的语言,多线程的实现,爬虫的运行效率非常高.但是,找 ...

  8. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

  9. 《用Python写网络爬虫第2版》PDF中英文+代码分析

    互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息 ...

最新文章

  1. 通用社区登陆组件技术分享(开源)中篇:OAuth 登陆组件流程及组件集成方法...
  2. Redis设置值并设置过期时间
  3. Apache 服务器配置详解
  4. c#.net获取当前进程的句柄数量
  5. 主机通过网络访问虚拟机VirtualBox的WEB服务器
  6. OpenCV-特征提取与检测(02、Shi-Tomasi角点检测)
  7. 处理器仿存带宽_处理器及内存带宽测试
  8. ie工具internet选项安全自定义级别java_activex控件被禁止怎么办
  9. 国内各类有用搜索网站汇总
  10. 韩国本土IP原生IP站群天堂W奥丁游戏香港站群CN2路线大带宽
  11. 奶瓶(beini) 又一蹭网神器 1.2.2增强版带600万密码字典
  12. 联想win10专业版64位简体中文原版光盘镜像
  13. 程序员“真实”日常:每天敲代码不到 1 小时
  14. ipv6笔记无状态地址自动配置及状态
  15. 45亿换1000万学生,互联网在线教育“火烧赤壁”能否有霸主横空出世?
  16. 多线程----守护线程---Deamon
  17. mongodb设置用户账号密码登录
  18. bash shell实现并发多进程操作
  19. 【XSY3952】简单的计数题(dp)
  20. 【JavaScript】input提示弹出框

热门文章

  1. Python之父(龟叔):Python 4.0可能不会来了
  2. Brother MFC-7450一体机打印-扫描问题
  3. TRIZ系列(发明的层次)
  4. C/C++面试总结必考题 2
  5. 数据结构之常用表结构
  6. C#使用Topshelf创建Windows服务
  7. HTML5期末大作业:鲜花网页设计——美丽鲜花6页(代码质量好) 学生DW网页设计作业源码 web课程设计网页规划与设计
  8. 74160同步置数法接成同步六进制计数器
  9. C语言一维数据中2[arry]问题
  10. pythonpil安装教程_python怎么安装pil模块