自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

先看代码框架图

更多Python视频、源码、资料加群984632579免费获取

第一个,肯定先提取排行榜里面每个类别的链接啊,然后进入链接进行爬取,先看all_theme文件

看看运行结果,这是书籍类目的

这是构造出的每一个类目里面所有的页数链接,也是我们爬虫的入口,一共5000多页

接下来是封装的数据库操作,因为用到了多进程以及多线程每个进程,他们需要知道那些URL爬取过了、哪些URL需要爬取!我们来给每个URL设置两种状态:

outstanding:等待爬取的URL

complete:爬取完成的URL

processing:正在进行的URL。

嗯!当一个所有初始的URL状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的URL重置状态为:outstanding。

为了能够处理URL进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

接下来是爬虫主程序

让我们来看看结果吧

里面因为很多都是重复的,所有去重之后只有十几万本,好失望......

用Python爬下十几万本小说,再也不会闹书荒!相关推荐

  1. python 小说-用Python爬下十几万本小说,再也不会闹书荒!

    原标题:用Python爬下十几万本小说,再也不会闹书荒! 自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库 ...

  2. python 小说 云_用Python爬下十几万本小说,再也不会闹书荒!

    自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站 先 ...

  3. 四平方和python_成都房价现在多少?和北京差距很大吗?Python爬取了四万套房源!...

    作为一个技术人员,决定用技术解决这个疑问.我们用Python爬取了贝壳网上4万多套的成都在售房源,告诉你最真实的成都房价. 爬虫工作原理 在贝壳网上,成都的在售房源按照区域与地铁线这两个方式做了划分, ...

  4. python爬取高匿代理IP(再也不用担心会进小黑屋了)

    一起进步 为什么要用代理IP 很多数据网站,对于反爬虫都做了一定的限制,这个如果写过一些爬虫程序的小伙伴应该都深有体会,其实主要还是IP进了小黑屋了,那么为了安全,就不能使用自己的实际IP去爬取人家网 ...

  5. 爬虫项目六:用Python爬下链家新房所有城市近三万条数据

    文章目录 前言 一.分析url 二.拼接url 1.实例化chrome 2.获取首字符.page 3.拼接url 三.获取房源数据 前言 本文全面解析了链家新房源数据,爬取了全部城市的房源信息,共两万 ...

  6. 爬虫项目十四:Python爬下豆瓣《我的姐姐》两千条影评,看看大家对其评价如何

    文章目录 前言 一.分析URL 二.获取影评 三.代码实现 四.词云 前言 爬取豆瓣影评,爬虫代码已经封装好,修改请求头 和url即可采集你想要采集的电影影评 提示:以下是本篇文章正文内容,下面案例可 ...

  7. Python程序员自制爬虫小程序, 瞬间爬取十几万美女图片

    最近对python爬虫感兴趣,于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片,其中每一套图都是一张一个页面,存一套图如果是手动得点翻几十个页面,但现在用爬虫的话,就很方便了,只需输入套图的i ...

  8. Python爬取近10万条程序员招聘数据,告诉你哪类人才和技能最受热捧!

    来源:凹凸数据 本文约5800字,建议阅读15分钟 本文带你了解当下企业究竟需要招聘什么样的人才?需要什么样的技能? 随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于& ...

  9. Python 爬金十数据并生成词云

    背景 用 Python 的 requests 模块爬取 金十数据 首页中间部分的资讯信息,练习了两种处理过程:写入 MySQL 数据库和词云分析,对比之下 Python 几行代码就能完成 MySQL入 ...

最新文章

  1. Marathon 0.15: 更稳定 更多数据 更易用
  2. 本机安装PaddlePaddle - 安装指南
  3. VS2013打包VC++程序
  4. 企业架构:现代数据架构的特征
  5. 使用Hexo 搭建 blog过程
  6. 用netsh自动切换IP
  7. 排序算法之冒泡排序(JAVA)
  8. 异步通信在生活中的例子_AJAX简单异步通信实例分析
  9. 解决windows下Error:node with name rabbit already running on “XXX” 和管理页面打不开问题
  10. 【数字逻辑设计】毛刺
  11. LeetCode 20. Valid Parentheses(c++)
  12. php中加载图片淡入淡出,jQuery实现滚动图片淡入淡出功能
  13. 判断Windows操作系统位数的方法
  14. 如何在symfony 控制器里面创建soap web service
  15. python在web可以开发吗_怎么用python进行web开发
  16. linux的环境变量相关的小记
  17. [笔记]unity渲染相关各种方案总结
  18. django面试题总结
  19. Cascade:自动化测试“旅程”
  20. 江苏省人力资源社会保障厅 省职称办 关于做好2021年度职称评审工作的通知

热门文章

  1. html word 分页符,word中分页符有什么作用?word中分页符的作用介绍
  2. 把excel中把汉字转换成拼音(只取首字母)的方法和步骤
  3. AE怎么制作3D小火箭?2分钟教你制作动画
  4. 今年做开发面试太难了!面试面到我心态爆炸!
  5. 宁波银行科技部的面试小记
  6. Spring Boot 多线程数据同步
  7. 电脑屏幕视力保护色 RGB(204,232,207)
  8. python decimal函数_(转)python学习笔记5--decimal
  9. SMT贴片加工流程和注意事项
  10. 清除行列 牛客网 程序员面试金典 C++ Python