def getBook(type,page):"爬取书网址,type=int小说类型,page=int书架页码,book_L=list所有书的地址列表"hd = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.4071 SLBChan/21"}url = "https://www.duquanben.com/book%d/0/%d/"url = url % (type,page)page = requests.get(url,headers=hd)page.encoding = page.apparent_encodingsoup = BeautifulSoup(page.text, 'html.parser')dIv = soup.find('div', attrs={'class':"clearfix rec_rullist"})li = dIv.find_all('li', attrs={'class':"two"})book_L = []for i in li:src = i.a['href']name = i.a.textbook_L.append((name,src))return book_L

爬取小说——爬取书的地址相关推荐

  1. python爬取小说爬取_用python爬取笔趣阁小说

    原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

  2. 使用PyCharm批量爬取小说

    使用pycharm批量爬取小说 爬取小说的思路: 首先获取小说的地址. 分析目录地址结构. 进行地址的拼接. 分析章节内容结构. 获取并保存文本. 完整代码 1.获取小说地址 本文以搜书网一小说为例& ...

  3. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  4. python爬虫笔记(八) 实例3:用Python批量爬取全站小说【以书趣阁为例】

    1. 用Python批量爬取全站小说 爬取这个网站小说:http://www.shuquge.com/txt/89644/index.html 2. 爬取一本书 # -*- coding: utf-8 ...

  5. python按章节分割txt_python爬虫,爬取小说

    功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...

  6. Python爬取小说网站

    感觉好像蛮久没用更新博客了,这不准备成人高考了嘛,作为中专毕业的我来说,觉得大专证还是会有一点用处滴,所以花了点时间看书,可惜每次看书,看着看着就找周先生聊天去了,哎,不知有没有大佬教下我怎么提高看书 ...

  7. 还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub。

    还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...

  8. qu.la网站上的小说爬取

    qu.la网站上的小说爬取 ##这个项目是我最早开始写的爬虫项目,代码比较简陋 在写这个项目时,我还不会Python的协程编程,用协程可提升爬虫速度至少5倍,参考我的文章[线程,协程对比和Python ...

  9. 还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波

    爬取小说数据 效果 网页分析 网页网址分析 书内容位置分析 不同书内容位置分析 将内容存到Excel 完整代码 效果 网页分析 网页网址分析 对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...

最新文章

  1. lucene api
  2. php中数据类型、数组排序、循环语句、混编、操作本地文件流程、常用API、函数、魔术常量
  3. PowerDesigner逆向工程,从数据库导出PDM(包括采坑记录)
  4. jQuery验证框架教程
  5. 冲压模板自动标注LISP_自动标注.LSP
  6. EasyUI——基本布局
  7. Script Control 组件Win7 X64平台运行问题及示例
  8. 这就是数学的魅力?QWQ
  9. jQuery插件库链接
  10. 寒冬已过,2023抓住IT复苏新机会
  11. 初中数学分几个模块_初中数学分成三大模块
  12. 1、JVM之走进类加载
  13. 百度与虚假广告的博弈
  14. 给李开复:“创新工厂”最大的问题
  15. react 谷歌地图_谷歌地图与React
  16. 将Json转换过来的带T的字符串格式的时间转换成正常时间,并通过指定格式输出
  17. 山西省初中计算机教案,初中信息教学计划
  18. Android培训班(109)start_kernel函数6
  19. 谷歌支付“无法购买您要买的商品”
  20. 网付能不能收花呗!本文详解网付收款支持方式!

热门文章

  1. 大转盘H5模板的游戏优点
  2. 与矩阵有关的四种子线性空间
  3. 程序员除了代码,还有哪些值得重视
  4. Gratuitous ARP
  5. 机器学习两种方法——监督学习与无监督学习
  6. 15、Python的元组类型
  7. yamleasydict作为参数文件
  8. MEME币|模式币智能合约|通缩机制合约|燃烧分红合约
  9. 华为面试经验(应届通信篇)
  10. Git Brash在Windows下乱码问题