网上有很多用python写爬虫爬小说的博客和教程,初涉此道也借鉴了很多前人的经验,在此立贴仅为记录学习爬虫的过程
Beautifulsoup需要了解一下见连接:https://cuiqingcai.com/1319.html

#-*- coding:UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import sys
if __name__=='__main__':#创建txt文件file=open('三寸人间.txt','w',encoding='utf-8')#获取目标页面target_req=request.urlopen('https://www.biqukan.com/0_159/')#通过beautifulsoup转换成html格式target_res=BeautifulSoup(target_req,'lxml')#找出页面中需要的各章目录target_list=target_res.find_all('div',class_="listmain")#通过beautifulsoup将寻找过的内容,转换成html格式target_result=BeautifulSoup(str(target_list),'lxml')#计算各章节个数numbers=(len(target_result.dl.contents)-1)/2-8index=1#设置下载开始节点#检查是否完全获取到了各章节连接print (target_result.dl)start_flag=False#遍历章节所有节点for lists in target_result.dl.children:#滤除回车if lists !='\n':#寻找正文开始下载if lists.string=="《三寸人间》正文卷":start_flag=True#爬取连接if start_flag==True and lists.a!=None:download_url='http://www.biqukan.com'+lists.a.get('href')download_req=request.urlopen(download_url)#章节名download_name=lists.string#把各章节连接打开的页面用Beautifulsoup转换成html格式soup=BeautifulSoup(download_req,'lxml')#找出页面中的正文内容texts=soup.find_all('div',id="content")#把找到的内容用Beautifulsoup转换成html格式soup_text=BeautifulSoup(str(texts),'lxml')#设置开始写入的节点write_flag=True#写入章节名称file.write(download_name+'\n\n')#将内容写入文件,并替换页面中的标签字符for page in soup_text.div.text.replace('\xa0',''):if page =='h':write_flag=Falseif write_flag==True and page !=None:file.write(page)if write_flag== True and page=='\r':file.write('\n')file.write('\n\n')#打印爬取进度sys.stdout.write("已经下载:%.3f%%" % float((index/numbers)*100)+'\r')sys.stdout.flush()index +=1#关闭文件file.close()

python爬小说(一)相关推荐

  1. 用python爬小说_使用python+Scrapy爬小说

    图片来源网络 写在前面 最近在学习python,不得不说python真是好用,至少生成程序的速度快,语法也比较简单 ヾ(◍°∇°◍)ノ゙ 感觉很强大,之前怎么就没有想到学一下这个呢,如果大学抢课的时候 ...

  2. python爬小说代码_中文编程,用python编写小说网站爬虫

    原标题:中文编程,用python编写小说网站爬虫 作者:乘风龙王 原文:https://zhuanlan.zhihu.com/p/51309019 为保持源码格式, 转载时使用了截图. 原文中的源码块 ...

  3. 用python爬小说_5分钟带你用Python爬完《剑来》小说(附完整代码)!

    Python资源共享群:484031800 思路: step 1 :请求<剑来>小说站点,获取两个东西小说名称--在Python程序同目录下,以小说名称创建文件夹 每章小说的链接地址 st ...

  4. python爬小说目录_【python入门爬虫】爬取笔趣阁小说

    [Python] 纯文本查看 复制代码import time from bs4 import BeautifulSoup import requests import urllib.parse #模拟 ...

  5. python爬小说一本一本爬_【学习笔记】Python爬取某一本小说

    本帖最后由 流浪的二胡 于 2018-10-23 20:19 编辑 最近刀剑神域第三季真的不错,无奈动画一周才更新一次,索性就想先把原著小说看了解解馋. 于是就找到了这个小说网站:http://www ...

  6. 用python爬小说_今天分享一个用Python来爬取小说的小脚本!(附源码)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...

  7. 怎么用python爬小说统计词频_python小练习爬取《寻梦环游记》评论并做词频统计...

    本来其实是想爬豆瓣电影上10几万条评论的,但后来ip被封了,换代理ip之类的还不熟练,还在学习中,所以先做时光网上10页评论的分析吧,虽然时光网上粗粗一看评论就短了很多,水了很多.主要是继续练习Bea ...

  8. 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...

  9. 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

最新文章

  1. 业余快速学习虚幻引擎教程
  2. 工业控制软件测试评价体系,工业控制信息安全产品测试评价的体系.doc
  3. 从0 开始 WPF MVVM 企业级框架实现与说明 ---- 第五讲 WPF中 Style
  4. java中属性加参数_java – 具有类型参数的注释属性
  5. Linux下LCD 10分钟自动关屏的问题总结
  6. 玻璃体混浊当前的治疗方案汇总
  7. 流水灯c语言实验报告心得,嵌入式流水灯实验心得体会.docx
  8. CompletableFuture详解~thenApplyAsync
  9. 怎么给php下拉框默认选中
  10. laravel框架详解
  11. 使用Entrez下载文献
  12. 【C#】Excel操作——两个Excel表格比较,如果相同跳过,如果不同将复制到一个表格
  13. 语音计算机怎么切换音乐模式,如何把微信里收藏的语音音乐转换成mp3格式?
  14. dva的用法_dva.js初探
  15. 微信云开发AI短视频一键换脸小程序源码/带流量主
  16. 蓝桥杯嵌入式——扩展板DHT11
  17. 两种方法判断是否为移动端访问,跳转到对应wap页面
  18. 关于真机调试DDMS中的data文件夹打不开的解决方法
  19. C#调用Lua 3、创建Lua解析器管理器
  20. 广度优先求解算法演示(华容道C++代码,速度2644组/秒)

热门文章

  1. Layui table表格单元格合并问题
  2. 孕妇生日祝福语(30句)集合
  3. 服务器文件存储位置手机,ceph怎么在存储节点查看存储的文件
  4. Linux memwatch 的使用
  5. 课堂练习 最大联通数组
  6. 【洛谷】Magicite
  7. 中国小金属行业竞争现状与十四五运营形式分析报告2022版
  8. uniapp的uni_modules目录需要提交到Git吗?为什么有了node_modules,还需要再发明一个uni_modules的轮子?node_modules和uni_modules的区别
  9. YouTube推荐算法原理
  10. 机器学习_梯度下降法(BGD、SGD、MBGD)