python爬小说（一）

网上有很多用python写爬虫爬小说的博客和教程，初涉此道也借鉴了很多前人的经验，在此立贴仅为记录学习爬虫的过程
Beautifulsoup需要了解一下见连接：https://cuiqingcai.com/1319.html

#-*- coding:UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import sys
if __name__=='__main__':#创建txt文件file=open('三寸人间.txt','w',encoding='utf-8')#获取目标页面target_req=request.urlopen('https://www.biqukan.com/0_159/')#通过beautifulsoup转换成html格式target_res=BeautifulSoup(target_req,'lxml')#找出页面中需要的各章目录target_list=target_res.find_all('div',class_="listmain")#通过beautifulsoup将寻找过的内容，转换成html格式target_result=BeautifulSoup(str(target_list),'lxml')#计算各章节个数numbers=(len(target_result.dl.contents)-1)/2-8index=1#设置下载开始节点#检查是否完全获取到了各章节连接print (target_result.dl)start_flag=False#遍历章节所有节点for lists in target_result.dl.children:#滤除回车if lists !='\n':#寻找正文开始下载if lists.string=="《三寸人间》正文卷":start_flag=True#爬取连接if start_flag==True and lists.a!=None:download_url='http://www.biqukan.com'+lists.a.get('href')download_req=request.urlopen(download_url)#章节名download_name=lists.string#把各章节连接打开的页面用Beautifulsoup转换成html格式soup=BeautifulSoup(download_req,'lxml')#找出页面中的正文内容texts=soup.find_all('div',id="content")#把找到的内容用Beautifulsoup转换成html格式soup_text=BeautifulSoup(str(texts),'lxml')#设置开始写入的节点write_flag=True#写入章节名称file.write(download_name+'\n\n')#将内容写入文件,并替换页面中的标签字符for page in soup_text.div.text.replace('\xa0',''):if page =='h':write_flag=Falseif write_flag==True and page !=None:file.write(page)if write_flag== True and page=='\r':file.write('\n')file.write('\n\n')#打印爬取进度sys.stdout.write("已经下载:%.3f%%" % float((index/numbers)*100)+'\r')sys.stdout.flush()index +=1#关闭文件file.close()

python爬小说（一）相关推荐

用python爬小说_使用python+Scrapy爬小说
图片来源网络写在前面最近在学习python,不得不说python真是好用,至少生成程序的速度快,语法也比较简单ヾ(◍°∇°◍)ﾉﾞ感觉很强大,之前怎么就没有想到学一下这个呢,如果大学抢课的时候 ...
python爬小说代码_中文编程，用python编写小说网站爬虫
原标题:中文编程,用python编写小说网站爬虫作者:乘风龙王原文:https://zhuanlan.zhihu.com/p/51309019 为保持源码格式, 转载时使用了截图. 原文中的源码块 ...
用python爬小说_5分钟带你用Python爬完《剑来》小说（附完整代码）！
Python资源共享群:484031800 思路: step 1 :请求<剑来>小说站点,获取两个东西小说名称--在Python程序同目录下,以小说名称创建文件夹每章小说的链接地址 st ...
python爬小说目录_【python入门爬虫】爬取笔趣阁小说
[Python] 纯文本查看复制代码import time from bs4 import BeautifulSoup import requests import urllib.parse #模拟 ...
python爬小说一本一本爬_【学习笔记】Python爬取某一本小说
本帖最后由流浪的二胡于 2018-10-23 20:19 编辑最近刀剑神域第三季真的不错,无奈动画一周才更新一次,索性就想先把原著小说看了解解馋. 于是就找到了这个小说网站:http://www ...
用python爬小说_今天分享一个用Python来爬取小说的小脚本！（附源码）
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
怎么用python爬小说统计词频_python小练习爬取《寻梦环游记》评论并做词频统计...
本来其实是想爬豆瓣电影上10几万条评论的,但后来ip被封了,换代理ip之类的还不熟练,还在学习中,所以先做时光网上10页评论的分析吧,虽然时光网上粗粗一看评论就短了很多,水了很多.主要是继续练习Bea ...
【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
【爬虫】用Python爬取去哪儿网热门旅游信息（并打包成旅游信息查询小工具）
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

python爬小说（一）

python爬小说（一）相关推荐

最新文章

热门文章