爬取小说正文存为txt
每个小男生都有一个英雄梦,小弟环绕,大杀四方,
最简单的实现方式,看种马小说肯定算一个了。
咱家小弟最近在追一部连载,《修你妹的仙》,无奈网站阅读界面实在不友好,老姐当然要帮忙。
前一篇文章也说到了小说爬虫,跳转链接,只是爬下来的是目录详情,即书名、作者、简介、正文链接。这次,爬下来的就是正文txt。
================================================================
决定爬虫成功与否的关键是啥?并不是代码哦,而是源网页,本人相当明白自己的斤两,所以就不难为自己,选一个简单的。
相应的书籍下带有完整的目录链接,点击章节名称就能跳转到相应的正文页。如果能把章节+正文按顺序爬下来放到一个txt文档,就完成任务啦。
import requests
from bs4 import BeautifulSoup
import rep=open('C:/Users/Administrator/Desktop/test.txt','w+',encoding='utf-8')headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.7.0.18838'
}url='http://www.shukuai.com/b/406443/'
res = requests.get(url)
res.encoding='GBK'soup = BeautifulSoup(res.text, 'lxml')
context = soup.select('body > div.layout > div.ml_block2 > div.ml_list > div.list > ul > li ')
for item in context:print(item.get_text())name = re.findall('<li><a href="(.*?)">', str(item), re.S)href = 'http://www.shukuai.com/b/406443/'+name[0]print(href)res2 = requests.get(href)res2.encoding = 'GBK'soup2 = BeautifulSoup(res2.text, 'lxml')body = soup2.select('#nr_content > p')print(body[0])p.write('\n'+'\n'+item.get_text()+'\n')p.write(str(body[0].get_text()))
其实这种还不是最好操作的,最最喜闻乐见的还是那种直接提供下载链接的网站,本人就曾经在这类网站上下载了30个G的小说,大概花了3个白天(这是有多无聊)。
太多了反而懒得看,被用来练习文件批处理和文本聚类了,也不算白搞,说不定以后也会提到。
爬取小说正文存为txt相关推荐
- Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)
前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...
- python爬取小说写入txt_python爬虫自学之路:爬取小说并保存成TXT文件
最近闲着无聊开始翻看之前看了一半的小说<明朝那些事儿>,天天用网络看好麻烦就写了个爬虫下载下来放到手机上看,下面把写爬虫的过程遇到的问题记录一下,方便以后再来找,写这个爬虫碰到的问题总共就 ...
- python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
- 五分钟写一个小爬虫,爬取小说并写入txt文件
先上代码: #-*- coding:UTF-8 -*- import requests from lxml import html url='http://www.shuge.net/html/111 ...
- python爬取天气预报数据并保存为txt格式_今天分享一个用Python来爬取小说的小脚本!(附源码)...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
- 还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub。
还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...
- Python beautifulsoup爬取小说
Python beautifulsoup爬取小说 提前准备好需要的库文件,命令行输入以下命令 pip install requests pip install bs4 pip install lxml ...
- 爬取小说2--协程间通信Python
通过Python进行协程间通信,大大加速爬取效率. 前言 是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...
- 多进程爬虫(爬取小说)Python实现
区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...
最新文章
- C++ std::function<void(int)> 和 std::function<void()> 作为函数参数的注意事项
- 有重复元素的排列问题pascal题解
- recycleview 清空数据 滚动顶部_爱剪辑:制作数字滚动效果,翻滚吧字幕!
- IL2CPP的优化 : Devirtualization 去虚拟化
- mongodb系列01--基础篇
- Tensorflow2.x代码实现计算Top-k Accuracy
- Python数据可视化库——Matplotlib
- 我对Backbone的认识
- [oracle] Instant Client 即时客户端
- textpattern将添加后台theme功能
- BCNF范式、第四范式和第五范式
- 服务器系统2008R2安全模式,server 2008 r2怎么进入安全模式
- 什么是电感_共模电感和差模电感的区别
- Win Server 2003搭建Sql注入环境
- GLTF格式学习:glTF介绍( 基于WebGL
- 用DEVC++写射击游戏
- 批量监测手机微博更新内容
- IOS 判断iPhone刘海屏
- Linux下安装mysql完整教程
- IT人员必学最基础知识(四)——补充总结