爬取小说正文存为txt

每个小男生都有一个英雄梦，小弟环绕，大杀四方，

最简单的实现方式，看种马小说肯定算一个了。
咱家小弟最近在追一部连载，《修你妹的仙》，无奈网站阅读界面实在不友好，老姐当然要帮忙。

前一篇文章也说到了小说爬虫，跳转链接，只是爬下来的是目录详情，即书名、作者、简介、正文链接。这次，爬下来的就是正文txt。

================================================================

决定爬虫成功与否的关键是啥？并不是代码哦，而是源网页，本人相当明白自己的斤两，所以就不难为自己，选一个简单的。
相应的书籍下带有完整的目录链接，点击章节名称就能跳转到相应的正文页。如果能把章节+正文按顺序爬下来放到一个txt文档，就完成任务啦。

import requests
from bs4 import BeautifulSoup
import rep=open('C:/Users/Administrator/Desktop/test.txt','w+',encoding='utf-8')headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.7.0.18838'
}url='http://www.shukuai.com/b/406443/'
res = requests.get(url)
res.encoding='GBK'soup = BeautifulSoup(res.text, 'lxml')
context = soup.select('body > div.layout > div.ml_block2 > div.ml_list > div.list > ul > li ')
for item in context:print(item.get_text())name = re.findall('<li><a href="(.*?)">', str(item), re.S)href = 'http://www.shukuai.com/b/406443/'+name[0]print(href)res2 = requests.get(href)res2.encoding = 'GBK'soup2 = BeautifulSoup(res2.text, 'lxml')body = soup2.select('#nr_content > p')print(body[0])p.write('\n'+'\n'+item.get_text()+'\n')p.write(str(body[0].get_text()))

其实这种还不是最好操作的，最最喜闻乐见的还是那种直接提供下载链接的网站，本人就曾经在这类网站上下载了30个G的小说，大概花了3个白天(这是有多无聊)。
太多了反而懒得看，被用来练习文件批处理和文本聚类了，也不算白搞，说不定以后也会提到。

爬取小说正文存为txt相关推荐

Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）
前言今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...
python爬取小说写入txt_python爬虫自学之路：爬取小说并保存成TXT文件
最近闲着无聊开始翻看之前看了一半的小说<明朝那些事儿>,天天用网络看好麻烦就写了个爬虫下载下来放到手机上看,下面把写爬虫的过程遇到的问题记录一下,方便以后再来找,写这个爬虫碰到的问题总共就 ...
python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
五分钟写一个小爬虫，爬取小说并写入txt文件
先上代码: #-*- coding:UTF-8 -*- import requests from lxml import html url='http://www.shuge.net/html/111 ...
python爬取天气预报数据并保存为txt格式_今天分享一个用Python来爬取小说的小脚本！（附源码）...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
还在苦于Kindle的epub格式吗？python爬虫，一键爬取小说加txt转换epub。
还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...
Python beautifulsoup爬取小说
Python beautifulsoup爬取小说提前准备好需要的库文件,命令行输入以下命令 pip install requests pip install bs4 pip install lxml ...
爬取小说2--协程间通信Python
通过Python进行协程间通信,大大加速爬取效率. 前言是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...
多进程爬虫（爬取小说）Python实现
区别于之前用多协程写的爬虫版本多协程爬取小说这个版本,开销会比较大.效率上也不一定有之前的高不过,总体上还是很不错的~ 问题分析这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...

爬取小说正文存为txt

爬取小说正文存为txt相关推荐

最新文章

热门文章