每个小男生都有一个英雄梦,小弟环绕,大杀四方,

最简单的实现方式,看种马小说肯定算一个了。
咱家小弟最近在追一部连载,《修你妹的仙》,无奈网站阅读界面实在不友好,老姐当然要帮忙。

前一篇文章也说到了小说爬虫,跳转链接,只是爬下来的是目录详情,即书名、作者、简介、正文链接。这次,爬下来的就是正文txt。

================================================================

决定爬虫成功与否的关键是啥?并不是代码哦,而是源网页,本人相当明白自己的斤两,所以就不难为自己,选一个简单的。
相应的书籍下带有完整的目录链接,点击章节名称就能跳转到相应的正文页。如果能把章节+正文按顺序爬下来放到一个txt文档,就完成任务啦。


import requests
from bs4 import BeautifulSoup
import rep=open('C:/Users/Administrator/Desktop/test.txt','w+',encoding='utf-8')headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.7.0.18838'
}url='http://www.shukuai.com/b/406443/'
res = requests.get(url)
res.encoding='GBK'soup = BeautifulSoup(res.text, 'lxml')
context = soup.select('body > div.layout > div.ml_block2 > div.ml_list > div.list > ul > li ')
for item in context:print(item.get_text())name = re.findall('<li><a href="(.*?)">', str(item), re.S)href = 'http://www.shukuai.com/b/406443/'+name[0]print(href)res2 = requests.get(href)res2.encoding = 'GBK'soup2 = BeautifulSoup(res2.text, 'lxml')body = soup2.select('#nr_content > p')print(body[0])p.write('\n'+'\n'+item.get_text()+'\n')p.write(str(body[0].get_text()))

其实这种还不是最好操作的,最最喜闻乐见的还是那种直接提供下载链接的网站,本人就曾经在这类网站上下载了30个G的小说,大概花了3个白天(这是有多无聊)。
太多了反而懒得看,被用来练习文件批处理和文本聚类了,也不算白搞,说不定以后也会提到。

爬取小说正文存为txt相关推荐

  1. Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)

    前言 今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...

  2. python爬取小说写入txt_python爬虫自学之路:爬取小说并保存成TXT文件

    最近闲着无聊开始翻看之前看了一半的小说<明朝那些事儿>,天天用网络看好麻烦就写了个爬虫下载下来放到手机上看,下面把写爬虫的过程遇到的问题记录一下,方便以后再来找,写这个爬虫碰到的问题总共就 ...

  3. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  4. 五分钟写一个小爬虫,爬取小说并写入txt文件

    先上代码: #-*- coding:UTF-8 -*- import requests from lxml import html url='http://www.shuge.net/html/111 ...

  5. python爬取天气预报数据并保存为txt格式_今天分享一个用Python来爬取小说的小脚本!(附源码)...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...

  6. 还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub。

    还在苦于Kindle的epub格式吗?python爬虫,一键爬取小说加txt转换epub. 项目地址: https://github.com/Fruiticecake/dubuNovel/blob/m ...

  7. Python beautifulsoup爬取小说

    Python beautifulsoup爬取小说 提前准备好需要的库文件,命令行输入以下命令 pip install requests pip install bs4 pip install lxml ...

  8. 爬取小说2--协程间通信Python

    通过Python进行协程间通信,大大加速爬取效率. 前言 是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...

  9. 多进程爬虫(爬取小说)Python实现

    区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...

最新文章

  1. C++ std::function<void(int)> 和 std::function<void()> 作为函数参数的注意事项
  2. 有重复元素的排列问题pascal题解
  3. recycleview 清空数据 滚动顶部_爱剪辑:制作数字滚动效果,翻滚吧字幕!
  4. IL2CPP的优化 : Devirtualization 去虚拟化
  5. mongodb系列01--基础篇
  6. Tensorflow2.x代码实现计算Top-k Accuracy
  7. Python数据可视化库——Matplotlib
  8. 我对Backbone的认识
  9. [oracle] Instant Client 即时客户端
  10. textpattern将添加后台theme功能
  11. BCNF范式、第四范式和第五范式
  12. 服务器系统2008R2安全模式,server 2008 r2怎么进入安全模式
  13. 什么是电感_共模电感和差模电感的区别
  14. Win Server 2003搭建Sql注入环境
  15. GLTF格式学习:glTF介绍( 基于WebGL
  16. 用DEVC++写射击游戏
  17. 批量监测手机微博更新内容
  18. IOS 判断iPhone刘海屏
  19. Linux下安装mysql完整教程
  20. IT人员必学最基础知识(四)——补充总结

热门文章

  1. 统一手机充电器标准的好处
  2. 让我们一起来看什么是元宇宙
  3. 为什么我们要努力的赚钱?
  4. 最受欢迎的当代设计风格
  5. 数据库——自然连接、内连接、外连接(左外连接、右外连接、全外连接)、交叉连接
  6. 【转载】麻将算什么? 纽约时报竟然暗藏着世界上最早的区块链
  7. python 小说 云_用python实现自己的小说阅读器
  8. Android拍照及从相册选择图片传详解(终极版)
  9. google的protocal buffers(proto2)之(一)
  10. win10音频服务器未修复,如何修复Win10 1809音频输出设备未安装错误