废话不多说,上代码。
总体思路是构建函数然后循环。
函数分两块,第一个函数得到标题和每一章节的网址,第二个函数得到每一章节的具体内容,然后循环就ok。

import urllib.request as req
import re
#打开页面,找到正文
url = 'https://www.gulongwang.com/liu/'
name = '流星蝴蝶剑'
def get_url_title(url):the_url = 'https://www.gulongwang.com/'webpage = req.urlopen(url)data = webpage.read()data = data.decode('gbk')    #在网页源代码上有编码形式web = re.findall('/liu/.*?.html',data) #找到每一章网址用列表表示,方便循环webs = [the_url + x for x in web]title = re.findall('(正文.*?)</a>',data)  #标题也很重要return (webs,title)
def get_body(url):webpage = req.urlopen(url)data = webpage.read()data = data.decode('gbk')body = re.findall('(.*?)<br /><br />',data)body = '\n'.join(body)body = body.replace('&quot','')return(body)
txt = open('%s.txt'%name,'w')   #开始写入文件
urls,title = get_url_title(url)
for i in range(len(title)):txt.write('\n\t\t'+title[i]+'\n')body = get_body(urls[i])txt.write(body)

就这样,儿时的梦想就达成了,还有些小惆怅,当初躲在被窝里,背着玄重尺,去天下扑猎武魂的日子终究还是过去了。

python爬虫初战之小说爬取相关推荐

  1. python爬虫实例之小说爬取器

    今天和大家分享一个爬取盗版小说的实例. 如今的网络小说可谓是百家齐放各领风骚,玄幻科幻穿越修仙都市- 各种套路看得我是心潮澎湃,笔者曾经也蛮喜欢看小说的,以前经常是拿着一台诺基亚看到深夜,第二天带着黑 ...

  2. python爬虫实例之——多线程爬取小说

    之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...

  3. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  4. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  5. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  6. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  7. 《python爬虫实战》:爬取贴吧上的帖子

    <python爬虫实战>:爬取贴吧上的帖子 经过前面两篇例子的练习,自己也对爬虫有了一定的经验. 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写. ...

  8. Python 爬虫 中国行政区划信息爬取 (初学者)

    Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...

  9. python爬虫学习 之 定向爬取 淘宝商品价格

    python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...

最新文章

  1. B-tree索引与Bitmap索引的对比测试
  2. OpenStack环境搭建(五:附加项虚拟机文件备份使用)
  3. 【总结整理】如何做需求分析(转)
  4. Hadoop centos 6.5 配置
  5. Java 学习笔记 反射与迭代器
  6. Go协程通道锁故事化理解
  7. MFC动态调用DLL
  8. 分享我工作10年收藏的程序员技术网站
  9. [Diary]6.10
  10. 【python毕业设计】Django框架实现学生信息管理系统
  11. 二维小波变换_【外文文献速读】实时二维水波模拟
  12. SRM 625 DIV2
  13. tcp中的crc检验算法原理_CRC校验原理及其实现
  14. thinkphp 6.x 5.x nginx php fpm 配置
  15. Flash学习资源汇编
  16. 安装IIS服务(Internet信息服务(Internet Information Services,简写IIS,互联网信息服务)
  17. 机器学习-决策树算法
  18. 简单记录使用org.slf4j.MDC进行日志追踪
  19. 大数据时代,企业如何进行有效的信息资源整合?
  20. c:\Windows\system32\ regsvr32.exe Windows无法访问指定设备、路径或文件,你可能没有适当的权限访问该项目

热门文章

  1. 复制并超越?零钱通VS余额宝,你会选择谁?
  2. 电脑显示这台计算机没有连接到网络,电脑突然出现无法连接到internet,怎么处理...
  3. 借记贷记;资产=负债+所有者权益
  4. 获取同花顺数据接口_如何获取深沪股票 LEVEL2 数据接口?
  5. 调试 DWARF 和 STAB 格式
  6. 宇视科技球型相机尾线标识集合
  7. 解决rosdep update一直timeout问题
  8. 【算法】杨辉三角(贾宪三角)(帕斯卡三角)
  9. 肠道菌群助你脱单,爱TA就请TA一起吃饭
  10. 鸿蒙是不是PPT,偷师华为,鸿蒙这个动画用在PPT里太“拉风”,不愧是余承东