笔趣阁小说-圣墟-爬虫源代码
import re
import requests
from bs4 import BeautifulSoupurl = 'http://www.biquge6.com/19_19336/'
r = requests.get(url)
b = BeautifulSoup(r.content.decode('gbk'))
h = b.find_all(href = re.compile('/19_19336/')) # 正则匹配属性值带有/104_104216/的href标签,并返回正则模式对象hlist_len = len(h) # 剔除掉最新12章节
print('开始下载:')
i = 1
for each in h:print('正在下载第' + str(i) + '章,共' + str(list_len) + '章')url1 = url + each.get('href')[10:] # ,获取其中一个超链接地址第12位后的链接地址re = requests.get(url1) # 每章节完整链接地址bs = BeautifulSoup(re.content.decode('gbk')) # 获取章节数据t = bs.find_all('h1')[0].text[1:] # find_all获取章节文章标题,[0].text[1:]截取标题内容content = bs.find_all(id = 'content')[0].text # 数据清洗,清除html的多余标签content = content.replace('\xa0'*8,' ').replace(' ', '').replace('\n\r', '\n')content = t + '\n\n' + content +'\n\n\n' # 将标题和内容整合with open('C:\\Users\DELL\Desktop\大数据应用开发\圣墟.doc', 'a', encoding='utf-8') as f:f.write(content)i += 1
print('下载完成!')
-----------------------------------------------------最后的倔强:转载需备注博主名和原创网址!!!-----------------------------------------------------
笔趣阁小说-圣墟-爬虫源代码相关推荐
- 笔趣阁小说站的爬虫小程序
从笔趣阁(www.biquge.com.tw)爬取整本小说的内容,写入txt文件. 再也不用到处找地方下载了,省的遭遇各种不靠谱. 代码如下: import urllib.request from b ...
- Python爬虫--笔趣阁小说爬取
Python爬虫–笔趣阁小说爬取 爬虫用到的插件 import requests from lxml import etree 小说目录页 以小说"我有百万技能点"为例,在笔趣阁搜 ...
- 爬虫练习-爬取笔趣阁小说
练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的 思路: Created with Raphaël 2.2.0开始输入书名查询小说是否存在跳转页面 ...
- python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)
python3+re 爬虫爬取笔趣阁小说 斗罗大陆IV终极斗罗 爬取前准备 导入的模块 分析 正则的贪婪与非贪婪 附完整代码示例 爬取前准备 导入的模块 import redis #redis数据库 ...
- java爬虫爬取笔趣阁小说
java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...
- Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库
学习了python之后,接触到了爬虫,加上我又喜欢看小说,所以就做了一个爬虫的小程序,爬取笔趣阁小说. 程序中一共引入了以下几个库: import requests import mysql.conn ...
- Python爬虫:笔趣阁小说搜索和爬取
目录 0x00 写在前面 0x01 搜索页面 0x02 章节获取 0x03 章节内容获取 0x04 完整代码 0x00 写在前面 最近开始学习Python的爬虫,就试着写了写笔趣阁小说的爬虫,由于是初 ...
- Python爬虫练习(一) 爬取新笔趣阁小说(搜索+爬取)
爬取笔趣阁小说(搜索+爬取) 首先看看最终效果(gif): 实现步骤: 1.探查网站"http://www.xbiquge.la/",看看网站的实现原理. 2.编写搜索功能(获取每 ...
- python爬取小说写入txt_对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力...
原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力 以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔 ...
最新文章
- 输入textbox在datagridview显示结果_Excel输入正确的公式,计算出错,根本没计算解决技巧...
- 一卡顶四卡,清华推出工具包BMInf玩转百亿大模型
- Linux高可用集群(Corosync+Pacemaker)
- 第二周作业-停车场门禁控制系统的状态机
- Jsp—02—项目:登录案例
- Jmeter 命令行选项目录
- 广域网优化产品的5大应用场景—Vecloud
- poj 3177 Redundant Paths
- 03-postgresql报错ERROR: operator does not exist: numeric = character varyin
- Python+matplotlib响应鼠标滚轮事件调整图形大小
- python基础之类的属性方法、魔术方法普通方法
- Linux静态库与动态库详解
- TensorBoard 使用案例
- 信息安全技术标准合集
- 计算机金融学校排名2015,金融学院2015级各专业排名情况统计表
- 计数排序CountingSort
- git did not exit cleanly (exit code 128)简单处理方法
- 【工作笔记】Springboot一个比较通用的数据脱敏处理办法
- STM32F411RET6的定时器和STM32F103ZET6定时器比较
- 什么是DAS、NAS、SAN、IP-SAN,它们之间有什么区别?
热门文章
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
- 【GB28181】协议详解
- java技术及ssh框架和jsp技术的介绍 外文文献及翻译_java技术及ssh框架和jsp技术的介绍 外文文献及翻译.doc...
- python二级操作题分值_计算机二级MS Office考试具体内容及分值
- 【工具】NDM下载神器,可替代IDM
- IDEA Material Theme UI 暗黑系主题的安装
- C++:map.insert插入重复键(已存在键)将忽略,而非值覆盖
- vb.net listview 删除选定行_VBA学习笔记59-1: listview控件
- celeste第二章_蔚蓝_第二章_初露锋芒_免费小说阅读_飞卢小说网
- Transfomer XL翻译