python小小爬虫(二)——爬取小说
本教程仅用作练习
文章目录
- 分析
- 代码
- 效果
分析
某小说网站:https://www.qq717.com
选一部你们喜欢的小说,就拿博主比较喜欢看的一部小说——剑来作为示范(请大家支持正版小说,本文只作为爬虫练习使用)
原理比较简单,直接上代码
代码
import requests
from bs4 import BeautifulSoup
import re #正则表达式的库
novel_url = "https://www.qq717.com/html/143/143749/"
header_dic = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}respon = requests.get(novel_url)
respon.encoding = 'utf-8' #编码格式soup = BeautifulSoup(respon.text,'lxml')#解析器
urls = soup.find_all('dd') #获取每个章节lst_url=re.findall('<a href="(.*?)">',str(urls),re.S) #获取章节的链接href (.*?)表示匹配任何字符 非贪婪模式 lst_url里面的是(.*?)里面的东西 是一个列表
#遍历每一个链接地址
for i in range(len(lst_url)):tmp_url = 'https://www.qq717.com'+lst_url[i]#组合得到章节链接respon = requests.get(tmp_url)respon.encoding = 'utf-8'soup = BeautifulSoup(respon.text,'lxml')#解析器content = soup.find('div',{'id':'content'}).get_text()#获取章节题目title = soup.find('div',{'class':'bookname'}).find('h1').get_text()#获取章节内容print('正在下载……'+title)# print(content) with open('剑来.txt','a',encoding='utf-8') as filename:# a 为往file后追加内容filename.write(title)filename.write('\n')filename.write(content)
效果
python小小爬虫(二)——爬取小说相关推荐
- python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 进阶篇
在上一篇博客中:python--图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇 我讲解了图片爬虫的基本步骤,并实现了爬虫代码 在本篇中,我将带领大家对基础篇中的代码进行改善, ...
- Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
- 【Python】爬虫实例——爬取新闻并实现语音播报
[Python]爬虫实例--爬取新闻并实现语音播报 本文涉及: 1.爬虫请求链接 2.文字转语音(TTS语音合成技术) 安装: pip install pyttsx3 pip install requ ...
- 初次尝试python爬虫,爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
- 多进程爬虫(爬取小说)Python实现
区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...
- python按章节分割txt_python爬虫,爬取小说
功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...
- python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
- python爬小说目录_【python入门爬虫】爬取笔趣阁小说
[Python] 纯文本查看 复制代码import time from bs4 import BeautifulSoup import requests import urllib.parse #模拟 ...
- Python爬虫之爬取小说
(^_−)☆本喵的放松方式是看小说,而且类型不限,属于偏好成谜的那一种.所以从爬取完天气预报开始,我就开始想着爬取小说,编写了一个还不算完善的爬取小说程序,期待你们的完善. 小说来源: 努努书坊:ht ...
- java 爬虫_Java原生代码实现爬虫(爬取小说)
Java也能做爬虫. 现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择,Java成熟的爬虫框架很多,下面给大家展示一个使用Java基础语言编写的爬取小说的案例: 实现 ...
最新文章
- 二叉树链表结构表示法
- 为何苦命干活的人成不了专家?
- mysql 3.23_2018-3-23 13周5次课 MySQL常用操作(下)
- [CentOs7]iptables防火墙安装与设置
- uniapp中利用监视vuex中state数据配合uview实现登录消息提示
- c+字符串数组_了解C ++字符串数组
- 使用交互环境 连载3
- mysql递归查询树
- qt QFont字体英文
- 惯性组合导航原理—[1] 方向余弦矩阵
- Spring5,最全教程,带你认识IOC容器和AOP切面
- python四分位数_下四分位数和上四分位数分别是什么?能举个栗子吗?主要想了解python的quantile函数具体含义?...
- HtmlHelper用法大全(下)
- 疯狂创客圈 JAVA 高并发 总目录
- Android自定义Scrollbar样式
- 【c语言】进阶篇学习笔记
- ASP.NET控件集合
- Java 照片墙_js实现照片墙功能实例
- MacW资讯:设置苹果Mac电脑的开机密码
- 《玄奘西行》华盛顿上演 美国观众称“美轮美奂”