本教程仅用作练习

文章目录

  • 分析
  • 代码
  • 效果

分析

某小说网站:https://www.qq717.com
选一部你们喜欢的小说,就拿博主比较喜欢看的一部小说——剑来作为示范(请大家支持正版小说,本文只作为爬虫练习使用)

原理比较简单,直接上代码

代码

import requests
from bs4 import BeautifulSoup
import re  #正则表达式的库
novel_url = "https://www.qq717.com/html/143/143749/"
header_dic = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}respon = requests.get(novel_url)
respon.encoding = 'utf-8'                #编码格式soup = BeautifulSoup(respon.text,'lxml')#解析器
urls = soup.find_all('dd') #获取每个章节lst_url=re.findall('<a href="(.*?)">',str(urls),re.S)  #获取章节的链接href  (.*?)表示匹配任何字符 非贪婪模式 lst_url里面的是(.*?)里面的东西 是一个列表
#遍历每一个链接地址
for i in range(len(lst_url)):tmp_url = 'https://www.qq717.com'+lst_url[i]#组合得到章节链接respon = requests.get(tmp_url)respon.encoding = 'utf-8'soup = BeautifulSoup(respon.text,'lxml')#解析器content = soup.find('div',{'id':'content'}).get_text()#获取章节题目title = soup.find('div',{'class':'bookname'}).find('h1').get_text()#获取章节内容print('正在下载……'+title)# print(content) with open('剑来.txt','a',encoding='utf-8') as filename:# a 为往file后追加内容filename.write(title)filename.write('\n')filename.write(content)

效果

python小小爬虫(二)——爬取小说相关推荐

  1. python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 进阶篇

    在上一篇博客中:python--图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇 我讲解了图片爬虫的基本步骤,并实现了爬虫代码 在本篇中,我将带领大家对基础篇中的代码进行改善, ...

  2. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  3. 【Python】爬虫实例——爬取新闻并实现语音播报

    [Python]爬虫实例--爬取新闻并实现语音播报 本文涉及: 1.爬虫请求链接 2.文字转语音(TTS语音合成技术) 安装: pip install pyttsx3 pip install requ ...

  4. 初次尝试python爬虫,爬取小说网站的小说。

    本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...

  5. 多进程爬虫(爬取小说)Python实现

    区别于之前用多协程写的爬虫版本 多协程爬取小说 这个版本,开销会比较大.效率上也不一定有之前的高 不过,总体上还是很不错的~ 问题分析 这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...

  6. python按章节分割txt_python爬虫,爬取小说

    功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...

  7. python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文

    本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

  8. python爬小说目录_【python入门爬虫】爬取笔趣阁小说

    [Python] 纯文本查看 复制代码import time from bs4 import BeautifulSoup import requests import urllib.parse #模拟 ...

  9. Python爬虫之爬取小说

    (^_−)☆本喵的放松方式是看小说,而且类型不限,属于偏好成谜的那一种.所以从爬取完天气预报开始,我就开始想着爬取小说,编写了一个还不算完善的爬取小说程序,期待你们的完善. 小说来源: 努努书坊:ht ...

  10. java 爬虫_Java原生代码实现爬虫(爬取小说)

    Java也能做爬虫. 现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择,Java成熟的爬虫框架很多,下面给大家展示一个使用Java基础语言编写的爬取小说的案例: 实现 ...

最新文章

  1. 二叉树链表结构表示法
  2. 为何苦命干活的人成不了专家?
  3. mysql 3.23_2018-3-23 13周5次课 MySQL常用操作(下)
  4. [CentOs7]iptables防火墙安装与设置
  5. uniapp中利用监视vuex中state数据配合uview实现登录消息提示
  6. c+字符串数组_了解C ++字符串数组
  7. 使用交互环境 连载3
  8. mysql递归查询树
  9. qt QFont字体英文
  10. 惯性组合导航原理—[1] 方向余弦矩阵
  11. Spring5,最全教程,带你认识IOC容器和AOP切面
  12. python四分位数_下四分位数和上四分位数分别是什么?能举个栗子吗?主要想了解python的quantile函数具体含义?...
  13. HtmlHelper用法大全(下)
  14. 疯狂创客圈 JAVA 高并发 总目录
  15. Android自定义Scrollbar样式
  16. 【c语言】进阶篇学习笔记
  17. ASP.NET控件集合
  18. Java 照片墙_js实现照片墙功能实例
  19. MacW资讯:设置苹果Mac电脑的开机密码
  20. 《玄奘西行》华盛顿上演 美国观众称“美轮美奂”

热门文章

  1. CCF201709-02公共钥匙盒
  2. An Introduction to Kernel Synchronization [LKD 09]
  3. GDKOI-PJ-2021 Day2总结
  4. Win10系统使用chrome经常卡死的原因和解决方法
  5. 常见面试算题题中的滑动窗口问题
  6. 保姆级教程——将springboot项目部署到阿里云服务器(小白包会)
  7. python 处理xml中的注释_python 处理xml 笔记
  8. HTML+CSS实现导航条
  9. oj1904: 寄居蟹与海葵
  10. 40岁了去华为19级,薪酬翻倍,但现在比较稳定,值得吗?