爬取顶点小说网站小说
简单的爬取小说的脚本
1 ''' 2 爬取网站 顶点小说 3 网站地址 https://www.booktxt.net 4 本脚本只为学习 5 ''' 6 import requests 7 from bs4 import BeautifulSoup 8 import time,random 9 10 book_name = '5_5626' #小说名字的编号 11 book_url = 'https://www.booktxt.net' + '/' + book_name + '/' #拼接小说地址) 12 response = requests.get(url= book_url) 13 14 response.encoding = response.apparent_encoding #转码 15 soup = BeautifulSoup(response.text, features='html.parser') 16 a = soup.find(id='list') 17 dd_all = a.find_all('dd') 18 http_all = [] 19 20 for i in dd_all: 21 http_all.append(book_url + i.find('a').attrs.get('href')) 22 http_all = http_all[8:] #从开头开始截取都为7章 23 m = 5 #测试限定爬取次数 24 with open(book_name+'.txt', 'w') as f: 25 n = 0 #计数 26 for i in http_all: 27 if m==n:break 28 h = requests.get(url=i) 29 h.encoding = h.apparent_encoding 30 hb = BeautifulSoup(h.text, features='html.parser') 31 tar_t = hb.find(id='content') 32 tar_h = hb.find("h1").text 33 f.write(tar_h+'\n') 34 for j in tar_t: 35 if str(j)!="<br/>": 36 f.write(str(j).lstrip()+'\n') 37 time.sleep(random.randint(3, 6))#增加爬取时间间隔,防止被封ip 38 n+=1 39 f.write('\n\n') 40 print('第%d章写入完成!'%n) 41 f.close()
转载于:https://www.cnblogs.com/MMTTBD/p/10514261.html
爬取顶点小说网站小说相关推荐
- Python网络爬虫(九):爬取顶点小说网站全部小说,并存入MongoDB
前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...
- python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)
一.写在前面 这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...
- python爬取顶点小说简单版
python爬取顶点小说简单版 爬取网络资源首先要下载requests库 因为这里面也有数据提取和分析所以也要有etree库,re库 下载库的代码是:pip install 库名 如:pip inst ...
- Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...
- 爬取笔趣阁小说网站上的所有小说(二)
爬取笔趣阁小说网站上的所有小说(二) 网址为:https://www.biqukan.cc/topallvisit/1.html 我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在 ...
- scrapy-redis分布式爬虫全站爬取顶点小说网
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...
- 爬取笔趣阁小说网站上的所有小说(一)
爬取笔趣阁小说网站上的所有小说(一) 网址为:https://www.biqukan.cc/topallvisit/1.html 反反爬虫 爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是 ...
- Python爬虫爬取某盗版小说网站小说.
前言 我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小 ...
- python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)
python3+re 爬虫爬取笔趣阁小说 斗罗大陆IV终极斗罗 爬取前准备 导入的模块 分析 正则的贪婪与非贪婪 附完整代码示例 爬取前准备 导入的模块 import redis #redis数据库 ...
- python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...
最新文章
- 计算一个二进制数中数字“1”的个数(位运算)
- 为什么我不建议你用去 “ ! = null 做判空?
- 乐鑫代理-启明云端分享ESP32系列教程之一: 安装虚拟机及Ubuntu
- linux下的arm仿真,使用QEMU仿真ARM Linux系统
- Python面向对象编程Day 25部分知识点
- c 调用matlab文件路径,C/C++下调用matlab函数操作说明
- 自定义Login注解
- git提交远程报错[rejected] master - master (fetch first)
- [Unity脚本运行时更新]C#7.1新特性
- 分类 Classification
- 机器学习常用数学公式
- 数组的最长递减子序列java_47.创新工场: 求一个数组的最长递减子序列 | 学步园...
- 故障:Outlook 收发邮件时的 0x800CCC1A 错误
- C/C++ 用zlib解压gzip文件
- 计算机40个快捷键,计算机快捷键40个_计算机常用快捷键大全分享
- 【C语言刷题】汉诺塔问题
- 建议118:使用SecureString保存密钥等机密字符串
- JSP Web学习心得
- linux复制/剪切文件到另一个文件夹
- 3D建模巨头Twaver--入门篇2