爬取顶点小说网站小说

简单的爬取小说的脚本

 1 '''
 2 爬取网站 顶点小说
 3 网站地址 https://www.booktxt.net
 4 本脚本只为学习
 5 '''
 6 import requests
 7 from bs4 import BeautifulSoup
 8 import time,random
 9
10 book_name = '5_5626' #小说名字的编号
11 book_url = 'https://www.booktxt.net' + '/' + book_name + '/' #拼接小说地址)
12 response = requests.get(url= book_url)
13
14 response.encoding = response.apparent_encoding #转码
15 soup = BeautifulSoup(response.text, features='html.parser')
16 a = soup.find(id='list')
17 dd_all = a.find_all('dd')
18 http_all = []
19
20 for i in dd_all:
21     http_all.append(book_url + i.find('a').attrs.get('href'))
22 http_all = http_all[8:] #从开头开始截取都为7章
23 m = 5  #测试限定爬取次数
24 with open(book_name+'.txt', 'w') as f:
25     n = 0 #计数
26     for i in http_all:
27         if m==n:break
28         h = requests.get(url=i)
29         h.encoding = h.apparent_encoding
30         hb = BeautifulSoup(h.text, features='html.parser')
31         tar_t = hb.find(id='content')
32         tar_h = hb.find("h1").text
33         f.write(tar_h+'\n')
34         for j in tar_t:
35             if str(j)!="<br/>":
36                 f.write(str(j).lstrip()+'\n')
37         time.sleep(random.randint(3, 6))#增加爬取时间间隔，防止被封ip
38         n+=1
39         f.write('\n\n')
40         print('第%d章写入完成!'%n)
41 f.close()

转载于:https://www.cnblogs.com/MMTTBD/p/10514261.html

爬取顶点小说网站小说相关推荐

Python网络爬虫（九）：爬取顶点小说网站全部小说，并存入MongoDB
前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...
python3.6爬虫案例：爬取顶点小说（爱看小说同学的福利）
一.写在前面这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...
python爬取顶点小说简单版
python爬取顶点小说简单版爬取网络资源首先要下载requests库因为这里面也有数据提取和分析所以也要有etree库,re库下载库的代码是:pip install 库名如:pip inst ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
爬取笔趣阁小说网站上的所有小说（二）
爬取笔趣阁小说网站上的所有小说(二) 网址为:https://www.biqukan.cc/topallvisit/1.html 我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在 ...
scrapy-redis分布式爬虫全站爬取顶点小说网
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...
爬取笔趣阁小说网站上的所有小说（一）
爬取笔趣阁小说网站上的所有小说(一) 网址为:https://www.biqukan.cc/topallvisit/1.html 反反爬虫爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是 ...
Python爬虫爬取某盗版小说网站小说.
前言我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小 ...
python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)
python3+re 爬虫爬取笔趣阁小说斗罗大陆IV终极斗罗爬取前准备导入的模块分析正则的贪婪与非贪婪附完整代码示例爬取前准备导入的模块 import redis #redis数据库 ...
python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

爬取顶点小说网站小说

爬取顶点小说网站小说相关推荐

最新文章

热门文章