简单的爬取小说的脚本

 1 '''
 2 爬取网站 顶点小说
 3 网站地址 https://www.booktxt.net
 4 本脚本只为学习
 5 '''
 6 import requests
 7 from bs4 import BeautifulSoup
 8 import time,random
 9
10 book_name = '5_5626' #小说名字的编号
11 book_url = 'https://www.booktxt.net' + '/' + book_name + '/' #拼接小说地址)
12 response = requests.get(url= book_url)
13
14 response.encoding = response.apparent_encoding #转码
15 soup = BeautifulSoup(response.text, features='html.parser')
16 a = soup.find(id='list')
17 dd_all = a.find_all('dd')
18 http_all = []
19
20 for i in dd_all:
21     http_all.append(book_url + i.find('a').attrs.get('href'))
22 http_all = http_all[8:] #从开头开始截取都为7章
23 m = 5  #测试限定爬取次数
24 with open(book_name+'.txt', 'w') as f:
25     n = 0 #计数
26     for i in http_all:
27         if m==n:break
28         h = requests.get(url=i)
29         h.encoding = h.apparent_encoding
30         hb = BeautifulSoup(h.text, features='html.parser')
31         tar_t = hb.find(id='content')
32         tar_h = hb.find("h1").text
33         f.write(tar_h+'\n')
34         for j in tar_t:
35             if str(j)!="<br/>":
36                 f.write(str(j).lstrip()+'\n')
37         time.sleep(random.randint(3, 6))#增加爬取时间间隔,防止被封ip
38         n+=1
39         f.write('\n\n')
40         print('第%d章写入完成!'%n)
41 f.close()

转载于:https://www.cnblogs.com/MMTTBD/p/10514261.html

爬取顶点小说网站小说相关推荐

  1. Python网络爬虫(九):爬取顶点小说网站全部小说,并存入MongoDB

    前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...

  2. python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)

    一.写在前面 这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...

  3. python爬取顶点小说简单版

    python爬取顶点小说简单版 爬取网络资源首先要下载requests库 因为这里面也有数据提取和分析所以也要有etree库,re库 下载库的代码是:pip install 库名 如:pip inst ...

  4. Python的scrapy之爬取顶点小说网的所有小说

    闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...

  5. 爬取笔趣阁小说网站上的所有小说(二)

    爬取笔趣阁小说网站上的所有小说(二) 网址为:https://www.biqukan.cc/topallvisit/1.html 我们已经拿到了所有小说的地址爬取笔趣阁小说网站上的所有小说(一),现在 ...

  6. scrapy-redis分布式爬虫全站爬取顶点小说网

    scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...

  7. 爬取笔趣阁小说网站上的所有小说(一)

    爬取笔趣阁小说网站上的所有小说(一) 网址为:https://www.biqukan.cc/topallvisit/1.html 反反爬虫 爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是 ...

  8. Python爬虫爬取某盗版小说网站小说.

    前言 我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小 ...

  9. python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)

    python3+re 爬虫爬取笔趣阁小说 斗罗大陆IV终极斗罗 爬取前准备 导入的模块 分析 正则的贪婪与非贪婪 附完整代码示例 爬取前准备 导入的模块 import redis #redis数据库 ...

  10. python爬取小说爬取_用python爬取笔趣阁小说

    原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

最新文章

  1. 计算一个二进制数中数字“1”的个数(位运算)
  2. 为什么我不建议你用去 “ ! = null 做判空?
  3. 乐鑫代理-启明云端分享ESP32系列教程之一: 安装虚拟机及Ubuntu
  4. linux下的arm仿真,使用QEMU仿真ARM Linux系统
  5. Python面向对象编程Day 25部分知识点
  6. c 调用matlab文件路径,C/C++下调用matlab函数操作说明
  7. 自定义Login注解
  8. git提交远程报错[rejected] master - master (fetch first)
  9. [Unity脚本运行时更新]C#7.1新特性
  10. 分类 Classification
  11. 机器学习常用数学公式
  12. 数组的最长递减子序列java_47.创新工场: 求一个数组的最长递减子序列 | 学步园...
  13. 故障:Outlook 收发邮件时的 0x800CCC1A 错误
  14. C/C++ 用zlib解压gzip文件
  15. 计算机40个快捷键,计算机快捷键40个_计算机常用快捷键大全分享
  16. 【C语言刷题】汉诺塔问题
  17. 建议118:使用SecureString保存密钥等机密字符串
  18. JSP Web学习心得
  19. linux复制/剪切文件到另一个文件夹
  20. 3D建模巨头Twaver--入门篇2

热门文章

  1. 98后小哥出的校招黑名单火了!标星4K,校招生有福了!
  2. 深度学习模型---限制波兹曼机
  3. 【经验】安全岗实习生应聘
  4. python学习笔记 - 设置Excel单元格样式
  5. C语言如何 计算程序运行时间?
  6. 遗传算法求解八皇后问题—matlab
  7. Linux中通过vi打开文件只读文件如何保存
  8. 论坛上的所有泡MM技巧
  9. Photoshop轻松制作Apple网站导航条按钮
  10. 使用JSP代码编写index.jsp文件在网页上显示数据库数据