在读完kcl的语言班后,终于有了大块的空闲时间,想着写一点程序练练手,就花费一点时间写了一个python的小爬虫,很简单,上代码。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Sep  9 15:28:23 2021
目的:爬取网络小说文本
@author: fanzhen
"""
import requests
from bs4 import BeautifulSoup
import timedef get_html(url):headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}req=requests.get(url,headers=headers)if req.status_code == 200:req.encoding=req.apparent_encoding #使用网页现在的编码形式,以防乱码return req.text#这是判断网页返回的状态码,200代表连接成功,大家常见的应该是404和503else:returndef get_texts(html):soup=BeautifulSoup(html,'html.parser') #使用beautisoup对网页源码进行解析title=soup.select("#main > h1")#取得章节名称w=''w+=title[0].get_text().replace('\n','').replace('\r','')+'\n't=soup.find_all('p')for i in range(len(t)-1): #取得正文w+=t[i].get_text().replace('\n','').replace('\r','')w+='\n'print(w)return wdef next_page(html):soup=BeautifulSoup(html,'html.parser') #使用beautisoup对网页源码进行解析np=soup.select('a')return np[-1].get('href')def main():time_start=time.time()with open('青囊尸衣.txt','w')as f:url='https://www.tianyabooks.com/horror/qingnangshiyi/107556.html'html=get_html(url)while next_page(html)!='./':f.write(get_texts(html))#将抓取到的文本放入txt中url='https://www.tianyabooks.com/horror/qingnangshiyi/'+next_page(html)#取得下一页的网址html=get_html(url)time_end=time.time()#监视程式运行总时间print('抓取完毕,用时:',time_end-time_start,'s')if __name__=='__main__':main()

这个小爬虫是单线程的,所以很慢,抓取一本网络小说花费时间大概在5分钟左右,还需要改进。

使用python简单的抓取网络小说相关推荐

  1. 基于Java的网络爬虫实现抓取网络小说(一)

    基于Java的网络爬虫实现抓取网络小说(一) 今天开始写点东西,一方面加深印象一方面再学习. 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用 ...

  2. Python爬虫之爬取网络小说并在本地保存为txt文件

    Python爬虫之爬取网络小说并在本地保存为txt文件 注:本文使用软件为Sublime Text,浏览器为谷歌浏览器 (新手小白第一次写,写得不好请见谅) **1.**首先找到想要爬取的小说章节目录 ...

  3. Python爬虫练习 爬取网络小说保存到txt

    原文链接:https://yetingyun.blog.csdn.net/article/details/107916769 创作不易,未经作者允许,禁止转载,更勿做其他用途,违者必究. 利用 Pyt ...

  4. python—简单数据抓取七(采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用,利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库)

    学习目标: Python学习二十七-简单数据抓取七 学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...

  5. python—简单数据抓取四(利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站、利用百度云的ocr识别自如租房网价格图片获取到自如网的价格)

    学习目标: python学习二十四 -简单数据抓取四 学习内容: 1.利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站 2.利用百度云的ocr识别自如租房网的价格图片,获取到自如网的价格数据 1.利 ...

  6. python—简单数据抓取三(简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程)

    学习目标: python学习二十三 -数据抓取三. 学习内容: 1.简单IP地址代理 2.利用蘑菇代理实现IP地址代理刷新本地ip地址 3.利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程 1. ...

  7. Python简单的抓取静态网页内容

    import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/china/')#获 ...

  8. python简单实现抓取英雄联盟皮肤原画:老玩家都哭了!

    写在前面: 自学py已经快两个多月了吧,作为新手,就是敢于尝试,之前有看到有人抓取王者荣耀皮肤的,但是作为一个联盟老玩家,还是想搞一个抓取联盟皮肤的,下面分享一下我自己的学习经过,如果有错误或者建议, ...

  9. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

最新文章

  1. Objective-C学习笔记(十九)——对象方法和类方法的相互调用
  2. easyUI menu动态添加
  3. 初探swift语言的学习笔记九(OC与Swift混编)
  4. boost::all_clustering_coefficients用法的测试程序
  5. 崩溃日志记录Landroid/support/v4/animation/AnimatorCompatHelper
  6. matlab设置固定的窗宽窗位,python实现CT窗宽窗位的调整(即指定HU值保存图像)...
  7. Flutter中Widget 、Element、RenderObject角色深入分析
  8. wemall app商城源码Android之支付宝通知处理类
  9. java webservice 验证_SOAP header验证WebService接口的访问权限
  10. 数据存储技术-专题介绍
  11. 简单总结.NET中的各% %用法及区别
  12. nginx启动vue_nginx下部署vue项目的方法步骤
  13. php smarty安装,Smarty安装
  14. android studio jdy08,JDY-08蓝牙4.0模块+V3.3手册+.pdf
  15. 十张图看懂华为IPD和LTC
  16. SOUI::SStatic 动态设置属性的值
  17. java导出excel 边框不全_java POI导出excel,合并单元格边框消失
  18. office表格怎么冻结前两行_冻结Excel表格中多行或多列的方法
  19. 【转载】Ansys中的阻尼
  20. UltraVNC 使用方法详细说明

热门文章

  1. 广工物理实验报告-弹簧振子周期经验公式总结
  2. 13个人围成一圈,从第1个人开始顺序报号1,2,3.凡报到3者退出圈子。找出最后留在圈子中的人原来的序号。要求用链表实现。
  3. 介绍Stonebraker和DeWitt教授的文章:MapReduce: A major step backwards
  4. 思科模拟器 --- 路由器综合路由配置
  5. BUUCTF--[网鼎杯 2020 半决赛]AliceWebsite
  6. 电力电子simulink练习01:单相_半波_整流
  7. Py4JError: org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout does not exist in the
  8. LeetCode 55
  9. linux句柄数不足的java报错_linux中文件句柄数问题
  10. fm计算机,荔枝FM电脑版