直接先说准备工作:
(1)清楚爬虫工作的流程:

向页面发出请求---------获取请求文件---------处理请求文件--------抽取自己想要的内容

(2)要用到的函数与库
主要是requests库: 负责去向页面发出请求
beautiSoup4库:对抓取的页面文档进行解析
re库:匹配所需字段

可能存在的问题:
(1)编码的问题:注意页面中,以及读写的编码
(2)循环读取页面时注意页面访问地址的变化情况

完整代码:

import requests
from urllib3 import request
import reclass Spider:def __init__(self):# 初始化起始页位置self.page = 1#爬取开关,如果为True继续爬取self.switch = Truedef loadPage(self):"""作用:下载页面"""print("正在下载数据....")#这个页面的下载规则url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}response = requests.get(url, headers = headers)#处理编码response.encoding=response.apparent_encoding#获取每页的HTML源码字符串html = response.text#创建正则表达式规则对象,匹配每页里的段子内容,re.S 表示匹配全部字符串内容pattern = re.compile('<div\sclass="f18 mb20">(.*?)</div>', re.S)#将正则匹配对象应用到html源码字符串里,返回这个页面里的所有段子的列表content_list = pattern.findall(html)#调用dealPage() 处理段子里的杂七杂八self.dealPage(content_list)def dealPage(self, content_list):"""处理每页的段子content_list : 每页的段子列表集合"""for item in content_list:# 将集合里的每个段子按个处理,替换掉无用数据item = item.replace("<p>","").replace("</p>", "").replace("<br>", "")#处理完后调用writePage() 将每个段子写入文件内self.writePage(item)def writePage(self, item):"""把每条段子逐个写入文件里item: 处理后的每条段子"""#写入文件内print("正在写入数据....")#编码的处理with open(r"duanzi1.txt", "a",encoding="utf-8") as f:f.write(item)def startWork(self):"""控制爬虫运行"""#循环执行,直到 self.switch == Falsewhile self.switch:# 用户确定爬取的次数self.loadPage()command =input("如果继续爬取,请按回车(退出输入quit)")if command == "quit":# 如果停止爬取,则输入 quitself.switch = False#每次循环,page页码自增self.page += 1print("谢谢使用!")if __name__ == "__main__":duanziSpider = Spider()duanziSpider.startWork()

转载于:https://blog.51cto.com/13831593/2172999

一个完整的爬虫入门程序相关推荐

  1. (译)一个完整的Django入门指南---第7部分

    1.前言 本篇文章是翻译 A Complete Beginner's Guide to Django 系列的最后一篇文章 A Complete Beginner's Guide to Django - ...

  2. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(三) --高级设置一...

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(三) --高级设置一 原文:一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(三) --高级设置一 上 ...

  3. 网络爬虫(Web crawler)|| 爬虫入门程序

    网络爬虫 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 爬虫入门程序 环境准备 JDK1.8 IntelliJ IDEA IDEA自带的Maven 环境 ...

  4. Flutter 构建一个完整的聊天应用程序

    在本教程中,我将向您展示如何使用 Flutter 构建一个完整的聊天应用程序.对于这一部分,我们将创建应用程序的 UI 原型,然后我将向您展示如何使用 firebase 创建后端服务并创建聊天系统. ...

  5. java 程序输出 赵_编写一个完整的JAVA的程序

    编写一个完整的JAVA的程序 关注:84  答案:1  mip版 解决时间 2021-02-05 08:43 提问者妳螚鬧俄螚笑 2021-02-05 02:59 1,接口Person Show()方 ...

  6. 一个完整的Installshield安装程序实例

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(一)---基本设置一 前言 Installshield可以说是最好的做安装程序的商业软件之一,不过因为功能的太过于强大,以至于 ...

  7. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(三) --高级设置一

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(三) --高级设置一 上一篇:一个完整的安装程序实例-艾泽拉斯之海洋女神出品(二) --基本设置二 第二部分:脚本编程 在开始 ...

  8. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(四) --高级设置二...

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(四) --高级设置二 原文:一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(四) --高级设置二 上 ...

  9. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(五) --补遗 (已补充第三部分完整版)...

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(五) --补遗 (已补充第三部分完整版) 原文:一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(五) ...

  10. 一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(二) --基本设置二...

    一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(二) --基本设置二 原文:一个完整的Installshield安装程序实例-艾泽拉斯之海洋女神出品(二) --基本设置二 上 ...

最新文章

  1. 客快物流大数据项目(五十四):初始化Spark流式计算程序
  2. ORA-14452的出现原因解析及解决方法
  3. 语言学生学籍管理系统流程图_基于C语言的学生管理系统(含文件)(一)
  4. 让对方ping不通你的主机
  5. Python面向对象简单继承
  6. 利用伸展树提高区间操作的性能
  7. Django基础之中间件
  8. 原生JS实现HTML文件上传,HTML5 js实现拖拉上传文件功能
  9. 通用权限管理系统组件 (GPM - General Permissions Manager) 中灵活经典的.NET2.0数据库访问组件,附源码...
  10. activemq 搭建2
  11. Unity 资源商店无法登陆,提示链接失效 的解决办法
  12. 第一次OllyDbg逆向记录(分析思路和注意点其他文章)
  13. oracle 导出空行,oracle sqlplus空行处理方法
  14. iPhone备忘录删了怎么恢复?恢复备忘录的两大方法!
  15. 通过WebView实现简单的浏览器
  16. 指针:C语言二级指针与二维数组
  17. java 节电软件_[乱弹琴]IT人士如何节电
  18. 安装laravel/Horizon
  19. 【日语】日语学习计划(转载)
  20. aix查看oracle客户端位数,查看系统硬件/软件配置/系统位数

热门文章

  1. HTMLTestRunner测试报告美化
  2. react视频教程经典大全
  3. Python实现二叉树的前中后序遍历
  4. 低频时码授时技术与中国电波钟表发展历程简介
  5. 北大飞跃手册_【通知】关于转发吉林大学大学生飞跃社团2020年吉林大学飞跃手册预发布会即将召开!...
  6. 4x4矩阵键盘扫描c语言程序,4x4矩阵键盘工作原理及扫描程序
  7. ACM新手入门之杭电150题使用指南及C语言学习推荐
  8. cimage和gdi绘图效率比较_使用MFC CImage类和GDI+ Image加载并绘制PNG图片
  9. 新浪pop服务器无响应,新浪 – Pop's Blog
  10. iso22000食品安全管理体系_ISO22000-食品安全管理体系认证