Python网络爬虫实战

1. 确定 URL

from urllib import request
import re
#定义url
page=50
url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)

2.添加headers并抓取页面代码

try:#定义请求头headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}#定义请求，传入请求头req=request.Request(url,headers=headrs)#打开网页resp=request.urlopen(req)#打印响应码，解码# print(resp.read().decode('utf-8'))

3. 使用正则表达式提取某一页的所有段子

 content=resp.read().decode('utf-8')#定义正则表达式#<a rel="noopener" 具体的东西#.*? 匹配没用的数据#(.*?)匹配有用数据分组#\s 空格pattern=re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')#匹配htmlitems=re.findall(pattern,content)#打印解析的内容for i in items:print("标题:"+i[0]+" 内容:"+i[1])except request.URLError as e:#打印响应码if hasattr(e,'code'):print(e.code)#打印异常原因if hasattr(e,'reason'):print(e.reason)

面向对象模式

from urllib import request
import reclass tieba:#初始化def __init__(self):# 定义urlself.url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="# 定义请求头self.headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}#列表，存储解析后的结果self.stories=[]#下载页面def getPage(self,page_number):try:# 定义请求，传入请求头req=request.Request(self.url+str(page_number),headers=self.headrs)# 打开网页resp=request.urlopen(req)# 打印响应码，解码content=resp.read().decode("utf-8")return contentexcept request.URLError as e:# 打印响应码if hasattr(e, 'code'):print(e.code)# 打印异常原因if hasattr(e, 'reason'):print(e.reason)#解析页面def rexgPage(self,content):# 定义正则表达式# <a rel="noopener" 具体的东西# .*? 匹配没用的数据# (.*?)匹配有用数据分组# \s 空格pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')# 匹配htmlitems = re.findall(pattern, content)# 添加解析的内容for i in items:# print("标题:" + i[0] + " 内容:" + i[1])self.stories.append("标题:" + i[0] + " 内容:" + i[1])#显示解析的内容def getContent(self):for i in self.stories:print(i)#创建对象
c=tieba()
#调用方法
c.rexgPage(c.getPage(100))
c.getContent()

Python网络爬虫实战相关推荐

python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程体会不一样的Python爬虫课程...
廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...
python爬虫文件代码大全-Python网络爬虫实战项目代码大全（长期更新，欢迎补充）...
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
python常用代码大全-Python 网络爬虫实战项目代码大全
原标题:Python 网络爬虫实战项目代码大全 DouBanSpider 豆瓣读书的爬虫.你可以爬豆瓣读书下面标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价 ...
python基础代码大全-Python网络爬虫实战项目代码大全（长期更新，欢迎补充）
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
Python 网络爬虫实战：猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看？
11月16日,一部无流量明星.无大制作.无大IP的"三无"国产电影<无名之辈>上映后,竟然连续打败了超级英雄"毒液".会魔法的"神奇动物& ...
Python 网络爬虫实战：去哪儿网旅游攻略图文爬取保存为 Markdown电子书
接上回,<Python 网络爬虫实战:爬取<去哪儿>网数千篇旅游攻略数据>. 我们爬取到了数千篇的旅游攻略文章的数据. 但是事情还没有结束,对于大部分的人来讲,最希望得到的东西 ...
[day4]python网络爬虫实战：爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
[day1]python网络爬虫实战：爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
[day2]python网络爬虫实战：爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
Python网络爬虫实战项目代码大全（长期更新，欢迎补充）
Python网络爬虫实战项目代码大全(长期更新,欢迎补充) 阿橙 · 1 个月内 WechatSogou [1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫, ...

Python网络爬虫实战

1. 确定 URL

2.添加headers并抓取页面代码

3. 使用正则表达式提取某一页的所有段子

面向对象模式

Python网络爬虫实战相关推荐

最新文章

热门文章