大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/

本片博文为大家带来的是爬取糗事百科，我们是专业的！。

完整代码在Github，如有需要可自行下载。

GIthub地址：https://github.com/459804692/qsbk/tree/master

一. 爬取前的准备
- 1.1 查看网页
- 1.2 标签分析
二. 项目的具体实现
- 2.1 新建爬虫项目qsbk
- 2.2 settings设置
- 2.3 分别提取出作者和文本内容
- 2.4 通过pipeline保存数据
- 2.5 定义Item
- 2.6 爬取多个页面的实现
三. 完整代码(此处只提供修改部分，Github上可查看完整目录及代码)

一. 爬取前的准备

糗事百科官网：https://www.qiushibaike.com/

段子网址：https://www.qiushibaike.com/text/

关于解析html博主选择的方法是使用xpath，如有不懂的同学，可看下面两个表格。如果想要深入学习xpath的相关知识可点击博主给的官方
文档的链接进行学习，博主在此声明是为了让读者们能够理解解析式的具体含义。

官网网址：https://lxml.de/tutorial.html

路径表达式

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

匹配属性

通配符	描述
*	匹配任何元素节点
@*	匹配任何属性节点
node()	匹配任何类型的节点

1.1 查看网页

根据上图标记部分可以看到我们主要的要点如下。

整体部分
作者名称
文本内容
标签翻页

1.2 标签分析

1. 首先我们需要知道我们爬取的所有内容所在标签

通过查看开发者选项，发现<div class ="coll old-style-coll">这个标签对应的正是所有内容的整体存放位置，那么我们也可知道之后的所有内容都是从此标签的子标签内提取得到。

分析一番后，我们可以得到获取所有文本内容的解析式如下:

//div[@class = 'col1 old-style-col1']/div

2. 作者名称所在位置

由上图我们可以看到作者的位置在<h2></h2>这个标签中。

分析一番后，我们可以得到获取作者的解析式如下:

.//h2//text()

3. 作者名称所在位置

由上图我们可以看到段子的位置在<div class ="content"></div>这个标签中。

分析一番后，我们可以得到获取段子的解析式如下:

.//div[@class='content']//text()

4. 标签翻页

由上图我们可以看到页面的位置在<ul class ="pagination"></ul>这个标签中。

分析一番后，我们可以得到获取页面的解析式如下:

//ul[@class='pagination']/li[last()]/a/@href

二. 项目的具体实现

2.1 新建爬虫项目qsbk

2.2 settings设置

在创建完成一个scrapy项目后，需要对settings进行一些修改

此处默认为True，需要修改为False。否则无法爬取内容。

取消此部分的注解并添加请求头，伪装自己的身份。

2.3 分别提取出作者和文本内容

1. 查看其类型

 duanzidivs = response.xpath("//div[@class = 'col1 old-style-col1']/div")print("=")print(type(duanzidivs))print("=")

通过运行我们可以发现其为SelectorList类型

2. 通过循环遍历分别打印出作者和文本内容

        for duanzidiv in duanzidivs:# strip() 去除前后的空白字符author = duanzidiv.xpath(".//h2//text()").get().strip()content = duanzidiv.xpath(".//div[@class='content']//text()").getall()content = "".join(content).strip()print(author)print(content)

2.4 通过pipeline保存数据

前提准备：放开ITEM_PIPELINES的限制

1. 第一种方式

class QsbkPipeline:def __init__(self):self.fp = open("duanzi.json","w",encoding="utf-8")def open_spider(self,spider):print('爬虫开始了 ...')def process_item(self, item, spider):item_json = json.dumps(dict(item),ensure_ascii=False)self.fp.write(item_json+'\n')return itemdef close_spider(self,spider):self.fp.close()print('爬虫结束了 ...')

运行结果：

2. 第二种方式：数据量少时使用JsonItemExporter

from scrapy.exporters import JsonItemExporter
class QsbkPipeline:def __init__(self):self.fp = open("duanzi.json","wb")self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')self.exporter.start_exporting()def open_spider(self,spider):print('爬虫开始了 ...')def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self,spider):self.exporter.finish_exporting()self.fp.close()print('爬虫结束了 ...')

运行结果：

3. 第三种方式：数据量多使用JsonLinesItemExporter

from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline:def __init__(self):self.fp = open("duanzi.json","wb")self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')self.exporter.start_exporting()def open_spider(self,spider):print('爬虫开始了 ...')def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self,spider):self.fp.close()print('爬虫结束了 ...')

运行结果：

2.5 定义Item

在scrapy中不是说不能直接定义返回字典，但是一般建议现在item中定义好然后进行调用

在item中分别定义author和content

class QsbkItem(scrapy.Item):author = scrapy.Field()content = scrapy.Field()

在qsbk_spider中也需要进行如下修改

2.6 爬取多个页面的实现

前提准备：放开DOWNLOAD_DELAY的限制并修改为1

# See also autothrottle settings and docs
DOWNLOAD_DELAY = 1

2. 代码实现

# 定义一个基本的域名
base_domain = "https://www.qiushibaike.com"next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
# 进行一个简单的判断
if not next_url:return
else:yield scrapy.Request(self.base_domain+next_url,callback=self.parse)

3. 运行并查看结果

三. 完整代码(此处只提供修改部分，Github上可查看完整目录及代码)

1. qsbk_spider

import scrapyfrom scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList# 继承scrapy.Spider类
from scrapy_demo.qsbk.qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider):name = 'qsbk_spider'# allowed_domains 指定域名，可以限制爬虫的范围allowed_domains = ['qiushibaike.com']# start_urls 开始链接 一般一个即可start_urls = ['https://www.qiushibaike.com/text/page/1/']base_domain = "https://www.qiushibaike.com"def parse(self, response):# SelectorListduanzidivs = response.xpath("//div[@class = 'col1 old-style-col1']/div")for duanzidiv in duanzidivs:# Selectorauthor = duanzidiv.xpath(".//h2//text()").get().strip()content = duanzidiv.xpath(".//div[@class='content']//text()").getall()content = "".join(content).strip()item = QsbkItem(author=author, content=content)yield itemnext_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()if not next_url:returnelse:yield scrapy.Request(self.base_domain+next_url,callback=self.parse)

2. items

import scrapyclass QsbkItem(scrapy.Item):author = scrapy.Field()content = scrapy.Field()

3. pipelines

from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline:def __init__(self):self.fp = open("duanzi.json","wb")self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')self.exporter.start_exporting()def open_spider(self,spider):print('爬虫开始了 ...')def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self,spider):self.fp.close()print('爬虫结束了 ...')

4. settings


BOT_NAME = 'qsbk'SPIDER_MODULES = ['qsbk.spiders']
NEWSPIDER_MODULE = 'qsbk.spiders'# Obey robots.txt rules
ROBOTSTXT_OBEY = False# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 1# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {'qsbk.pipelines.QsbkPipeline': 300,
}

美好的日子总是短暂的，虽然还想继续与大家畅谈，但是本篇博文到此已经结束了，如果还嫌不够过瘾，不用担心，我们下篇见！

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“点赞” “评论”“收藏”一键三连哦！听说点赞的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦！

爬取糗事百科，我是专业的！相关推荐

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页
问题背景: 使用Python编写爬虫时,经常会遇到反爬机制,例如网站要求必须使用浏览器访问.就像下面的403错误: 或者下面这种错误信息: 一般来说,这是遇到反爬机制了,对方要求使用浏览器访问.这时可 ...
python实现数据爬取——糗事百科爬虫项目
python实现数据爬取--糗事百科爬虫项目 # urllib.request 请求模块 import urllib.request # re 模块使 Python 语言拥有全部的正则表达式功能. i ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python之爬取糗事百科段子实战
"简说Python",选择"置顶/星标公众号" 福利干货,第一时间送达! 阅读本文大约6分钟,实战学习,老表建议你反复看,反复记,反复练. // 本文作者王豪 ...
Python爬虫实战（1）：爬取糗事百科段子
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
利用Python爬取糗事百科段子信息
文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...
python爬虫经典段子_Python爬虫实战（1）：爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
读书笔记（4）——python爬取糗事百科，并存到MySQL中
2019独角兽企业重金招聘Python工程师标准>>> 安装MySQL.使用phpStudy集成工具来安装MySQL服务器,或者可以用USBwebserve进行安装. 打开USBwe ...
【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、使用Scrapy框架爬取糗事百科段子
文章目录 Scrapy快速入门安装和文档: 快速入门: 创建项目: 目录结构介绍: Scrapy框架架构 Scrapy框架介绍: Scrapy框架模块功能: Scrapy Shell 打开Scrap ...

爬取糗事百科，我是专业的！

目录

一. 爬取前的准备

1.1 查看网页

1.2 标签分析

二. 项目的具体实现

2.1 新建爬虫项目qsbk

2.2 settings设置

2.3 分别提取出作者和文本内容

2.4 通过pipeline保存数据

2.5 定义Item

2.6 爬取多个页面的实现

三. 完整代码(此处只提供修改部分，Github上可查看完整目录及代码)

爬取糗事百科，我是专业的！相关推荐

最新文章

热门文章