scrapy笔记01——爬取糗事百科段子和上传者名称

scrapy爬虫项目及爬虫文件创建(terminal):
1、在terminal进入要创建项目的目录

2、在terminal创建工程：scrapy startproject xxxProject(工程名)

3、cd xxxProject进入刚创建的工程

4、在spiders子目录中创建一个爬虫文件：scrapy genspider spiderName www.xxx.com(要爬取的目标网页)

5、编写好爬虫文件后，不能立即执行，先在配置文件setting.py中，将ROBOTSTXT_OBEY 改为False,并进行User伪装。

6、执行爬虫：scrapy crawl spiderName (–nolog)【执行时加括号里的内容，则只打印结果，不打印日志信息】、终端ctrl+l是【清屏快捷键】

【例】爬取糗事百科的第一页段子和作者内容
爬取网站：https://www.qiushibaike.com/text/
工程名：qiubaiPro
爬虫文件：qiubai.py

#qiubai.py  文件内容
import scrapyclass QiubaiSpider(scrapy.Spider):name = 'qiubai'#allowed_domains = ['www.xxx.com']start_urls = ['https://www.qiushibaike.com/text/']#数据解析操作在parse函数内进行def parse(self, response):#解析：作者的名称+段子内容div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')for div in div_list:#xpath返回列表，但列表元素一定是selector类型对象#extract可以将selector对象中data参数存储的字符串提取出来# author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#extract_first()表示将列表中对应的第0个元素的selector对象进行extract操作author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()content = div.xpath('./a[1]/div/span//text()').extract()#join()： 连接字符串数组。# 将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串content = ''.join(content)print(author,content)

执行结果：

忧郁的创可贴有人说，这是个看脸的世界，我不赞同这说法，我用我亲身经历，证明了能力比颜值更重要。大学毕业后，和闺蜜去我们当地一家有名气的公司，面试销售
，话说我这闺蜜人长得十分漂亮。才招聘一人，却来了几十个应聘者，竞争十分激烈。我和闺蜜一路过关斩将，到了最后阶段，由老板亲自面试。老板问了
我们一些问题后，果断拍板宣布我被录取，我还有点懵，老板说：本公司看中的是能力，不是颜值。遇到这样的老板，还有什么说的，唯有努力工作报答他
啊。
…
查看全文

scrapy笔记01——爬取糗事百科段子和上传者名称相关推荐

【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、使用Scrapy框架爬取糗事百科段子
文章目录 Scrapy快速入门安装和文档: 快速入门: 创建项目: 目录结构介绍: Scrapy框架架构 Scrapy框架介绍: Scrapy框架模块功能: Scrapy Shell 打开Scrap ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子完整代码地址:Python爬虫实战之爬取糗事百科段子程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
爬虫实战1：爬取糗事百科段子
本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码对网页源码进行正则分析,爬取段子对爬取数据进行再次替换&删除处理易于阅读 0. ...
Python爬虫实战一之爬取糗事百科段子
点我进入原文另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...
爬取糗事百科段子（xpath）
爬取糗事百科段子(xpath) import requests from lxml import etreeheaders = {'user-agent': 'Mozilla/5.0 (Windows ...
Python爬取糗事百科段子+定时发送QQ邮箱
文章目录前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码前言学习Python爬虫也有段时间了,总想着搞点事做 ...
Python爬取糗事百科段子
Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子一.获取糗事百科的网页源码首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...
Python3写爬虫（五）爬取糗事百科段子
2019独角兽企业重金招聘Python工程师标准>>> 最近几天开始用Python3改写网上用Python2写的案例,发现完全可以用Python3来重构Python2的源码.本篇文章 ...

scrapy笔记01——爬取糗事百科段子和上传者名称

scrapy笔记01——爬取糗事百科段子和上传者名称相关推荐

最新文章

热门文章