scrapy笔记01——爬取糗事百科段子和上传者名称
scrapy爬虫项目及爬虫文件创建(terminal):
1、在terminal进入要创建项目的目录
2、在terminal创建工程:scrapy startproject xxxProject(工程名)
3、cd xxxProject进入刚创建的工程
4、在spiders子目录中创建一个爬虫文件:scrapy genspider spiderName www.xxx.com(要 爬取的目标网页)
5、编写好爬虫文件后,不能立即执行,先在配置文件setting.py中,将ROBOTSTXT_OBEY 改为False,并进行User伪装。
6、执行爬虫:scrapy crawl spiderName (–nolog)【执行时加括号里的内容,则只打印结 果,不打印日志信息】、终端ctrl+l是【清屏快捷键】
【例】爬取糗事百科的第一页段子和作者内容
爬取网站:https://www.qiushibaike.com/text/
工程名:qiubaiPro
爬虫文件:qiubai.py
#qiubai.py 文件内容
import scrapyclass QiubaiSpider(scrapy.Spider):name = 'qiubai'#allowed_domains = ['www.xxx.com']start_urls = ['https://www.qiushibaike.com/text/']#数据解析操作在parse函数内进行def parse(self, response):#解析:作者的名称+段子内容div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')for div in div_list:#xpath返回列表,但列表元素一定是selector类型对象#extract可以将selector对象中data参数存储的字符串提取出来# author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#extract_first()表示将列表中对应的第0个元素的selector对象进行extract操作author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()content = div.xpath('./a[1]/div/span//text()').extract()#join(): 连接字符串数组。# 将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串content = ''.join(content)print(author,content)
执行结果:
忧郁的创可贴有人说,这是个看脸的世界,我不赞同这说法,我用我亲身经历,证明了能力比颜值更重要。大学毕业后,和闺蜜去我们当地一家有名气的公司,面试销售
,话说我这闺蜜人长得十分漂亮。才招聘一人,却来了几十个应聘者,竞争十分激烈。我和闺蜜一路过关斩将,到了最后阶段,由老板亲自面试。老板问了
我们一些问题后,果断拍板宣布我被录取,我还有点懵,老板说:本公司看中的是能力,不是颜值。遇到这样的老板,还有什么说的,唯有努力工作报答他
啊。
…
查看全文
scrapy笔记01——爬取糗事百科段子和上传者名称相关推荐
- 【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、 使用Scrapy框架爬取糗事百科段子
文章目录 Scrapy快速入门 安装和文档: 快速入门: 创建项目: 目录结构介绍: Scrapy框架架构 Scrapy框架介绍: Scrapy框架模块功能: Scrapy Shell 打开Scrap ...
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
- 爬虫实战1:爬取糗事百科段子
本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码 对网页源码进行正则分析,爬取段子 对爬取数据进行再次替换&删除处理易于阅读 0. ...
- Python爬虫实战一之爬取糗事百科段子
点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...
- 爬取糗事百科段子(xpath)
爬取糗事百科段子(xpath) import requests from lxml import etreeheaders = {'user-agent': 'Mozilla/5.0 (Windows ...
- Python爬取糗事百科段子+定时发送QQ邮箱
文章目录 前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码 前言 学习Python爬虫也有段时间了,总想着搞点事做 ...
- Python爬取糗事百科段子
Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子 一.获取糗事百科的网页源码 首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...
- Python3写爬虫(五)爬取糗事百科段子
2019独角兽企业重金招聘Python工程师标准>>> 最近几天开始用Python3改写网上用Python2写的案例,发现完全可以用Python3来重构Python2的源码.本篇文章 ...
最新文章
- python词汇-基本 Python 词汇
- OpenCv中实现了三种立体匹配算法:
- HTML行内元素/行级元素/内联元素/行标签/内联标签/行内标签/行元素
- R中Factor类型选取子集
- C# winform程序运行在XP
- DICM和BMP图像的显示及转换
- 云计算 | Centos7和Ubuntu1804制作本地安装源
- Socket教程(完全版)
- fins协议握手信号服务器响应,欧姆龙OMRON PLC之HostLink通讯协议(四)-FINS命令工作模式篇...
- [ZT]COMPAQ PROLIANT 8500上手动安装NetWare 4.11
- oracle中的start with
- 数字内容产业的七种主要盈利模式
- 聊聊我的 Pandas 学习经历及动手实践
- Mac 创建并运行PHP文件
- 支持MyIE/Green Browser浏览器的Google PR插件
- (手机,qq,QQ邮箱验证格式)正则表达式
- pygame简单弹弹球游戏(弹来弹去)
- 2月上旬中国万网域名总量近225万个 份额涨至23.8%
- 达梦数据库之备份与还原
- 智慧路灯助力智慧城市建设
热门文章
- 2020年第六届“99趣拿节”:吃喝玩乐 奇趣海洋
- ps—Photoshop绘图模式、画笔工具,渐变工具,油漆桶工具等选项栏中的模式/溶解模式,背后模式,清除模式,变暗模式等/CS6
- OAuth 2.0实战课 09 笔记
- 想要从事云计算方面的工作,需要什么学历?
- php图片批量上传插件下载,vue.js图片批量上传插件
- 溜溜tc games(投屏工具) 官方免费版 v2.0.0
- 关于mac系统 bootcamp安装win及双系统切换
- 使用 EasyExcel 动态添加自增序号列
- 骁龙660_骁龙670和骁龙660哪款好?骁龙660和骁龙670区别对比评测
- 在Excel表格中如何快速拆分合并单元格