scrapy爬虫项目及爬虫文件创建(terminal):
1、在terminal进入要创建项目的目录

2、在terminal创建工程:scrapy startproject xxxProject(工程名)

3、cd xxxProject进入刚创建的工程

4、在spiders子目录中创建一个爬虫文件:scrapy genspider spiderName www.xxx.com(要 爬取的目标网页)

5、编写好爬虫文件后,不能立即执行,先在配置文件setting.py中,将ROBOTSTXT_OBEY 改为False,并进行User伪装。

6、执行爬虫:scrapy crawl spiderName (–nolog)【执行时加括号里的内容,则只打印结 果,不打印日志信息】、终端ctrl+l是【清屏快捷键】

【例】爬取糗事百科的第一页段子和作者内容
爬取网站:https://www.qiushibaike.com/text/
工程名:qiubaiPro
爬虫文件:qiubai.py

#qiubai.py  文件内容
import scrapyclass QiubaiSpider(scrapy.Spider):name = 'qiubai'#allowed_domains = ['www.xxx.com']start_urls = ['https://www.qiushibaike.com/text/']#数据解析操作在parse函数内进行def parse(self, response):#解析:作者的名称+段子内容div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')for div in div_list:#xpath返回列表,但列表元素一定是selector类型对象#extract可以将selector对象中data参数存储的字符串提取出来# author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#extract_first()表示将列表中对应的第0个元素的selector对象进行extract操作author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()content = div.xpath('./a[1]/div/span//text()').extract()#join(): 连接字符串数组。# 将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串content = ''.join(content)print(author,content)

执行结果:

忧郁的创可贴有人说,这是个看脸的世界,我不赞同这说法,我用我亲身经历,证明了能力比颜值更重要。大学毕业后,和闺蜜去我们当地一家有名气的公司,面试销售
,话说我这闺蜜人长得十分漂亮。才招聘一人,却来了几十个应聘者,竞争十分激烈。我和闺蜜一路过关斩将,到了最后阶段,由老板亲自面试。老板问了
我们一些问题后,果断拍板宣布我被录取,我还有点懵,老板说:本公司看中的是能力,不是颜值。遇到这样的老板,还有什么说的,唯有努力工作报答他
啊。
…
查看全文

scrapy笔记01——爬取糗事百科段子和上传者名称相关推荐

  1. 【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、 使用Scrapy框架爬取糗事百科段子

    文章目录 Scrapy快速入门 安装和文档: 快速入门: 创建项目: 目录结构介绍: Scrapy框架架构 Scrapy框架介绍: Scrapy框架模块功能: Scrapy Shell 打开Scrap ...

  2. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  3. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  4. 爬虫实战1:爬取糗事百科段子

    本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码 对网页源码进行正则分析,爬取段子 对爬取数据进行再次替换&删除处理易于阅读 0. ...

  5. Python爬虫实战一之爬取糗事百科段子

    点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

  6. 爬取糗事百科段子(xpath)

    爬取糗事百科段子(xpath) import requests from lxml import etreeheaders = {'user-agent': 'Mozilla/5.0 (Windows ...

  7. Python爬取糗事百科段子+定时发送QQ邮箱

    文章目录 前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码 前言 学习Python爬虫也有段时间了,总想着搞点事做 ...

  8. Python爬取糗事百科段子

    Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子 一.获取糗事百科的网页源码 首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...

  9. Python3写爬虫(五)爬取糗事百科段子

    2019独角兽企业重金招聘Python工程师标准>>> 最近几天开始用Python3改写网上用Python2写的案例,发现完全可以用Python3来重构Python2的源码.本篇文章 ...

最新文章

  1. python词汇-基本 Python 词汇
  2. OpenCv中实现了三种立体匹配算法:
  3. HTML行内元素/行级元素/内联元素/行标签/内联标签/行内标签/行元素
  4. R中Factor类型选取子集
  5. C# winform程序运行在XP
  6. DICM和BMP图像的显示及转换
  7. 云计算 | Centos7和Ubuntu1804制作本地安装源
  8. Socket教程(完全版)
  9. fins协议握手信号服务器响应,欧姆龙OMRON PLC之HostLink通讯协议(四)-FINS命令工作模式篇...
  10. [ZT]COMPAQ PROLIANT 8500上手动安装NetWare 4.11
  11. oracle中的start with
  12. 数字内容产业的七种主要盈利模式
  13. 聊聊我的 Pandas 学习经历及动手实践
  14. Mac 创建并运行PHP文件
  15. 支持MyIE/Green Browser浏览器的Google PR插件
  16. (手机,qq,QQ邮箱验证格式)正则表达式
  17. pygame简单弹弹球游戏(弹来弹去)
  18. 2月上旬中国万网域名总量近225万个 份额涨至23.8%
  19. 达梦数据库之备份与还原
  20. 智慧路灯助力智慧城市建设

热门文章

  1. 2020年第六届“99趣拿节”:吃喝玩乐 奇趣海洋
  2. ps—Photoshop绘图模式、画笔工具,渐变工具,油漆桶工具等选项栏中的模式/溶解模式,背后模式,清除模式,变暗模式等/CS6
  3. OAuth 2.0实战课 09 笔记
  4. 想要从事云计算方面的工作,需要什么学历?
  5. php图片批量上传插件下载,vue.js图片批量上传插件
  6. 溜溜tc games(投屏工具) 官方免费版 v2.0.0
  7. 关于mac系统 bootcamp安装win及双系统切换
  8. 使用 EasyExcel 动态添加自增序号列
  9. 骁龙660_骁龙670和骁龙660哪款好?骁龙660和骁龙670区别对比评测
  10. 在Excel表格中如何快速拆分合并单元格