首先打开淘宝页面,搜索手机:
https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=04511dd93dde330d86022e9ce3a3dc46&keyword=手机&page=0

# 新建scrapy项目
scrapy startproject taobao
# 进入项目目录:
cd taobao
# 创建爬虫
scrapy genspider taobao_comment taobao.com

打开终端,运行docker:
sudo service docker start
运行splash容器:
sudo docker run -p 8050:8050 scrapinghub/splash

在浏览器输入:http://localhost:8050
得到下面的页面:
再来配置爬虫文件:

# settings.py# 添加SPIDER_MIDDLEWARES
SPIDER_MIDDLEWARES = {'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
# DOWNLOADER_MIDDLEWARES 中添加Splash middleware:
DOWNLOADER_MIDDLEWARES = {'scrapy_splash.SplashCookiesMiddleware': 723,'scrapy_splash.SplashMiddleware': 725,'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,'taobao.middlewares.TaobaoDownloaderMiddleware': 543,}
# 将最后几行的注释解开:
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
SPLASH_URL = 'http://localhost:8050/'      #自己安装的docker里的splash位置
DUPEFILTER_CLASS = "scrapy_splash.SplashAwareDupeFilter"  # 添加DUPEFILTER_CLASS去重# 将robots协议改为False:
ROBOTSTXT_OBEY = False
# taobao_comment.pyimport scrapyfrom scrapy_splash import SplashRequestclass TaobaoCommenSpider(scrapy.Spider):name = 'taobao_comment'allowed_domains = ['taobao.com']def start_requests(self):script = """function main(splash, args)splash:set_user_agent("Mozilla/5.0  Chrome/69.0.3497.100 Safari/537.36")splash:go(args.url)splash:wait(5)return {html=splash:html()}end"""url = "https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=04511dd93dde330d86022e9ce3a3dc46&keyword=%E6%89%8B%E6%9C%BA&page=0"yield SplashRequest(url,self.parse,endpoint="execute",args={'lua_source': script, 'url': url})def parse(self, response):with open('taobao.html', 'w+') as f:f.write(response.text)

执行爬虫:scrapy crawl taobao_comment
发现目录中出现taobao.html,右键单击,在浏览器中运行:

到此一个scrapy-splash的简单网页抓取就完成了。

scrapy_splash简单爬取淘宝页面信息相关推荐

  1. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  2. python简单爬取淘宝商品信息

    爬取淘热卖商品"泡面"的信息,包括商品名称,店铺,链接,付款人数,价格等,用csv保存 import requests import csv import time import ...

  3. 网络爬虫爬取淘宝页面商品信息

    网络爬虫爬取淘宝页面商品信息 最近在MOOC上看嵩老师的网络爬虫课程,按照老师的写法并不能进行爬取,遇到了一个问题,就是关于如何"绕开"淘宝登录界面,正确的爬取相关信息.通过百度找 ...

  4. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  5. 爬取淘宝商品信息selenium+pyquery+mongodb

    ''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...

  6. 2021-11-16爬取淘宝商品信息时如何获取cookie

    爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...

  7. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  9. 关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

    关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息 python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家 老师的代码大体上没问题, ...

最新文章

  1. dom 元素拖拽实现
  2. [收藏] 王永民先生:自我白描
  3. python自动化测试看什么书-Python自动化测试入门,看这一篇就足以
  4. [云炬创业基础笔记]第七章创业资源测试4
  5. 【CyberSecurityLearning 37】网络安全常用Linux系统命令以及 源码包的安装过程
  6. 预习-上课-复习:让机器像人一样学习对话
  7. 101 Tips to MySQL Tuning and Optimization
  8. 设置横坐标刻度_是不是快被Excel的时间刻度逼疯了,教你两招轻松解决
  9. java 字节码分析_手把手带你分析Java中的Class字节码文件
  10. jQuery.ajaxPrefilter()函数的使用
  11. 初识WINCE的HIVE注册表
  12. request payload怎么发_做了一个个人博客,但不知道怎么介绍
  13. 用例设计工具PICT — 输入组合覆盖
  14. 每日一句090516
  15. 数据结构笔记(参考王道考研系列)
  16. Python 中的关键字with详解
  17. 《灵飞经》②东岛门人 第一章 倩女灵苏
  18. html多张图片合成一张,PS照片合成:多张照片合成一张
  19. C语言编程>第六周 ① 编写一个录入函数:用来从键盘接收n个整型数并存放在一个整型数组中。 在主函数中调用该函数计算出这n个整数之和。
  20. NLP初学-简易聊天机器人

热门文章

  1. Android 应用加固技术综述
  2. 【Apache web服务器安全加固】
  3. PHP 链接数据库1(连接数据库简单的登录注册)
  4. 简约而不简单!分布式锁入门级实现主动续期-自省
  5. luogu 1909
  6. Jfinal微信公众账号开发笔记
  7. 大齐玩转微信公众账号系列(四):微信公众账号开发入门(原理)
  8. web---盒子模型(思维导图)
  9. 最新bash漏洞解决方法
  10. 算术公理化的发明人—格拉斯曼