天猫店铺爬虫文档 ---> Pyppeteer

前言:将天猫店铺爬虫封装成一个产品,最终可以在数据库中读取任意店铺自动化爬取

一、Pyppeteer的使用 --> Document

  1. Pyppeteer较Selenium的好处是可以注入JS来避免一些网站的识别,如淘宝,知乎

  2. 启动时的配置

    browser = await launch({'headless': True, 'args': ['--no-sandbox', '--user-data-dir=D:\job\pypeteer\_temp'],'dumpio': True}            ,'executablePath':'D:\\job\\spider_for_tb_search\\TMspider\\auto_crawl_ids\\chrome-win32\\chrome.exe')
    # 其中
    #   headless:True/False
    #   --no-sandbox 沙箱环境 必须
    #   --user-data-dir 如果出现 Unable to remove user data 表明你没有权限删除临时目录,应该自定义目录
    #   dumpio 对于淘宝必须设置 不然程序调用subprocess.Popen打开chrome之后stderr,stdout没有输出重定向,然后累积多了就卡住了。
    # executablePath 指定现有chrome执行路径 可跳过下载
    page.setJavaScriptEnabled(enabled=True) # 渲染JS
    page.evaluate(js1) # 执行js
  3. 修改connection.py中的43行,不然会报Session closed Most likely the page has been closed

    self._ws = websockets.client.connect(
    # self._url, max_size=None, loop=self._loop) # 注释
    # modify by jaho 新增下面这句
    self._url, max_size=None, loop=self._loop, ping_interval=None, ping_timeout=None)
  4. 常用操作

    1. page.type('id/class','value',{'delay': time })
    2. page.evaluate("""js代码,可在浏览器中执行通过在复制过来""")
    3. await page.waitFor(2000) # 等待2秒
    4. await page.waitForNavigation() # 等待页面跳转
    5. await page.goto(url) # 当前页面跳转到链接
    6. await page.screenshot({'path': './get_pid.png'}) # 截屏
    7. f_cat = await page.xpath('xpath') # 此处获取到的是一个列表link = await (await f_cat[0].getProperty('href')).jsonValue()content = await (await f_cat[0].getProperty('textContent')).jsonValue()
    获取自定义属性时 xpath写到 `/@data-size` 然后获取 textContent 即可
    8. page.keyboard.press('Enter')
    # 其他的可以查看上面的Document
    9. goto(url,{"timeout":0},{'waitUntil': 'networkidle0'})  # 将timeout设置为0 防止超时报错
    以上 如果有什么不懂的 欢迎通过公众号骚扰

天猫淘宝知乎爬虫神器 -- Pyppeteer相关推荐

  1. Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

    Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...

  2. Python爬虫实战(六) 天猫(淘宝)评论爬取与分析实战

    目录 一.天猫(淘宝)爬取地址对比 二.防爬技巧 三.数据分析 代码更新12.19,均可爬取(若爬取失效,请先检查cookie的有效性) 一.天猫(淘宝)爬取地址对比 天猫评论抓包json数据如下,在 ...

  3. 20210507新版友价框架制作江雀网店交易天猫淘宝京东拼多多唯品会网店转让送手机版系统

    20210507新版友价框架制作江雀网店交易天猫淘宝京东拼多多唯品会网店转让送手机版系统 本套源码演示地址:http://jq.94gan.net(pc端) 手机版 :http://jq.94gan. ...

  4. 极客日报:阿里再度调整组织架构:天猫淘宝大融合,新设三大中心;苹果M1首席芯片设计师跳槽至英特尔

    一分钟速览新闻点! 腾讯接入数字人民币,微信支持数字人民币支付 阿里再度调整组织架构:天猫淘宝大融合,新设三大中心 七成清华毕业生进入体制内就业 北京最受欢迎:华为腾讯等科技企业也受青睐 钉钉近期将推 ...

  5. 电商平台技术架构 多用户商城 仿天猫 淘宝 亚马逊 当当 阿里巴巴 大数据模块 低成本运维 高效开发...

    电商平台多用户商城系统架构行业现状 浏览全球知名电商机构(天猫 淘宝 亚马逊 当当 阿里巴巴...),包括开源电商软件(Magento.OpenCart.Xcart.Zencart.Prestasho ...

  6. 天猫淘宝卡券包演进史

    卡券包整体分为PC端以及无线端两大部分,最开始的卡券包是PC版,随着PC向无线化转型的大潮,无线端卡券包也同步产生. 业务定位 卡券包这个产品是伴随着电商卡券系统的建立同步产生的.顾名思义,卡券包就是 ...

  7. 天猫淘宝越来越难做了,为什么不考虑下跨境电商?

    2022年初,这段时间,我身边的好几个做国内电商的朋友都说,现在他们在天猫上的销量越来越少,营销成本越来越高,不做推广已经到了无人问津的地步. 一方面很多朋友都想他们想把市场扩大到海外,但又没接触过跨 ...

  8. 淘宝知网查重怎么样?

    国庆的欢愉似乎还没从自己的身体里完全蜕去,毕业的阴霾便悄悄的吹进自己的心海,毕业真是一个有喜有忧的词汇. 毕业论文往往在大学的最后几节课出现,题目和内容由导师给我们挑选,在写作接近尾声的时候导师则会让 ...

  9. 用python实现淘宝毫秒级秒!! 天猫淘宝的抢购完美实现 而且说实话有很多人需要它。 每次在抢购前的无法提交订单导致很多买家无法购买。 今天我教给大家如何更好快速实现你的购买愿望! 教程如下!请仔

    用python实现淘宝毫秒级秒!! 天猫淘宝的抢购完美实现 而且说实话有很多人需要它. 每次在抢购前的无法提交订单导致很多买家无法购买. 今天我教给大家如何更好快速实现你的购买愿望! 教程如下!请仔细 ...

最新文章

  1. 原来JScript中的关键字'var'还是有文章的
  2. mysql like 多个条件_MySQL高性能索引策略
  3. 软件设计原则(七)合成/聚合复用原则(Composite/Aggregate Reuse Principle,CARP)
  4. C#对用户密码使用MD5加密与解密
  5. 关于计算机维护的相关试题,比较好写的计算机系统维护论文选题 计算机系统维护论文题目哪个好...
  6. 怎么能让宝贝快点入睡?
  7. JS 匿名函数 自执行
  8. 建造者模式Builder
  9. JAVA:hotspot 虚拟机的server和client模式
  10. java获取access token_使用java代码获取新浪微博应用的access token代码实例
  11. MD5校验工具的使用
  12. 微信小程序开发工具报错对应的服务器证书无效
  13. 王者服务器维护5月1日,5月30日体验服停机更新公告
  14. 量化交易6-backtrader编写策略的时数据获取
  15. Real-time Rendering (3rd edition)学习笔记第4章
  16. java建立英文停用词表_pyhanlp 停用词与用户自定义词典
  17. sql注入空格被过滤_SQL注入:各种绕过检测的姿势
  18. js中元素样式设置的六种方法
  19. 不搞仿真,能不能搞好智能?
  20. 从乔布斯卸任看苹果未来三年 会否半途而废?

热门文章

  1. DNA基因鉴定----编辑距离DP
  2. fishedee之QSV转换工具
  3. CSS动画效果——语音播放小喇叭 (实用,赞)
  4. PX4中文维基汉化项目启动
  5. 一站解决经常使用的软件的护眼方法:edge,vscode,win10等
  6. w3c创建就web标准 例如html,WEB编程基础-中国大学mooc-题库零氪
  7. Bootstrap+Html5制作强大的网页视频播放器
  8. mysql-数据更新操作
  9. ADI ADN4604ASVZ-RL模拟和数字交叉点 IC 4.25Gbps 集成电路
  10. python五子棋ai棋力最高_【五子棋AI循序渐进】发布一个完整的有一定棋力的版本(含源码)...