1.写爬虫最重要的一步就是解析需要抓取信息的xpath,我是比较习惯使用这个。大家可以安装一个xpath helper

2. 第一步上代码,我用的是jupyter notebook 以便边看html代码,边测试。

from selenium.webdriver import ChromeOptions
import time
from fake_useragent import UserAgent
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait#ua = UserAgent()option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('useAutomationExtension', False)NoImage = {"profile.managed_default_content_settings.images": 2}  # 控制 没有图片
option.add_experimental_option("prefs", NoImage)# option.add_argument(f'user-agent={ua.chrome}')  # 增加浏览器头部# chrome_options.add_argument(f"--proxy-server=http://{self.ip}")  # 增加IP地址。。# option.add_argument('--headless')  #无头模式 不弹出浏览器browser = webdriver.Chrome(options=option,executable_path=r"D:\Python3.7.6\Scripts\chromedriver.exe")
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': 'Object.defineProperty(navigator,"webdriver",{get:()=>undefined})'})  #去掉selenium的驱动设置browser.set_window_size(1200,768)
wait = WebDriverWait(browser, 12)
url='https://www.amazon.com/reviews/top-reviewers'
browser.get(url)

运行之后,自己手动更改邮编,刷新一下,这里在抓取其他产品信息比较重要,这里不改邮编好像详细一样的。

3、我需要抓取的信息在这个tbody

html_code =  browser.page_source

将网页代码拿下来。

拿到这个信息

4、由于客户信息详情页都有,这里,我只获取详情页的链接即可



通过for循环,即可获取全部的用户界面

from scrapy.selector import Selector
selector=Selector(text=html_code)
tbody=selector.xpath('//*[@id="pha-lb-page"]/div[2]/div/div/table/tbody//tr')
for each in tbody:link=each.xpath('./td[3]/a[1]/@href').extract()if link:print(link)

5、这里构造链接,进入详情页,然后抓取信息。

one_desc='https://www.amazon.com/gp/profile/amzn1.account.AHXGA4UF6GOLITRL2DCUR63BTRPA/ref=cm_cr_tr_tbl_59_name'js1 = f" window.open('{one_desc}')"  # 执行打开新的标签页
browser.execute_script(js1)  # 打开新的网页标签
browser.switch_to.window( browser.window_handles[-1])

前面控制没有图片,注释掉了,这里要抓取这些信息

html_code_desc =  browser.page_source
selector_desc=Selector(text=html_code_desc)
concat=selector_desc.xpath('//*[@id="profile_v5"]/div/div/div[4]/div[1]/div[3]/div[2]/div/div/div[4]/div//@href').extract()
desc_review=selector_desc.xpath('//*[@id="profile_v5"]/div/div/div[4]/div[2]/div[1]/div[2]/div//text()').extract()

没改邮编,默认的是汉语,

6、
下面就是用scrapy 框架 整和代码

Python爬虫解析路径技巧-抓取亚马逊top-reviewers相关推荐

  1. 如何使用代理IP进行数据采集,PHP爬虫抓取亚马逊商品数据

    本文关键词:代理IP,私密代理IP,私密代理IP数据采集 什么是代理?什么情况下会用到代理IP?如何使用代理IP进行数据采集 代理服务器的功能就是代理用户去获取网络信息,之后再把相应的信息反馈给客户. ...

  2. 爬取亚马逊评论_如何利用插件抓取亚马逊评论和关键词?

    如何抓取亚马逊的商品评价? 原本想给大家介绍使用市面上常见或者付费的爬虫工具,直到我发现了这个Chrome的免费插件 --Instant Data Scraper,当时我差点被感动哭了.比起学编程语言 ...

  3. 如何获取亚马逊top reviewers的评论?

    亚马逊卖家店铺的销量让很多跨境电商怎样提高,店铺销量当中有一个很大的影响因素那就是亚马逊review,今天小编的话想给大家介绍一下如何获取亚马逊top reviewers的评论? 第一步: 查找亚马逊 ...

  4. 爬虫---抓取亚马逊热销书籍前100

    闲来无事扒个网页解闷 首先找个软柿子捏 亚马逊热销排行榜对爬虫的限制并不多 页面连ajx请求都不用发,更没用JS渲染, 只要有网址直接get出所有的数据 用的关于获取网页资源,只用到requests库 ...

  5. python爬虫外贸客户_python 爬虫抓取亚马逊数据

    1 #生成随机头 2 defrandHeader():3 head_connection = ['Keep-Alive', 'close']4 head_accept = ['text/html, a ...

  6. python抓取亚马逊某个类目下Top 100排名的商品

    1.获取分页url 列表 2. 获取详情页url列表 3. 获取详情页数据 import requests from lxml import etree import urllib3 import t ...

  7. php怎么爬取亚马逊的数据,php 抓取亚马逊中国产品数据-标题,价格,首图片

    set_time_limit(0); date_default_timezone_set("Asia/shanghai"); //自定义抓取图片地址 $url = 'http:// ...

  8. Python爬虫包 BeautifulSoup 递归抓取实例详解

    Python爬虫包 BeautifulSoup 递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到另 ...

  9. [Python爬虫] 三、数据抓取之Requests HTTP 库

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 一.urllib 模块 所谓网页抓取,就是把URL ...

最新文章

  1. NLP模型BERT和经典数据集!
  2. OSI七层模型加协议
  3. python 中的短路逻辑是什么?
  4. Windows 8的企业部署之路漫漫兮
  5. 读教材并提问-回答自己的提问
  6. java varargs_Java中方法重载中的Varargs
  7. 解决tshark报错:tshark: Some fields aren‘t valid
  8. 深度学习VS机器学习——到底什么区别
  9. python tkinter计算器实例_python库的tkinter带你进入GUI世界(计算器简单功能)
  10. python测试面试题-python接口自动化+测试开发面试题
  11. html缎带按钮,6款丝带蝴蝶结系法图解_乌托家家居网
  12. itunes备份和恢复速度一样吗_itunes如何备份短信、电话和照片及恢复教程
  13. excel高效之sumproduct()带权重计算 如:绩效
  14. 声音大小与振幅的关系_物理知识问答-响度与振幅的关系是什么?
  15. 如何免费获取IEEE论文,亲测有效,【分享给有需要的人】
  16. 量子计算机可以发明时光机,全球第一台时光机? 科学家声称用量子电脑办到了...
  17. Java 输入一个年份,判断它是平年还是闰年
  18. JAVA-IDEA使用技巧
  19. 西门子PLC1500大型fanuc机器人焊装 包括1台西门子1500PLC程序,2台触摸屏TP1500程序
  20. 锂电池充电(TP4056A芯片)电路分享

热门文章

  1. elasticsearch集群介绍及数据存储过程原理
  2. 推荐一款在线复制图片转字符画工具,这是来自字符的艺术
  3. 第十二篇:读《经济学的思维方式》
  4. C++ | 你真的了解namespace吗?
  5. 转:IBM ThinkPad笔记本电脑问题集
  6. 网传快手裁员30%?工资高优先被裁?再也不羡慕百万年薪了……
  7. wincc无法连接到项目服务器,wincc flexible没法连接到sql服务器的解决方法
  8. PS 滤镜算法— — 表面模糊
  9. 癌细胞“大义灭亲”!杀遍全身肿瘤后自杀
  10. Win7文件夹共享与远程桌面