From：https://blog.csdn.net/qq_42196922/article/details/89400988

多加一行代码，突破淘宝模拟登录滑块：http://www.imooc.com/article/285729

爬虫自动化：https://www.jianshu.com/p/b3b92f327374

selenium 跳过 webdriver 检测并模拟登录淘宝：https://www.cnblogs.com/cloudbird/p/10524242.html

pyppeteer 绕过 selenium 检测，实现淘宝登陆：https://blog.csdn.net/Chen_chong__/article/details/82950968

Python 使用 selenium 模拟登陆淘宝：https://mp.weixin.qq.com/s?__biz=MzI0OTc0MzAwNA==&mid=2247487680&idx=1&sn=e40947f382116ff59761f250ee45dce3

ichrome

【2021.7.26】更新：发现一个 ichrome，直接驱动 Chrome 抓淘宝，天猫的数据没啥问题

github 地址：https://github.com/ClericPy/ichrome

这里就不放天猫、淘宝的代码了，贴一个药监局的：

（流程：药品 ---> 药品查询 ---> 国产药品，然后就一直翻页）

import asyncio
from lxml import etree
from ichrome import AsyncChromeDaemonasync def main():async with AsyncChromeDaemon(headless=0, disable_image=False) as cd:async with cd.connect_tab(index=0, auto_close=True) as tab:url = 'https://www.nmpa.gov.cn/yaopin/index.html'wait_timeout = 5await tab.goto(url, timeout=wait_timeout)await asyncio.sleep(2)data_query_css_string = '#layer3 > div > a:nth-child(9)'await tab.wait_tag(data_query_css_string, max_wait_time=wait_timeout)await tab.click(data_query_css_string, timeout=wait_timeout)await asyncio.sleep(2)yao_query_css_string = '[title="国家局批准的药品批准文号信息"]'await tab.wait_tag(yao_query_css_string, max_wait_time=wait_timeout)await tab.click(yao_query_css_string, timeout=wait_timeout)await asyncio.sleep(2)while True:data_link_css_string = '#content table:nth-child(2) > tbody > tr:nth-child(1) > td > p > a'await tab.wait_tag(data_link_css_string, timeout=wait_timeout)html = await tab.get_html(timeout=wait_timeout)s_html = etree.HTML(text=html)s_table = s_html.xpath('//div[@id="content"]//table')[2]s_tr_list = s_table.xpath('.//tr')for s_tr in s_tr_list:tag_a = s_tr.xpath('string(.)').strip()print(tag_a)# tag_a_href = s_tr.xpath('.//a/@href')# print(tag_a_href)btn_next = '[src="data:images/dataanniu_07.gif"]'await tab.click(btn_next, timeout=wait_timeout)await asyncio.sleep(2)if __name__ == "__main__":asyncio.run(main())

执行结果：

chrome 多开：设置不同的 debug_port 和 user_data_dir 可以达到多开 Chrome

import json
import asyncio
import aiomultiprocess
from loguru import logger
from ichrome import AsyncChromeDaemon
from ichrome.async_utils import Chromeasync def startup_chrome(dp_port=None):"""设置 chrome 参数，然后启动 chrome:param dp_port: 自定义 debug port:return:"""logger.info(f'dp_port ---> {dp_port}')timeout = 5# 也可以给 Chrome 添加代理proxy = '127.0.0.1:8080'udd= f'c:/chrome_user_data_dir_{dp_port}'async with AsyncChromeDaemon(port=dp_port, proxy=proxy, user_data_dir=udd) as cd:async with cd.connect_tab(index=0) as tab:url = 'https://space.bilibili.com/1904149/'await tab.set_url(url, timeout=timeout)await asyncio.sleep(5)cookie = await tab.get_cookies(url, timeout=timeout)cookie_string = json.dumps(cookie, ensure_ascii=False)logger.info(f'cookie_string ---> {cookie_string}')async def main():db_list = [9301 + offset for offset in range(5)]async with aiomultiprocess.Pool() as aio_pool:await aio_pool.map(startup_chrome, db_list)await aio_pool.join()if __name__ == "__main__":asyncio.run(main())pass

方法 1：利用 Chrome DevTools 协议

Chrome DevTools Protocol （协议详细内容）：https://chromedevtools.github.io/devtools-protocol/

之前淘宝对于 selenium 还是很友好的，后来 selenium 被检测了 window.navigator.webdriver 等参数，出滑动验证码什么的，selenium 已经很难用了，网上大片教程都使用的 pyppeteer 修改检测 js 参数去采集，但是发现chromium 占用内存太高，并且 pyppeteer 参数方法介绍太少，用起来不舒服。

本文介绍了另一种方法：使用 selenium 接管 chrome 浏览器

利用 Chrome DevTools 协议。它允许客户检查和调试 Chrome 浏览器。

添加 chrome 的环境变量

在 系统环境变量 PATH 里将 chrome的路径 添加进去。

命令行下执行命令

打开cmd，在命令行中输入命令：

chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile"

对于-remote-debugging-port值，可以指定任何打开的端口。

对于-user-data-dir 标记，指定创建新 Chrome 配置文件的目录。它是为了确保在单独的配置文件中启动 chrome，不会污染你的默认配置文件。

执行完命令后，会打开一个浏览器页面，我们输入淘宝网址（https://login.taobao.com/member/login.jhtml），输入用户名和密码，登录淘宝后用户信息就保存在 --user-data-dir="C:\selenum\AutomationProfile" 所指定的文件夹中。

执行 js window.open() 打不开窗口时，是因为 chrome 默认不允许弹出窗口，改下 chrome 设置就可以了
在 chrome 浏览器地址栏输入：chrome://settings/content/popups，把已阻止(推荐) 改成允许即可。
或者 chrome -》设置 -》高级 -》隐私设置和安全性 -》网站设置 -》弹出式窗口和重定向，也可以设置。

不要关闭上面浏览器，然后执行 python 代码

python 代码：

在淘宝搜索 "电脑" 关键字，并打印前 5 页所有搜索内容

import os
import time
import random
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC# from selenium.webdriver.common.action_chains import ActionChainsdef main():        # os.system(r'C:\Users\Administrator\AppData\Local\Google\Chrome\Application/chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile"')chrome_debug_port = 9999chrome_options = Options()# chrome_options.add_argument('--headless')chrome_options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")browser = webdriver.Chrome(chrome_options=chrome_options)wait = WebDriverWait(browser, 5)print(browser.title)# 当前句柄current_handle = browser.current_window_handle# browser.execute_script('window.open("https://login.taobao.com/member/login.jhtml")')browser.execute_script('window.open("http://www.baidu.com")')# 所有句柄all_handle = browser.window_handlessecond_handle = all_handle[-1]# 切回firstbrowser.switch_to.window(current_handle)url = 'https://s.taobao.com/search?q=电脑'browser.get(url)produce_info_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-2 title"]/a'produce_info = browser.find_elements_by_xpath(produce_info_xpath)for produce in produce_info:print(produce.text.replace(' ', ''))# 这里是演示，所以只爬了前 5 页for page_num in range(2, 6):next_page_xpath = '//li[@class="item next"]'next_page = browser.find_element_by_xpath(next_page_xpath)next_page_enable = False if 'disabled' in next_page.get_attribute('class') else Trueif next_page_enable:print('*' * 100)print(f'第 {page_num} 页')next_page.click()# browser.refresh()produce_info_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-2 title"]/a'wait.until(EC.presence_of_all_elements_located((By.XPATH, produce_info_xpath)))time.sleep(random.randint(3, 5))produce_info = browser.find_elements_by_xpath(produce_info_xpath)for produce in produce_info:print(produce.text.replace(' ', ''))else:breakif __name__ == '__main__':main()

执行结果截图：

代码 2（根据关键字搜索，然后抓取店铺名，店铺地址，店铺电话，）：

# -*- coding: utf-8 -*-import time
import random
import parsel
import re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC# from selenium.webdriver.common.action_chains import ActionChainsclass TaoBaoSearch(object):def __init__(self):super(TaoBaoSearch, self).__init__()self.browser = Noneself.wait = Noneself.master_handler = Noneself.slaver_handler = Noneself.temp = Noneself.browser_init()def browser_init(self):chrome_debug_port = 9999chrome_options = Options()chrome_options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")# chrome_options.add_argument('--headless')self.browser = webdriver.Chrome(chrome_options=chrome_options)self.wait = WebDriverWait(self.browser, 5)all_handler = self.browser.window_handlesif len(all_handler) >= 1:for index in all_handler[1:]:self.browser.switch_to.window(index)self.browser.close()# self.master_handler = self.browser.current_window_handleself.master_handler = self.browser.window_handles[0]self.browser.switch_to.window(self.master_handler)self.browser.execute_script('window.open()')# self.browser.execute_script('window.open("_blank")')handlers = self.browser.window_handlesself.slaver_handler = handlers[-1]# print(self.browser.title)def get_detail_info(self, shop_url=None):# 切换到 从 窗口self.browser.switch_to.window(self.slaver_handler)self.browser.get(shop_url)html = self.browser.page_sourcehtml = html.replace('&lt;', '<').replace('&gt;', '>')# print(html)s_html = parsel.Selector(text=html)shop_keeper_xpath = '//div[@class="extend"]//li[@class="shopkeeper"]//a/text()'shop_keeper = s_html.xpath(shop_keeper_xpath).extract_first()phone_reg = '联系电话：(\d+-?\d+)|联系手机：(\d+)'phone = re.findall(phone_reg, html)# 处理完后 一定要切换到 主 窗口self.browser.switch_to.window(self.master_handler)return shop_keeper, phonedef process_item(self, item):self.temp = Noneshop_xpath = './/div[@class="shop"]//a'local_xpath = './/div[@class="location"]'shop = item.find_element_by_xpath(shop_xpath).textshop_url = item.find_element_by_xpath(shop_xpath).get_attribute('href')local = item.find_element_by_xpath(local_xpath).textshop_keeper, phone = self.get_detail_info(shop_url)if phone:print(f'shop : {shop}')print(f'local : {local}')print(f'shop_url : {shop_url}')print(f'shop_keeper : {shop_keeper}')print(f'phone : {phone}')with open('./info.txt', 'a+') as f:f.write(shop + ',')f.write(local + ',')f.write(shop_url + ',')f.write(shop_keeper + ',')f.write(f'{phone}')f.write('\n')def main(self):# 切回 主 窗口self.browser.switch_to.window(self.master_handler)key_word = input('输入淘宝搜索关键字：')if not key_word:print('没有输入关键字。默认搜索 “手机”')key_word = '手机'url = f'https://s.taobao.com/search?q={key_word}'self.browser.get(url)shop_and_local_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-3 g-clearfix"]'shop_and_local = self.browser.find_elements_by_xpath(shop_and_local_xpath)for item in shop_and_local:self.process_item(item)# 这里是演示，所以只爬了前 5 页for page_num in range(2, 6):next_page_xpath = '//li[@class="item next"]'next_page = self.browser.find_element_by_xpath(next_page_xpath)next_page_enable = False if 'disabled' in next_page.get_attribute('class') else Trueif next_page_enable:print('*' * 100)print(f'第 {page_num} 页')next_page.click()# self.browser.refresh()self.wait.until(EC.presence_of_all_elements_located((By.XPATH, shop_and_local_xpath)))time.sleep(random.randint(3, 5))shop_and_local = self.browser.find_elements_by_xpath(shop_and_local_xpath)for item in shop_and_local:self.process_item(item)else:breakif __name__ == '__main__':tb = TaoBaoSearch()tb.main()

抓取信息保存到 info.txt ，文件截图：

改进：

上面是一直有浏览器窗口的，没法使用无头模式，可以使用 --user-data-dir 参数，然后设置无头模式。

如果想改变 Chrome 位置，可以设置 chrome_options.binary_location 为 chrome.exe 路径即可。

from selenium import webdriver
from selenium.webdriver.chrome.options import Optionsif __name__ == '__main__':chrome_options = Options()# 不使用默认的Chrome安装版本时，可以设置binary_location 指定 Chrome 路径 。# chrome 和 Chromium 对应 chromedriver.exe 版本不一样chrome_options.binary_location = r'D:\chrome\chrome.exe'# chrome_options.binary_location = r'D:\Chromium\chrome.exe'# chrome_options.add_argument('--headless')chrome_options.add_argument("--no-sandbox")chrome_options.add_argument('disable-infobars')chrome_options.add_argument(r'--user-data-dir=D:\chrome\userdatadir')# chrome_options.add_argument(r'--user-data-dir=D:\Chromium\userdatadir')browser = webdriver.Chrome(chrome_options=chrome_options,executable_path=r'D:\chrome\chromedriver.exe'# executable_path=r'D:\Chromium\chromedriver.exe')browser.get('https://www.taobao.com/')user_name_xpath = '//div[@class="site-nav-user"]/a'user_name = browser.find_element_by_xpath(user_name_xpath).textprint(user_name)

结果截图：

可以看到无头模式下，使用 --user-data-dir 参数，可以登录淘宝。前提需要先手动登录淘宝，拿到登录信息的文件夹。

方法 2：js 注入，修改浏览器特征

执行代码后，手动输入用户名和密码，滑动滑块，可以正常跳转到登录后个人页面。

提示：这个手动滑动滑块有一定的失败几率，有时候失败几率还很高。有时一次就可以滑过，有时好多次都过不去。

示例代码：

import asyncio
from pyppeteer import launchwidth, height = 1366, 768js1 = '''() =>{Object.defineProperties(navigator,{ webdriver:{ get: () => false}})}'''
js2 = '''() => {alert(window.navigator.webdriver)}'''
js3 = '''() => {window.navigator.chrome = {runtime: {}, }; }'''
js4 = '''() =>{Object.defineProperty(navigator, 'languages', {get: () => ['en-US', 'en']});}'''
js5 = '''() =>{Object.defineProperty(navigator, 'plugins', {get: () => [1, 2, 3, 4, 5,6],});}'''async def page_evaluate(page):# 替换淘宝在检测浏览时采集的一些参数# 需要注意，在测试的过程中发现登陆成功后页面的该属性又会变成True# 所以在每次重新加载页面后要重新设置该属性的值。await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')async def main():browser = await launch(headless=False,# userDataDir='./userdata',args=['--disable-infobars', f'--window-size={width},{height}', '--no-sandbox'])page = await browser.newPage()await page.setViewport({"width": width,"height": height})# url = 'https://www.taobao.com'url = 'https://login.taobao.com/member/login.jhtml'await page.goto(url=url)await page.evaluate(js1)await page.evaluate(js3)await page.evaluate(js4)await page.evaluate(js5)# await page_evaluate(page)await asyncio.sleep(100)# await browser.close()asyncio.get_event_loop().run_until_complete(main())

方法 3：将模拟浏览器设置为开发者模式

好像现在这种方法不好用了。。。。。。。。

示例代码：

chrome_options = Options()# 制定 chrome.exe 路径名
# chrome_options.binary_location = f"{current_dir}\\chrome\\chrome.exe" # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])# chrome_options.add_argument("--headless")
chrome_options.add_argument("disable-infobars")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument(f"--user-data-dir={current_dir}\\chrome\\userdatadir")
browser = webdriver.Chrome(chrome_options=chrome_options,executable_path=f'{current_dir}\\chrome\\chromedriver.exe'
)

突破淘宝对于 selenium 检测相关推荐

使用pyppeteer突破淘宝selenium检测实现登陆
前言在两年前写过一个selenium驱动的淘宝爬虫,突然今天拿来运行的时候,需要登录才能采集到数据,于是定位一下元素,发现需要解决滑动验证码问题,简单写了模拟滑动的请求,发现怎么滑动都无法通过认证, ...
突破淘宝登录滑块验证反爬，防止识别为Chrome自动控制
文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn 上次的文章<在爬100万数据的时候,我发现了爬虫的进阶之路> ,有"怂恿"大家伙去突 ...
针对淘宝反selenium的反反爬措施详讲1-----pyautogui
现在某猫和某宝在反反selenium的道路上越越来恶毒了,大部分是检测webdriver的关键符(网上有很多介绍这里就不一一介绍了)当我们遇到反selenium那该怎么办??????????????? ...
淘宝封杀selenium的ua算法分析
接上一回,我们大致梳理了淘宝封杀selenium的思路,找到核心的参数ua,并抛出疑问:为什么ua每次都不一样,并且随着使用次数次数增加长度越来越长. 关于为什么每次获取的ua参数长度都不一样,有个网 ...
最新突破“淘宝”登录接口方法，隐藏selenium，攻克滑块验证码
今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...
Python爬虫淘宝基于selenium抓取淘宝商品数据2021年测试过滑动验证
配置一下"可能需要修改的参数",就可以食用底部代码了,ps:可能已失效本文章代码功能准备工作 Python用到的库和准备工作可能需要修改的参数在CMD中打开一个Chrome ...
您的请求参数与订单信息不一致_[淘客订单检测]淘宝客订单检测接口,淘客订单查询API...
功能 1.输入交易的订单编号,即可查询该订单是否为淘宝客订单.有意向请联系卫星weixiaot168. 2.查询结果 0:不是淘宝客订单:1:是. 3.根据淘宝官方的后台数据,进行检测,数据真实且有效 ...
淘宝开源代码检测工具！(附源码)
点击上方[全栈开发者社区]→右上角[...]→[设为星标⭐] 正文好的代码一定是整洁的,并且能够帮助阅读的人快速理解和定位.好的代码可以加快应用的开发迭代速度,不必花过多的时间 ...
selenium的封杀与突破，记录一次出师未捷身先死，淘宝、美团对爬虫的深入打击
做爬虫,出师未捷身先死,体会过吗?!!! 最近在做一个国外的网站爬虫中文名叫蝙蝠,有网友这样介绍的:"贸易中介类的网站,PR值是6,网站比较可靠":上面记录了很多公司的信息,如电话 ...
如何解决selenium被检测，实现淘宝登陆
爬虫都会碰到某些网站刚刚打开页面就被判定为:非人类行为因为很多网站有对selenium的js监测机制.比如:navigator.webdriver,navigator.languages,navig ...

突破淘宝对于 selenium 检测

ichrome

方法 1：利用 Chrome DevTools 协议

添加 chrome 的环境变量

命令行下执行命令

不要关闭上面浏览器，然后执行 python 代码

改进：

方法 2：js 注入，修改浏览器特征

方法 3：将模拟浏览器设置为开发者模式

突破淘宝对于 selenium 检测相关推荐

最新文章

热门文章

突破淘宝对于 selenium 检测

ichrome

方法 1：利用 Chrome DevTools 协议

添加 chrome 的环境变量

命令行下执行命令

不要关闭上面浏览器，然后执行 python 代码

改进：

方法 2：js 注入，修改浏览器特征

方法 3：将 模拟浏览器 设置为 开发者模式

突破淘宝对于 selenium 检测相关推荐

最新文章

热门文章

方法 3：将模拟浏览器设置为开发者模式