如何使用自动化爬取淘宝信息

1、首先我们要确保安装了谷歌浏览器,并且是84.0版本

因为接下来我们要用到自动化这款软件,必须得和版本相匹配,否则就会失败

2、然后接下来,打开我们的taobao文件选择里面dist文件,这里提醒一下文件名最好不要随便乱改,因为这个exe文件是和py文件相匹配的,所以防止出错,test.exe这个文件是获取淘宝商品的属性,taobao-shangpingxinxi.exe这个是获取商品的销量、价格、标题,至于为什么不能放到一起爬取呢,因为这两个是不同页面来的,之前我一直在反复尝试,试着把这两个exe文件一起写,但是可惜一直都是失败告终。

3、前言说完了,接下来说说具体操作流程,首先打开我们其中的一个exe文件等他出现一个这个黑色的文件框即可,如果中途问你是否允许这个文件执行,点击确认即可,然后往里面输入你要搜索的关键词

例如我输入的是灯具组合 全屋 套餐

个人建议,最好就是先随便找个文本输入关键词,然后复制粘贴进去这个终端,因为在终端打字挺麻烦的,确认好你的关键词之后,按一下回车就开始运行这个程序了

4、运行这个程序之后,会自动弹出我们下载好的谷歌,这里我使用的是手机扫码登录,这样方便一点,可用度也高,任何人有淘宝号都可以运行这个程序,我设置了10秒钟的时间,如果超过10秒,那么程序会重新执行,所以最好速度要快

点击右上角那个扫码登录

拿出手机打开淘宝APP在搜索栏旁边有个扫二维码的东西,点击即可,然后扫码在手机端点击确认

都确认好之后就会跳转到我们需要爬取的页面

这时候我们什么都不用干,让它自己自动化爬取就好了,会自动翻页,淘宝搜索关键词最多只有100页,那么我们设置100页就好了,每当爬一页就会写入成功一次,这个是写入我们的CSV文件的

5、但是当我们打开我们的CSV文件的时候发现一个奇怪的现象

我们的CSV文件乱码了,这是因为我们的编码格式出了问题,这时候我们用Excel转换一下就好了,先创建一个Excel表打开,选择数据选择自文本,打开我们要导入的CSV文件

然后按照下面步骤来就好了

在导入我们的CSV文件之后,第一步先选择好我们的原始格式,第二步按下一步,第三步选择逗号,并且把tab键那个钩子去掉,文本识别符号选择双引号,然后再点击下一步

然后点击完成,最后的效果就是我们需要的信息了

中…(img-LXmQHQWC-1598376822720)]

然后点击完成,最后的效果就是我们需要的信息了


源代码我放到GitHub上了,最好有一定基础,不然看不懂不会操作的

这个是适合小白,新手,什么东西我都做好了,你按照上文描述来使用即可

如何使用selenium自动化爬取淘宝信息相关推荐

  1. 最新爬虫(2019.07)淘宝页面登陆滑块验证 selenium + chromedriver 爬取淘宝信息

    说在前面的话 你或许找了很久的方案来到了这里,当你看到本文章时,我默认你已经发现,淘宝的反扒措施是  webdriver和chromedriver的识别.所以我不会贴过多图片,不讲分析思路,直接给你鱼 ...

  2. python + selenium多进程爬取淘宝搜索页数据

    python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...

  3. python不登陆爬取淘宝数据_python登录并爬取淘宝信息代码示例

    本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下. #!/usr/bin/env python # -*- coding:utf-8 -*- from selen ...

  4. 第一篇博客,python爬取淘宝信息

    python爬取淘宝信息 本人只是刚学python的菜鸟,代码不规范及需改进的地方请指教 我们直接看代码吧!哈哈 import requests from bs4 import BeautifulSo ...

  5. 自动化爬取淘宝数据--(保存到文本中)

    普通版本的爬取淘宝网页 #淘宝商品信息 #从selenium中引入webdriver from selenium import webdriver import time #输入查询关键词 keywo ...

  6. python 淘宝搜索_Python使用Selenium+BeautifulSoup爬取淘宝搜索页

    使用Selenium驱动chrome页面,获得淘宝信息并用BeautifulSoup分析得到结果. 使用Selenium时注意页面的加载判断,以及加载超时的异常处理. import json impo ...

  7. 【selenium爬虫】 selenium自动化爬取京东图书信息

    一.题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中二.解题思路:1.需要下载一个chromedriver.exe.下载地址:ChromeDriver Mirror 注意: ...

  8. selenium登录 爬取淘宝商品信息

    淘宝网: 淘宝网是亚太地区较大的网络零售.商圈,由阿里巴巴集团在2003年5月创立.淘宝网 是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已 ...

  9. selenium+chromedriver爬取淘宝美食信息保存到MongoDB

    配置文件 MONGO_URL = 'localhost' MONGO_DB = 'taobao_food' MONGO_TABLE = 'products' 代码实现 from selenium im ...

最新文章

  1. Hazelcast介绍与使用
  2. 【转】3.2SharePoint服务器端对象模型 之 访问文件和文件夹(Part 2)
  3. 怎么改电脑网络ip地址_抛弃重启路由器获取ip地址方式,巧妙运用ip代理改IP工具...
  4. 2021中国垂类电竞KOL发展洞察行业报告
  5. NumPy学习(索引和切片,合并,分割,copy与deep copy)
  6. 使用CAShapeLayer与UIBezierPath画出想要的图形
  7. day042 css 选择器
  8. android x5内核 下载地址,X浏览器-X5内核版本
  9. 为羊哥点赞,利用云服务器搭建私人云笔记
  10. 1、 利用AUTO CAD脚本写一个插件,可以读取CAD中的图形公式,并输出为一个Excel计算表格...
  11. 短视频app搭建的技术难点是什么?
  12. 计算机utp,UTP网线
  13. 相对路径与绝对路径的写法
  14. J2me项目实例------网络通讯录(1) (转)
  15. Nginx 404 排查过程
  16. qbo odom数据的获取
  17. C语言程序入门设计OJ练习题7 浙江大学——程序入门设计-翁恺
  18. 二叉树的前中后序遍历(栈)(C++)
  19. 如何正确使用计算机提纲,计算机系统操作论文大纲格式 计算机系统操作论文提纲如何写...
  20. C语言习题——练习1

热门文章

  1. 私有云 openstack部署
  2. C语言 计算Sn=a+aa+aaa+…+aa……aa(n个a)的值
  3. .ART的价值潜力在哪里?
  4. java代码实现FTP协议
  5. 企业微信外部联系人怎么更高效的添加?
  6. 如何拍照识别淘宝商品API接口
  7. 2022-2027年中国甾体原料药行业市场调研及未来发展趋势预测报告
  8. 2022年主要的编程语言及应用
  9. 深度学习之经典网络架构AlexNet(二)
  10. 动态他Transact-SQL语句处理中的常见问题演示.sql