用爬虫爬取淘宝,需要进行登录,获得头部header信息,得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息:
(1)登录淘宝页面,打开开发人员工具页面

(2)重新加载,找到Network下的第一条链接

(3)复制链接到https://curl.trillworks.com/中的curl command,将其转换为python requests

import requests
import re
import xlwt
def getHtmlText(url):try:header = {'authority': 'uland.taobao.com','pragma': 'no-cache','cache-control': 'no-cache','upgrade-insecure-requests': '1','user-agent':,'accept': 'referer': 'accept-encoding': ,'accept-language':,'cookie': ,}  # 隐去了cookie信息和referer等信息r = requests.get(url, headers=header)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("爬取失败")return ""
def parsePage(ilist, html):#解析网页try:plt = re.findall(r'\"view_price\":\"\d+\.\d*\"', html)#运用正则表达式找到与商品价格对应的接口tlt = re.findall(r'\"raw_title\":\".*?\"', html)# print(tlt)print(len(plt))for i in range(len(plt)):price = eval(plt[i].split('\"')[3])title = tlt[i].split('\"')[3]ilist.append([title, price])# print(ilist)except:print("解析出错")#写入Excel
def Write_Excel(ilist):print("正在写入Exel表格....")file=xlwt.Workbook(encoding='utf-8')#创建工作簿指定编码table=file.add_sheet("淘宝商品信息")#创建表count=0value=["序号","商品名称","价格"]for i in range(len(value)):table.write(count,i,value[i])for g in ilist:count+=1value=[count,g[0][0:10],float(g[1])]for j in range(3):table.write(count,j,value[j])#参数分别为行、列、以及单元格内的值file.save("所求的淘宝商品信息.xls")print("写入成功!")
#把数据写入Excel表def main():goods = input(print("请输入需要爬取的商品名称:"))depth = int(input(print("请输入需要爬取的页数")))#爬取的页面数量 ,淘宝一个页面包含商品可能为48或者44start_url = "https://s.taobao.com/search?q=" + goodsinfoList = []for i in range(depth):try:url = start_url + '$S=' + str(44 * i)html = getHtmlText(url)parsePage(infoList, html)except:continueWrite_Excel(infoList)
main()

简单爬取淘宝基本信息相关推荐

  1. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  2. python简单爬取淘宝商品信息

    爬取淘热卖商品"泡面"的信息,包括商品名称,店铺,链接,付款人数,价格等,用csv保存 import requests import csv import time import ...

  3. scrapy_splash简单爬取淘宝页面信息

    首先打开淘宝页面,搜索手机: https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=04 ...

  4. 淘宝商品爬虫Ⅰ:根据店铺名爬取淘宝商品基本信息

    根据店铺名爬取淘宝商品基本信息 算是前言 网页分析 爬取流程 代码和运行结果 Cookies去哪找? 火狐浏览器解决方案 后记 算是前言 之前接了几个私活,很多买方都是想要淘宝某个店铺的商品的数据. ...

  5. 爬取淘宝某店铺所有商品基本信息

    目的:爬取淘宝某店铺所有商品基本信息 这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作 调用模块 import re import requests import time im ...

  6. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  7. python爬虫学习(三):使用re库爬取淘宝商品,并把结果写进txt文件

    第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果 从url连接中可以得 ...

  8. 爬取淘宝定价需要多久时间_如何对设计工作进行定价—停止收​​取时间并专注于价值

    爬取淘宝定价需要多久时间 Pricing creative work is a new concept for most freelancers who are starting their busi ...

  9. 用Python爬取淘宝2000款套套,我发现了一个重要秘密

    点击上方"码农突围",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 一.淘宝商品信息爬取 这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇.之所以分开是因为爬取淘宝遇 ...

最新文章

  1. leetcode 5 :Longest Palindromic Substring 找出最长回文子串
  2. 根据时间比较选择数据
  3. 在DataGridView控件中加入ComboBox下拉列表框的实现
  4. 科大星云诗社动态20210207
  5. 让IE和Firefox(包括chrome)浏览器默认产生滚动条的滚动槽
  6. linux7 vi 末行 快捷键,vi 常用操作快捷键
  7. 只有在配置文件或 Page 指令中将 enableSessionState”的异常解决办法
  8. 你会用 JSON.stringify()? JSON.stringify一些坑
  9. 一个无穷积分方程的求解
  10. 【浅墨著作】《OpenCV3编程入门》内容简介勘误配套源代码下载
  11. 身高测量c语言编程,测身高的C语言程序.doc
  12. 云计算要掌握哪些知识点 该怎么学云计算开发
  13. 小孩子要学习时间管理吗
  14. 计算机上什么键有存储,电脑的保存快捷键是什么?电脑保存快捷键介绍
  15. 【rfc5506】RTCP mode
  16. hahMap的括号中指定了数字表示是什么意思
  17. HIVE SQL分位数percentile使用方法案例
  18. 如何快速批量修改图片名称?
  19. JavaScript进阶-高级特性及ES6
  20. FOR ALL ENTRIES IN

热门文章

  1. 智慧校园:蓝牙人员定位系统如何守护校园安全?
  2. Web API与MVC控制器的区别
  3. 初学者级别的java自动化发布脚本
  4. 新手如何避开机器学习过程中的弯路
  5. 把vim打造成牛逼的C++ IDE
  6. 中忻嘉业科技:抖音电商与传统电商不同表现在哪些地方
  7. antd动态主题;在线换肤
  8. php如何防sql注入,如何在PHP中防止SQL注入
  9. 爬虫微信公众号图片无法显示
  10. istio简介和基础组件原理(服务网格Service Mesh)