简单爬取淘宝基本信息
用爬虫爬取淘宝,需要进行登录,获得头部header信息,得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息:
(1)登录淘宝页面,打开开发人员工具页面
(2)重新加载,找到Network下的第一条链接
(3)复制链接到https://curl.trillworks.com/中的curl command,将其转换为python requests
import requests
import re
import xlwt
def getHtmlText(url):try:header = {'authority': 'uland.taobao.com','pragma': 'no-cache','cache-control': 'no-cache','upgrade-insecure-requests': '1','user-agent':,'accept': 'referer': 'accept-encoding': ,'accept-language':,'cookie': ,} # 隐去了cookie信息和referer等信息r = requests.get(url, headers=header)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("爬取失败")return ""
def parsePage(ilist, html):#解析网页try:plt = re.findall(r'\"view_price\":\"\d+\.\d*\"', html)#运用正则表达式找到与商品价格对应的接口tlt = re.findall(r'\"raw_title\":\".*?\"', html)# print(tlt)print(len(plt))for i in range(len(plt)):price = eval(plt[i].split('\"')[3])title = tlt[i].split('\"')[3]ilist.append([title, price])# print(ilist)except:print("解析出错")#写入Excel
def Write_Excel(ilist):print("正在写入Exel表格....")file=xlwt.Workbook(encoding='utf-8')#创建工作簿指定编码table=file.add_sheet("淘宝商品信息")#创建表count=0value=["序号","商品名称","价格"]for i in range(len(value)):table.write(count,i,value[i])for g in ilist:count+=1value=[count,g[0][0:10],float(g[1])]for j in range(3):table.write(count,j,value[j])#参数分别为行、列、以及单元格内的值file.save("所求的淘宝商品信息.xls")print("写入成功!")
#把数据写入Excel表def main():goods = input(print("请输入需要爬取的商品名称:"))depth = int(input(print("请输入需要爬取的页数")))#爬取的页面数量 ,淘宝一个页面包含商品可能为48或者44start_url = "https://s.taobao.com/search?q=" + goodsinfoList = []for i in range(depth):try:url = start_url + '$S=' + str(44 * i)html = getHtmlText(url)parsePage(infoList, html)except:continueWrite_Excel(infoList)
main()
简单爬取淘宝基本信息相关推荐
- python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
- python简单爬取淘宝商品信息
爬取淘热卖商品"泡面"的信息,包括商品名称,店铺,链接,付款人数,价格等,用csv保存 import requests import csv import time import ...
- scrapy_splash简单爬取淘宝页面信息
首先打开淘宝页面,搜索手机: https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=04 ...
- 淘宝商品爬虫Ⅰ:根据店铺名爬取淘宝商品基本信息
根据店铺名爬取淘宝商品基本信息 算是前言 网页分析 爬取流程 代码和运行结果 Cookies去哪找? 火狐浏览器解决方案 后记 算是前言 之前接了几个私活,很多买方都是想要淘宝某个店铺的商品的数据. ...
- 爬取淘宝某店铺所有商品基本信息
目的:爬取淘宝某店铺所有商品基本信息 这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作 调用模块 import re import requests import time im ...
- [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...
- python爬虫学习(三):使用re库爬取淘宝商品,并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果 从url连接中可以得 ...
- 爬取淘宝定价需要多久时间_如何对设计工作进行定价—停止收取时间并专注于价值
爬取淘宝定价需要多久时间 Pricing creative work is a new concept for most freelancers who are starting their busi ...
- 用Python爬取淘宝2000款套套,我发现了一个重要秘密
点击上方"码农突围",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 一.淘宝商品信息爬取 这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇.之所以分开是因为爬取淘宝遇 ...
最新文章
- leetcode 5 :Longest Palindromic Substring 找出最长回文子串
- 根据时间比较选择数据
- 在DataGridView控件中加入ComboBox下拉列表框的实现
- 科大星云诗社动态20210207
- 让IE和Firefox(包括chrome)浏览器默认产生滚动条的滚动槽
- linux7 vi 末行 快捷键,vi 常用操作快捷键
- 只有在配置文件或 Page 指令中将 enableSessionState”的异常解决办法
- 你会用 JSON.stringify()? JSON.stringify一些坑
- 一个无穷积分方程的求解
- 【浅墨著作】《OpenCV3编程入门》内容简介勘误配套源代码下载
- 身高测量c语言编程,测身高的C语言程序.doc
- 云计算要掌握哪些知识点 该怎么学云计算开发
- 小孩子要学习时间管理吗
- 计算机上什么键有存储,电脑的保存快捷键是什么?电脑保存快捷键介绍
- 【rfc5506】RTCP mode
- hahMap的括号中指定了数字表示是什么意思
- HIVE SQL分位数percentile使用方法案例
- 如何快速批量修改图片名称?
- JavaScript进阶-高级特性及ES6
- FOR ALL ENTRIES IN