简单爬取淘宝基本信息

用爬虫爬取淘宝，需要进行登录，获得头部header信息，得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息：
（1）登录淘宝页面，打开开发人员工具页面

（2）重新加载，找到Network下的第一条链接

（3）复制链接到https://curl.trillworks.com/中的curl command，将其转换为python requests

import requests
import re
import xlwt
def getHtmlText(url):try:header = {'authority': 'uland.taobao.com','pragma': 'no-cache','cache-control': 'no-cache','upgrade-insecure-requests': '1','user-agent':,'accept': 'referer': 'accept-encoding': ,'accept-language':,'cookie': ,}  # 隐去了cookie信息和referer等信息r = requests.get(url, headers=header)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("爬取失败")return ""
def parsePage(ilist, html):#解析网页try:plt = re.findall(r'\"view_price\":\"\d+\.\d*\"', html)#运用正则表达式找到与商品价格对应的接口tlt = re.findall(r'\"raw_title\":\".*?\"', html)# print(tlt)print(len(plt))for i in range(len(plt)):price = eval(plt[i].split('\"')[3])title = tlt[i].split('\"')[3]ilist.append([title, price])# print(ilist)except:print("解析出错")#写入Excel
def Write_Excel(ilist):print("正在写入Exel表格....")file=xlwt.Workbook(encoding='utf-8')#创建工作簿指定编码table=file.add_sheet("淘宝商品信息")#创建表count=0value=["序号","商品名称","价格"]for i in range(len(value)):table.write(count,i,value[i])for g in ilist:count+=1value=[count,g[0][0:10],float(g[1])]for j in range(3):table.write(count,j,value[j])#参数分别为行、列、以及单元格内的值file.save("所求的淘宝商品信息.xls")print("写入成功！")
#把数据写入Excel表def main():goods = input(print("请输入需要爬取的商品名称："))depth = int(input(print("请输入需要爬取的页数")))#爬取的页面数量 ，淘宝一个页面包含商品可能为48或者44start_url = "https://s.taobao.com/search?q=" + goodsinfoList = []for i in range(depth):try:url = start_url + '$S=' + str(44 * i)html = getHtmlText(url)parsePage(infoList, html)except:continueWrite_Excel(infoList)
main()

简单爬取淘宝基本信息相关推荐

python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
python简单爬取淘宝商品信息
爬取淘热卖商品"泡面"的信息,包括商品名称,店铺,链接,付款人数,价格等,用csv保存 import requests import csv import time import ...
scrapy_splash简单爬取淘宝页面信息
首先打开淘宝页面,搜索手机: https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=04 ...
淘宝商品爬虫Ⅰ：根据店铺名爬取淘宝商品基本信息
根据店铺名爬取淘宝商品基本信息算是前言网页分析爬取流程代码和运行结果 Cookies去哪找? 火狐浏览器解决方案后记算是前言之前接了几个私活,很多买方都是想要淘宝某个店铺的商品的数据. ...
爬取淘宝某店铺所有商品基本信息
目的:爬取淘宝某店铺所有商品基本信息这里是爬取的淘宝小米官方店铺的所有商品基本信息,其他店铺也是同样的操作调用模块 import re import requests import time im ...
[Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...
python爬虫学习(三)：使用re库爬取淘宝商品，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果从url连接中可以得 ...
爬取淘宝定价需要多久时间_如何对设计工作进行定价—停止收取时间并专注于价值
爬取淘宝定价需要多久时间 Pricing creative work is a new concept for most freelancers who are starting their busi ...
用Python爬取淘宝2000款套套，我发现了一个重要秘密
点击上方"码农突围",马上关注,每天早上8:50准时推送真爱,请置顶或星标一.淘宝商品信息爬取这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇.之所以分开是因为爬取淘宝遇 ...

简单爬取淘宝基本信息

简单爬取淘宝基本信息相关推荐

最新文章

热门文章