刚学Python爬虫没多久,老想着爬点什么。哈哈,刚好前段时间双11,就把淘宝爬了下。

不知道为什么,上次对淘宝进行页面读取不需要cookie就可以获取一些信息。现在需要cookie才能过去。话不多说,看代码:

# coding=UTF-8
import requests
import re    # 正则表达式
import xlwt  # excel 操作
import time  # 获取时间
import threading# 需要cookies才能进
def getText(url):try:header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.""0.3440.75 Safari/537.36",'cookie': "这里复制你自己的cookie"}t = requests.get(url, headers=header)  # 不知道为什么,现在需要cookes才可以爬去到t.raise_for_status()  # 页面看是否有问题return t.textexcept:print('页面解析出错!')return None# 在html里面得到信息,保存在li列表里面
def getMessage(li, html):if(html == None):return ''title = re.findall(r"\"raw_title\"\:\".*?\"", html)price = re.findall(r"\"view_price\"\:\".*?\"", html)loc = re.findall(r"\"item_loc\"\:\".*?\"", html)sales = re.findall(r"\"view_sales\"\:\".*?\"", html)count = title.__len__()for i in range(count):title_num = str(title[i]).split(':')[1].replace('\"', '')price_num = str(price[i]).split(':')[1].replace('\"', '')loc_num = str(loc[i]).split(':')[1].replace('\"', '')sales_num = str(sales[i]).split(':')[1].replace('\"', '')li.append([title_num, price_num, loc_num, sales_num])def saveXls(name, li):  # 将列表保存为exce文件--xlst = time.strftime('%Y-%m-%d-%H-%M', time.localtime())  # 获取现在的时间,用与文件保存book = xlwt.Workbook(encoding='UTF-8', style_compression=0)  # 创建一个xls对象name_t = str(name+"-"+t)sheet = book.add_sheet(name)# 前面是sheet 命名 参数overwrite就是说可不可以重复写入值,就是当单元格已经非空,你还要写入# 加了overwrite 会报错???sheet.write(0, 0, "商品名字")sheet.write(0, 1, "商品价格")sheet.write(0, 2, "发货地")sheet.write(0, 3, "付款人数")count = 1average = 0print("一共"+str(li.__len__())+"个商品")for item in li:sheet.write(count, 0, item[0])try:average = average + float(item[1])except:print('')sheet.write(count, 1, item[1])sheet.write(count, 2, item[2])sheet.write(count, 3, item[3])count = count + 1filename = ""+name_t+".xls"average = average/int(li.__len__())print("平均价格:"+str(average))try:book.save(filename)except:try:filename = filename + str(1.0)book.save(filename)except:print("保存表格错误!!!")print("★保存成功!自行打开文件哈,我懒的输出了!★")# 根据输入的信息在淘宝上爬去商品,保存在exc里面根据名字-日期保存!
def taoBao(message, page):li = []i = page[0]count = page[1]while i <= count:num = 3-i*3try:url = "https://s.taobao.com/search?q="+str(message)+"s="+str(num*44)html = getText(url)getMessage(li, html)except:i = i+1continuei = i+1# print('名字\t\t价格\t\t出售地\t\t付款人数')# for i in li:#     print(i[0]+'\t'+i[1]+'\t'+i[2]+'\t'+i[3])saveXls(message, li)if __name__ == '__main__':message = input("输入你想要搜索的商品:")start2 = time.time()page = [0, 20]taoBao(message, page)end2 = time.time()print("花费的时间:"+str(end2 - start2))

Python 爬取淘宝商品的价格并保存到本地excel文件中相关推荐

  1. python爬取淘宝商品图片

    python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...

  2. python爬取淘宝商品做数据挖掘

    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 项目内容: 本项目选择 淘宝商品类目:零食 数量:一共100页,44 ...

  3. python电商数据挖掘_利用Python爬取淘宝商品并数据挖掘与分析实战!此乃大型项目!...

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  4. Python爬取淘宝商品详情页数据

      在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示: 当这个插件处于关闭状态时,待爬取 ...

  5. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  6. 使用python爬取淘宝商品信息

    使用python爬虫爬取淘宝商品信息 使用的模块主要有 selenium ,time , re, from selenium import webdriver import time import c ...

  7. python爬虫学习(三):使用re库爬取淘宝商品,并把结果写进txt文件

    第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果 从url连接中可以得 ...

  8. 用Python爬取淘宝商品

    本文爬取淘宝女装短裙商品,并将商品信息存入mysql中 分析思路 1.页面分析 在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...

  9. python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车

    先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...

最新文章

  1. (Mark)操作系统原理
  2. logo自动旋转 html,HTML/CSS3 Logo选择器
  3. easyui 布局之window和panel一起使用时,拉动window宽高时panel不跟随一起变化
  4. Generator的异步编程
  5. arccatalog点要素显示不完_初中生到底要不要住校?班主任:不建议,看完这3点你就明白了...
  6. How to use neural network to realize logic 'and' and 'or'?
  7. 自己上手搭建VUE项目
  8. linux编译 __stdcall,Linux中是否有STDCALL?
  9. 电感的工作原理与作用
  10. 菜鸟驿站进军万亿社区市场
  11. 腾讯云Ubuntu18.04配置OpenPCDet深度学习环境
  12. SAP LVC_FIELDCATALOG_MERGE 根据表结构生成 fieldcat
  13. 后台写入前台的日期错误,变成一串数字解决方案
  14. Linux下service xxx start/stop/restart启动服务、关闭服务、重启服务深入理解@
  15. XXO客户端携带WUP包体进行协议测试
  16. VC欣赏、家人是阻力,极客化、国际化——90后创业生态
  17. 大冒险 这注定是部史诗级的探索。。。
  18. MySQL多表联合查询
  19. 工业数字智能化常用系统简介
  20. java-net-php-python-springboot基于SpringBoot的OA办公管理系统计算机毕业设计程序

热门文章

  1. 提供给大家一些Android好资料---安卓巴士Android开发神贴整理
  2. kafka-consumer参数详解
  3. java计算机毕业设计教评系统源码+mysql数据库+系统+lw文档+部署
  4. java删除Linux目录下的文件夹
  5. 100个python算法超详细讲解:填充彩色图形
  6. pickle.load出现UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x8b in position 6: ordinal not解决方案
  7. 普林斯顿体系结构与计算机配件的关系
  8. Android系统重要组件PMS
  9. schedule_delayed_work使用
  10. 数字图像处理——频域滤波基础