爬虫对于数据分析的人来说是一个很方便又节省时间的工具,在网络爬虫抓取数据之前,要知道有些网页对网络爬虫是有限制的。在抓取数据之前可以在网站根目录下的robots.text文件中查找对爬虫网站的爬取策略。
我是用jupyter notebook来实现这个爬虫代码的,在之前要提前安装好第三方库requests.(如果是anaconda,不用再次安装,可以在conda list下面看有没有requests.)

import requests
import redef getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price , title])except:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count, g[0], g[1]))def main():goods = '婚纱'depth = 3start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44*i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

部分结果展示:

*序号 价格 商品名称
1 279.00 秀禾服新款敬酒服新娘婚纱中式龙凤褂长袖
2 489.00 婚纱礼服2017新款新娘一字肩韩式修身显瘦时尚简约奢华长拖尾孕妇
3 426.00 婚纱礼服2017新款冬季新娘孕妇高腰一字肩拖尾公主梦幻结婚齐地轻
4 185.00 婚纱礼服2017新款新娘结婚婚纱中袖蕾丝齐地婚纱韩式绑带修身婚纱
5 499.90 婚纱2017秋冬新款新娘结婚韩式梦幻公主奢华蕾丝抹胸深v拖尾礼服
6 328.00 冬季婚纱2017新款新娘结婚公主齐地简约加厚毛领长袖保暖加棉冬天
7 799.00 苏州婚纱礼服2017春夏新款花朵蕾丝修身拖尾一字肩显瘦蓬裙包邮
8 799.00 苏州婚纱礼服2016春夏新款花朵蕾丝修身拖尾性感包肩显瘦蓬裙
9 699.00 婚纱白色女宫廷防走光婚纱白色一字肩高高腰造型蕾丝婚纱礼服梦幻
10 10950.00 2016美国官方代购White by Vera Wang王薇薇新娘婚纱VW351318
11 318.00 2017秋冬新款双肩齐地韩式大码显瘦一字肩新娘长拖尾婚纱礼服简约*

代码详解请参考中国大学MOOChttp://www.icourse163.org/course/BIT-1001870001

Python简单爬虫——淘宝数据相关推荐

  1. python爬取淘宝数据魔方_淘宝数据魔方技术架构解析

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业 ...

  2. python爬取淘宝数据魔方_《淘宝数据魔方技术架构解析》阅读笔记

    淘宝网拥有国内最具商业价值的海量数据.截至当前,每天有超过30亿的店铺.商品浏览记录,10亿在线商品数,上千万的成交.收藏和评价数据.如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝.商家进行企业的 ...

  3. python爬取淘宝数据魔方_淘宝数据魔方技术架构解析阅读心得

    淘宝网拥有国内最具商业价值的海量数据,而帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命.为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计.数据魔方和淘宝指数等.本文将以数据 ...

  4. 爬虫案例 --- Python 爬取淘宝数据存到数据库

    可以做爬虫的语言有很多,如 PHP.Java.C/C++.Python等等... 1)PHP语言 虽然是世界上最好的语言,但是他天生不是干这个的,而且对多线程.异步支持不够好,并发处理能力很弱.爬虫是 ...

  5. Python完美采集淘宝数据,含完整源代码和视频教程

     目录 前言 准备 分析(x0) 分析(x1) 分析(x2) 分析(x3) 分析(x4) 总结 我有话说 前言 大家好,我叫善念.不说漂亮话,直接开始今天要采集的目标:某宝数据 今天要采用的方式是se ...

  6. Python爬取淘宝商品数据,价值千元的爬虫外包项目

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 完整代码可以点击下方链 ...

  7. python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?

    01.前言 上一篇文章(爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!)爬取分析了淘宝的热卖商品,从分析来看『螺蛳粉』的销量巨高.因此这篇文章将爬取淘宝全部『螺蛳粉』商品数据,通过可视化分析淘宝 ...

  8. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  9. Python自动登陆淘宝并爬取商品数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm import time from sel ...

最新文章

  1. 亏本也要抢市场!谷歌亚马逊一路死磕到CES,争夺语音入口之路,谁都不是吃素的
  2. gnu java_GNU/Linux下Java开发环境的安装和配置
  3. [Elasticsearch2.x] 多字段搜索 (三) - multi_match查询和多数字段 译
  4. geitee仓库项目拉到(克隆到)本地
  5. WebApp开发技术搭配
  6. JS内置对象练习(慕课网题目)
  7. 使用Rufus制作LINUX启动安装U盘(成功)
  8. 使用flask开发web应用
  9. 李宏毅2020机器学习笔记1——CXK
  10. 韦根读卡电路c语言程序,私人项目开源 — 低成本125K RFID读卡模块(原理图+PCB+代码+调试)...
  11. 软件测试——linux基础
  12. 写在觉醒时 埋葬过去的堕落
  13. 高考读卡机是谁发明的?
  14. 双语矩阵论课程笔记(2)—— 【chapter 1】 Vector Spaces (Linear Spaces)
  15. html实现圆形计时器特效,如何用css3实现圆形倒计时
  16. PreparedStatement的setNull
  17. 4、外部中断(STM32)
  18. 魅族mx1Android4.4,魅族最新系统 Flyme 1.0 for MX(双核/四核)正式版 基于Android 4.0
  19. (25):SPA单页面的理解
  20. Mineflayer简介——Minecraft机器人

热门文章

  1. 庞涓VS孙膑——一个很难的数学问题
  2. 朋友电脑密码忘了,我当场拔了她的电源,结果。。。
  3. Android面试总结2017版
  4. DODO被黑详解:偷天换日
  5. 2019最新爱前端课程全套 初级+中级+高级
  6. 购房,切不可签订无效条款
  7. 2017中国(中部)国际农业机械展览会会刊(参展商名录)
  8. 相机内参矩阵K和fov的相互转换
  9. 利用下班时间,我两星期完成了redis入门与进阶
  10. 九、wxWidgets菜单