如题,此次为urllib爬取淘宝网零食板块的代码,并将其写入txt文件中:

一、进入淘宝网-查看源代码

二、通过源码得出正则表达式

  1. title_pat  =  '"raw_title":"(.*?)",'
  2. price_pat  =  '"view_price":"(.*?)",'
  3. loc_pat  =  '"item_loc":"(.*?)",'
  4. sale_pat  =  '"view_sales":"(.*?)人付款",'
  5. comment_pat  =  '"comment_count":"(.*?)",'

三、书写代码进行爬取

  1. import re
  2. import urllib.request
  3. import urllib.error
  4. import pandas as pd
  5. from pandas import DataFrame,read_csv
  6. #设置正则表达式
  7. title_pat  =  '"raw_title":"(.*?)",'
  8. price_pat  =  '"view_price":"(.*?)",'
  9. loc_pat  =  '"item_loc":"(.*?)",'
  10. sale_pat  =  '"view_sales":"(.*?)人付款",'
  11. comment_pat  =  '"comment_count":"(.*?)",'
  12. #设置要进行爬取的网址
  13. fh=open('./taobao.txt','w')
  14. #设置搜索关键词
  15. key  =  '零食'
  16. key  =  urllib.request.quote(key)
  17. for i in range(1,101):
  18. try:
  19. print('正在爬取第'+str(i)+"页")
  20. url="http://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180514&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i-1)*44
  21. #设置报头,封装请求并爬取
  22. headers=("user-agent",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36')
  23. opener=urllib.request.build_opener()
  24. opener.addheaders=[headers]
  25. urllib.request.install_opener(opener)
  26. req=urllib.request.Request(url)
  27. data=urllib.request.urlopen(req).read().decode('utf-8','ignore')
  28. #提取title、price、location、sale、comment
  29. title=re.compile(title_pat).findall(data)
  30. price=re.compile(price_pat).findall(data)
  31. loc=re.compile(loc_pat).findall(data)
  32. sale=re.compile(sale_pat).findall(data)
  33. comment=re.compile(comment_pat).findall(data)
  34. #写入文件
  35. mydata=list(zip(title,price,loc,sale,comment))
  36. mydataf=pd.DataFrame(data=mydata)
  37. fh.write(str(mydataf))
  38. except urllib.error.URLError as e:   #抓取异常并输出
  39. print('第'+str(i)+'页爬取失败')
  40. if hasattr(e,'reason'):
  41. print(e.reason)
  42. if hasattr(e,'code'):
  43. print(e.code)
  44. print('第'+str(i)+'页爬取成功')
  45. fh.close()

四、总结

此次urllib实战让我对python的爬虫有了更加深刻的了解。写代码的过程中多次受阻,在此记下:

1、写代码需要有一个清晰的逻辑,清楚自己每一步的目的

2、设置正则表达式、url时何时应该增加引号,何时不能添加,写for循环等功能后需要添加“:”,需要注意缩进,这些都需要经过实践才能清楚自己的不足

3、写入文件时多次出现错误,主要还是对python的各种功能还不够了解,因此,还需要多加练习

不管如何,所有困难一一克服,尽管还有许多细节没有优化好,但这终究是一件令人感到愉悦的事啊~~

——戊戌年丁巳月丁未日记

爬虫笔记——urllib实战之淘宝零食板块爬取相关推荐

  1. python爬虫—关于淘宝商品的爬取

    之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...

  2. 淘宝众筹数据爬取(1)

    众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注.然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦.前文中我们已经了解了静态网页 ...

  3. [笔记]python爬虫:淘宝商品价格信息爬取示例

    爬取的网站信息 网站地址 淘宝官网:https://www.taobao.com/ 爬取内容 碧根果价格信息 网页对应的部分源代码 从网页源代码中可以看到,需要爬取的商品以 "raw_tit ...

  4. Python爬虫实例之淘宝商品比价定向爬取!爬虫还是很有意思的!

    这次就模仿之前做的总结进行初次尝试 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 理解:获取淘宝的搜索接口淘宝页面的翻页处理 技术路线:requests--re 准备工作 获取淘宝搜索商品的 ...

  5. python爬虫淘宝评论_Python爬取淘宝店铺和评论

    1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

  6. 自学爬虫项目(二)一一利用selenium模拟淘宝登录,爬取商品数据

    文章目录 前言 一.明确目标 二.分析过程 三.代码封装 总结 前言 你是否还在为学习Python没有方向而苦恼?快来跟着壹乐一起学习吧!让我们共同进步! 今天我们用selenium与Beautifu ...

  7. 使用python requests+re库+curl.trillworks.com神器 实现淘宝页面信息爬取

    慕课[Python网络爬虫与信息提取]课程随手练习~! 和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息. 目标:使用python的requests+ ...

  8. selenium+chormdriver+python 实现淘宝的信息爬取

    因为我是个爬虫新手,所以对爬虫还不熟练,这几天想着自己做一个淘宝信息的自动爬取,一开始感觉比较简单,但做到了登录界面,发现一直被网站检测出来,不能滑动滑块.接下来从网上翻遍了资料,整理了以下自己的代码 ...

  9. 淘宝众筹数据爬取(3)

    前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...

  10. python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息

    python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...

最新文章

  1. Linux运维跳槽必备的40道面试精华题
  2. SAP RETAIL 寄售模式公司间STO收发货过账后的观察
  3. Javascript 上课笔记
  4. Flex页面跳转的五种实现方式
  5. 使用python自己搭建一个简单的BP神经网络
  6. System variables, logging and the Execute SQL Task...(zz)
  7. 一文带你全面认识Excel催化剂系列功能
  8. django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.3 or newer is required; you have 0.7.11
  9. python子进程异常结束_Python子进程
  10. 二分法查找c语言程序_用C++写二分查找了!【手绘漫画】图解LeetCode之搜索插入位置(LeetCode 35)...
  11. 2022-2028年中国纳米钛酸钡行业市场调查研究及投资策略研究报告
  12. 依据CCS分类建树(简单方案)
  13. PD快充协议JD6606S资料
  14. zblog php修改代码,zblog模板建站新上线必须修改的优化代码
  15. html表单中怎么写年份,HTML表单
  16. AWS解决方案架构师薪资平均159,033 美元
  17. DFS练习——王子救公主
  18. Vim配置及使用技巧
  19. 在线去雾开发,使用阿贝云服务器
  20. 预防腰椎间盘突出姿势最重要

热门文章

  1. python使用金山词霸的翻译功能
  2. g5500服务器装系统,联想G50笔记本U盘重装win10系统教程
  3. 基于WDF框架的PCIE驱动设计
  4. Python 玩转数据 19 - 数据操作 正则表达式 Regular Expressions 搜索模式匹配
  5. Delphi 安卓11 中文语音合成(中文朗读)注意内容
  6. PS 解决不能完成命令,暂存盘空间不足的问题
  7. linux系统中权限有几种,Linux系统中三种基本权限
  8. 第一篇 -- 《每天读一点经济学常识 》 --于台风
  9. layuiadmin开发文档
  10. Git amend:修改最近一次提交