爬虫笔记——urllib实战之淘宝零食板块爬取
如题,此次为urllib爬取淘宝网零食板块的代码,并将其写入txt文件中:
一、进入淘宝网-查看源代码
二、通过源码得出正则表达式
- title_pat = '"raw_title":"(.*?)",'
- price_pat = '"view_price":"(.*?)",'
- loc_pat = '"item_loc":"(.*?)",'
- sale_pat = '"view_sales":"(.*?)人付款",'
- comment_pat = '"comment_count":"(.*?)",'
三、书写代码进行爬取
- import re
- import urllib.request
- import urllib.error
- import pandas as pd
- from pandas import DataFrame,read_csv
- #设置正则表达式
- title_pat = '"raw_title":"(.*?)",'
- price_pat = '"view_price":"(.*?)",'
- loc_pat = '"item_loc":"(.*?)",'
- sale_pat = '"view_sales":"(.*?)人付款",'
- comment_pat = '"comment_count":"(.*?)",'
- #设置要进行爬取的网址
- fh=open('./taobao.txt','w')
- #设置搜索关键词
- key = '零食'
- key = urllib.request.quote(key)
- for i in range(1,101):
- try:
- print('正在爬取第'+str(i)+"页")
- url="http://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180514&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i-1)*44
- #设置报头,封装请求并爬取
- headers=("user-agent",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36')
- opener=urllib.request.build_opener()
- opener.addheaders=[headers]
- urllib.request.install_opener(opener)
- req=urllib.request.Request(url)
- data=urllib.request.urlopen(req).read().decode('utf-8','ignore')
- #提取title、price、location、sale、comment
- title=re.compile(title_pat).findall(data)
- price=re.compile(price_pat).findall(data)
- loc=re.compile(loc_pat).findall(data)
- sale=re.compile(sale_pat).findall(data)
- comment=re.compile(comment_pat).findall(data)
- #写入文件
- mydata=list(zip(title,price,loc,sale,comment))
- mydataf=pd.DataFrame(data=mydata)
- fh.write(str(mydataf))
- except urllib.error.URLError as e: #抓取异常并输出
- print('第'+str(i)+'页爬取失败')
- if hasattr(e,'reason'):
- print(e.reason)
- if hasattr(e,'code'):
- print(e.code)
- print('第'+str(i)+'页爬取成功')
- fh.close()
四、总结
此次urllib实战让我对python的爬虫有了更加深刻的了解。写代码的过程中多次受阻,在此记下:
1、写代码需要有一个清晰的逻辑,清楚自己每一步的目的
2、设置正则表达式、url时何时应该增加引号,何时不能添加,写for循环等功能后需要添加“:”,需要注意缩进,这些都需要经过实践才能清楚自己的不足
3、写入文件时多次出现错误,主要还是对python的各种功能还不够了解,因此,还需要多加练习
不管如何,所有困难一一克服,尽管还有许多细节没有优化好,但这终究是一件令人感到愉悦的事啊~~
——戊戌年丁巳月丁未日记
爬虫笔记——urllib实战之淘宝零食板块爬取相关推荐
- python爬虫—关于淘宝商品的爬取
之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...
- 淘宝众筹数据爬取(1)
众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注.然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦.前文中我们已经了解了静态网页 ...
- [笔记]python爬虫:淘宝商品价格信息爬取示例
爬取的网站信息 网站地址 淘宝官网:https://www.taobao.com/ 爬取内容 碧根果价格信息 网页对应的部分源代码 从网页源代码中可以看到,需要爬取的商品以 "raw_tit ...
- Python爬虫实例之淘宝商品比价定向爬取!爬虫还是很有意思的!
这次就模仿之前做的总结进行初次尝试 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 理解:获取淘宝的搜索接口淘宝页面的翻页处理 技术路线:requests--re 准备工作 获取淘宝搜索商品的 ...
- python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
- 自学爬虫项目(二)一一利用selenium模拟淘宝登录,爬取商品数据
文章目录 前言 一.明确目标 二.分析过程 三.代码封装 总结 前言 你是否还在为学习Python没有方向而苦恼?快来跟着壹乐一起学习吧!让我们共同进步! 今天我们用selenium与Beautifu ...
- 使用python requests+re库+curl.trillworks.com神器 实现淘宝页面信息爬取
慕课[Python网络爬虫与信息提取]课程随手练习~! 和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息. 目标:使用python的requests+ ...
- selenium+chormdriver+python 实现淘宝的信息爬取
因为我是个爬虫新手,所以对爬虫还不熟练,这几天想着自己做一个淘宝信息的自动爬取,一开始感觉比较简单,但做到了登录界面,发现一直被网站检测出来,不能滑动滑块.接下来从网上翻遍了资料,整理了以下自己的代码 ...
- 淘宝众筹数据爬取(3)
前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...
- python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...
最新文章
- Linux运维跳槽必备的40道面试精华题
- SAP RETAIL 寄售模式公司间STO收发货过账后的观察
- Javascript 上课笔记
- Flex页面跳转的五种实现方式
- 使用python自己搭建一个简单的BP神经网络
- System variables, logging and the Execute SQL Task...(zz)
- 一文带你全面认识Excel催化剂系列功能
- django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.3 or newer is required; you have 0.7.11
- python子进程异常结束_Python子进程
- 二分法查找c语言程序_用C++写二分查找了!【手绘漫画】图解LeetCode之搜索插入位置(LeetCode 35)...
- 2022-2028年中国纳米钛酸钡行业市场调查研究及投资策略研究报告
- 依据CCS分类建树(简单方案)
- PD快充协议JD6606S资料
- zblog php修改代码,zblog模板建站新上线必须修改的优化代码
- html表单中怎么写年份,HTML表单
- AWS解决方案架构师薪资平均159,033 美元
- DFS练习——王子救公主
- Vim配置及使用技巧
- 在线去雾开发,使用阿贝云服务器
- 预防腰椎间盘突出姿势最重要