爬虫笔记——urllib实战之淘宝零食板块爬取

如题，此次为urllib爬取淘宝网零食板块的代码，并将其写入txt文件中：

一、进入淘宝网-查看源代码

二、通过源码得出正则表达式

title_pat = '"raw_title":"(.*?)",'
price_pat = '"view_price":"(.*?)",'
loc_pat = '"item_loc":"(.*?)",'
sale_pat = '"view_sales":"(.*?)人付款",'
comment_pat = '"comment_count":"(.*?)",'

三、书写代码进行爬取

import re
import urllib.request
import urllib.error
import pandas as pd
from pandas import DataFrame,read_csv
#设置正则表达式
title_pat = '"raw_title":"(.*?)",'
price_pat = '"view_price":"(.*?)",'
loc_pat = '"item_loc":"(.*?)",'
sale_pat = '"view_sales":"(.*?)人付款",'
comment_pat = '"comment_count":"(.*?)",'
#设置要进行爬取的网址
fh=open('./taobao.txt','w')
#设置搜索关键词
key = '零食'
key = urllib.request.quote(key)
for i in range(1,101):
try:
print('正在爬取第'+str(i)+"页")
url="http://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180514&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i-1)*44
#设置报头，封装请求并爬取
headers=("user-agent",'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36')
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
req=urllib.request.Request(url)
data=urllib.request.urlopen(req).read().decode('utf-8','ignore')
#提取title、price、location、sale、comment
title=re.compile(title_pat).findall(data)
price=re.compile(price_pat).findall(data)
loc=re.compile(loc_pat).findall(data)
sale=re.compile(sale_pat).findall(data)
comment=re.compile(comment_pat).findall(data)
#写入文件
mydata=list(zip(title,price,loc,sale,comment))
mydataf=pd.DataFrame(data=mydata)
fh.write(str(mydataf))
except urllib.error.URLError as e: #抓取异常并输出
print('第'+str(i)+'页爬取失败')
if hasattr(e,'reason'):
print(e.reason)
if hasattr(e,'code'):
print(e.code)
print('第'+str(i)+'页爬取成功')
fh.close()

四、总结

此次urllib实战让我对python的爬虫有了更加深刻的了解。写代码的过程中多次受阻，在此记下：

1、写代码需要有一个清晰的逻辑，清楚自己每一步的目的

2、设置正则表达式、url时何时应该增加引号，何时不能添加，写for循环等功能后需要添加“：”，需要注意缩进，这些都需要经过实践才能清楚自己的不足

3、写入文件时多次出现错误，主要还是对python的各种功能还不够了解，因此，还需要多加练习

不管如何，所有困难一一克服，尽管还有许多细节没有优化好，但这终究是一件令人感到愉悦的事啊~~

——戊戌年丁巳月丁未日记

爬虫笔记——urllib实战之淘宝零食板块爬取相关推荐

python爬虫—关于淘宝商品的爬取
之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...
淘宝众筹数据爬取（1）
众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注.然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦.前文中我们已经了解了静态网页 ...
[笔记]python爬虫：淘宝商品价格信息爬取示例
爬取的网站信息网站地址淘宝官网:https://www.taobao.com/ 爬取内容碧根果价格信息网页对应的部分源代码从网页源代码中可以看到,需要爬取的商品以 "raw_tit ...
Python爬虫实例之淘宝商品比价定向爬取！爬虫还是很有意思的！
这次就模仿之前做的总结进行初次尝试目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格理解:获取淘宝的搜索接口淘宝页面的翻页处理技术路线:requests--re 准备工作获取淘宝搜索商品的 ...
python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
自学爬虫项目(二)一一利用selenium模拟淘宝登录，爬取商品数据
文章目录前言一.明确目标二.分析过程三.代码封装总结前言你是否还在为学习Python没有方向而苦恼?快来跟着壹乐一起学习吧!让我们共同进步! 今天我们用selenium与Beautifu ...
使用python requests+re库+curl.trillworks.com神器实现淘宝页面信息爬取
慕课[Python网络爬虫与信息提取]课程随手练习~! 和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息. 目标:使用python的requests+ ...
selenium+chormdriver+python 实现淘宝的信息爬取
因为我是个爬虫新手,所以对爬虫还不熟练,这几天想着自己做一个淘宝信息的自动爬取,一开始感觉比较简单,但做到了登录界面,发现一直被网站检测出来,不能滑动滑块.接下来从网上翻遍了资料,整理了以下自己的代码 ...
淘宝众筹数据爬取（3）
前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...
python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...

爬虫笔记——urllib实战之淘宝零食板块爬取

爬虫笔记——urllib实战之淘宝零食板块爬取相关推荐

最新文章

热门文章