1 分析

首先对网页url进行分析。我们将第二页、第三页最后s=44改为s=0时,我们刚好获取的为第一页数据,所以我们总结出商品的页数为链接最后的s=44*ii为页数为[0,1,2,3…]

#第一页链接
#https://s.taobao.com/search?q=%E8%B6%85%E7%9F%AD%E8%A3%99&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180202&ie=utf8
#第二页链接
#https://s.taobao.com/search?q=%E8%B6%85%E7%9F%AD%E8%A3%99&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180202&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44
#第三页链接
#https://s.taobao.com/search?q=%E8%B6%85%E7%9F%AD%E8%A3%99&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180202&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=88

其次对图片地址进行分析,使用chrome检查,我们得到元素位置如下,将其copy出来,加上http:浏览器打开即是我们想要的图片数据,但是图片并不是大图,我们注意到_360x360Q90.jpg_.webp,可能为将图片压缩,我们将其删除,同时加上http:,打开发现是大图。

#图片地址
#//g-search1.alicdn.com/img/bao/uploaded/i4/i1/2110184062/TB2ETSrXvnW1eJjSZFqXXa8sVXa_!!2110184062.jpg_360x360Q90.jpg_.webp
#//g-search3.alicdn.com/img/bao/uploaded/i4/i3/88504238/TB22FQtaPgy_uJjSZKPXXaGlFXa_!!88504238.jpg_360x360Q90.jpg_.webp

即我们想要的图片地址为:

#http://g-search1.alicdn.com/img/bao/uploaded/i4/i1/2110184062/TB2ETSrXvnW1eJjSZFqXXa8sVXa_!!2110184062.jpg

那么我们的解题思路已经出现:
获取每页的链接—对每页的源码正则提取图片地址—将图片地址加上http:—最后下载这个链接保存为jpg格式。

2 代码

在获取某一个产品的图时,会出现报错<urlopen error [Errno 61] Connection refused> python,没找到原因,但不影响程序的整体效果,可能是此产品的问题,使用try,except,使程序继续运行即可。其中代理服务器为可选。

#!/user/bin/env python
#-*- coding:utf-8 -*-
#auth:M10
import re
import urllib.request
import urllib.error
import time
keyword = "超短裙"
real_word = urllib.request.quote(keyword)#将关键词转换为link所识别的
def get_pics():for i in range(0,10):url = 'http://s.taobao.com/search?q='+real_word+'&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180202&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s='+str(i*44)#根据每一页的规律header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','referer':'https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=%E8%B6%85%E7%9F%AD%E8%A3%99&suggest=history_1&_input_charset=utf-8&wq=chaoduanq&suggest_query=chaoduanq&source=suggest'}time.sleep(2)#proxy = urllib.request.ProxyHandler({'http':'60.23.46.24:80'})#opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)#urllib.request.install_opener(opener)request = urllib.request.Request(url,headers=header)try:data = urllib.request.urlopen(request, timeout=5).read().decode('utf-8', 'ignore')except urllib.error.URLError as e:print(e.reason)print(e.code)pat = '"pic_url":"(.*?).jpg"'#使用正则表达式获取图片地址re_link = re.compile(pat).findall(data)#print(re_link)for j in range(0,len(re_link)):time.sleep(2)link = 'http:'+re_link[j]+'.jpg'path = '/Users/wangxingfan/Desktop/data1/'+str(i)+str(j)+'.jpg'try:urllib.request.urlretrieve(link,path)#出错,不知道什么原因except:pass
get_pics()

3 运行结果

4 另一个例子

爬千图网,步骤基本一样。

#!/user/bin/env python
#-*- coding:utf-8 -*-
#auth:M10
import re
import urllib.request
import urllib.error
import timedef get_pics():for i in range(1,7):url = 'http://www.58pic.com/tupian/meixi-0-0-0'+str(i)+'.html'header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36','Referer':'http://www.58pic.com/tupian/meixi-0-0-1.html'}request = urllib.request.Request(url,headers=header)try:data = urllib.request.urlopen(request,timeout=5).read().decode('utf-8','ignore')except urllib.error.URLError as e:print(e.reason)print(e.code)pat = '"(http://pic.qiantucdn.com/58pic.*?)!/fw'links = re.compile(pat).findall(data)time.sleep(2)for j in range(len(links)):path = '/Users/wangxingfan/Desktop/data2/'+str(i)+str(j)+'.jpg'try:urllib.request.urlretrieve(links[j],path)except:passget_pics()

python urllib库获取淘宝主图相关推荐

  1. python+PIL批量制作淘宝主图(头图)及满屏水印添加

    导读 项目中需要用到图片批量化处理,所以玩了下PIL做了个简单的小项目,解放双手批量制作淘宝主图的功能 任务目标 根据传入的图片数量,自动放大缩小寻找计算可对齐的中心点进行裁切 按照传入图片数量,定制 ...

  2. python批量获取淘宝主图地址

    帮老婆整理一个任务表格,里面有几百条淘宝商品的链接,还需要从商品页面截图放上去,一个一个截图太麻烦了,于是用正则表达式把地址提取出来,再用vba把图片地址转换为图片. # -*- coding: UT ...

  3. 手把手教你使用Python轻松打造淘宝主图视频生成神器

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 人世几回伤往事,山形依旧枕寒流. ...

  4. 靠这个Python脚本轻松月入上万?你信不?打造淘宝主图视频生成!

    前言 做过网店的朋友多多少少都会用到主图视频,因为它可以提高网店商品的曝光率,以此提高店铺商品的成交率,今天,小编就来带大家做一个这样的神器,据说在网上同类软件是收费软件,我们做好后就可以免费的使用啦 ...

  5. 靠这个Python脚本轻松月入上万?你信不?打造淘宝主图视频

    前言 做过网店的朋友多多少少都会用到主图视频,因为它可以提高网店商品的曝光率,以此提高店铺商品的成交率,今天,小编就来带大家做一个这样的神器,据说在网上同类软件是收费软件,我们做好后就可以免费的使用啦 ...

  6. 淘宝主图优化技巧 测试淘宝女鞋主图点击率方法

    其实我们在网上购物的时候,第一印象不是说你这个商品有多好,而是说这图片有多美,毕竟视觉上给我们的触动还是挺大的,所以不同的店家都会在图片上下文章,那么对于女鞋店来说,我们要如何优化这个主图呢?估计各位 ...

  7. python爬虫(14)获取淘宝MM个人信息及照片(中)

    python爬虫(14)获取淘宝MM个人信息及照片(中) python爬虫(14)获取淘宝MM个人信息及照片(上) python爬虫(14)获取淘宝MM个人信息及照片(下)(windows版本) 在上 ...

  8. python爬虫(14)获取淘宝MM个人信息及照片(上)

    python爬虫(14)获取淘宝MM个人信息及照片(上) python爬虫(14)获取淘宝MM个人信息及照片(中) python爬虫(14)获取淘宝MM个人信息及照片(下)(windows版本) 网上 ...

  9. 如何制作淘宝主图视频

    至今为止,使用到淘宝主图视频的店铺还是并不多见,但是相信很多淘宝卖家对于"淘宝主图视频"多少有 一些了解.段长度为9秒钟的淘宝主图视频,这个视频将在买家打开宝贝详情页的时候进行播放 ...

最新文章

  1. er图用什么软件_从软件开发生命周期看商业智能 BI 数据仓库建模
  2. shell 函数的高级用法
  3. 无服务器,Java和FN项目的第一步
  4. layui 父页面弹框中获取子页面的内容
  5. linux(ubuntu)下分区和格式化sd卡
  6. 医疗人工智能市场有多大?
  7. Spring 三层架构
  8. html捉虫游戏,街机游戏
  9. “鬼才”论文致谢刷屏!感谢我导“似导非导”的指导...
  10. Dijkstra算法(朴素,堆优化)+例题
  11. react-native-router-flux 页面跳转与传值
  12. unity UI 之text and image
  13. Atitit。sql2016标准化的规划方案 v3 q2a
  14. APISpace 全国行政区查询API 方便好用
  15. python numpy 中linspace函数
  16. IP网络摄像头实现远程监控、直播的思路
  17. mysql 主键和候选键_2.2.2 候选键与主键
  18. 推荐一些经典的学习书籍
  19. java中的steam流
  20. 基于树莓派4b的传感器数据可视化实现

热门文章

  1. 倾角传感器精度校准检测
  2. linux之用户密码忘记后如何修改密码
  3. Android Settings和SettingsProvider源码分析与修改,android开发计算器界面
  4. 虚拟主机 独立云服务器,虚拟主机 独立云服务器
  5. 微信小程序制作心得和体会
  6. 苹果ios超级签名源码包java版带分发页面支持安卓合并
  7. 关于UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE
  8. 【汇编语言】3.汇编语言程序
  9. Intellij搭建spark开发环境
  10. Stata:如何处理固定效应模型中的单期数据-xtfesing