博主初学python,想写个爬虫练练手。在实验楼找了个项目爬淘女郎照片,不过原文代码有些问题我做了些修改

原文链接https://www.shiyanlou.com/courses/595

一、前期工作

环境:ubuntu16.04(win10应该也行,不过程序会有改动),python3,火狐浏览器(或chrome),网络畅通,vim编辑器(其他编辑器也行)

要掌握的基本知识:python3基础(语法,正则表达式,一些爬虫库的使用),http协议基础,看的懂html代码

二、爬虫工具

pip3安装:

sudo apt-get install python3-pip

BeautifulSoup安装:

sudo pip3 install Beautifulsoup4

selenium安装:

sudo pip3 install selenium

安装时可能会出现更新pip提示,不用管

三、实战

用selenium模拟操作火狐浏览器,BeautifulSoup解析网页,正则表达式过滤信息,urlopen读取图片到本地。

from urllib.request import urlopen
import threading
import re
from bs4 import BeautifulSoup
from selenium import webdriver
import os
#主函数
def main():driver = webdriver.Firefox() driver.get("https://mm.taobao.com/search_tstar_model.htm?")bsObj = BeautifulSoup(driver.page_source,"lxml")fp = open('mm.txt','w+')fp.write(driver.find_element_by_id("J_GirlsList").text)MMsinfoUrl = bsObj.findAll("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})imagesUrl = bsObj.findAll("img",{"src":re.compile("gtd.*\.jpg")})fp.close()fp = open('mm.txt','r+')items = fp.readlines()content1 = []n = 0m = 1while(i<5):print("MM's name:"+contents[i][0][0]+"with"+contents[i][0][1])print("saving......"+contents[i][0][0]+"in the folder")perMMpageUrl = "https:"+contents[i][1]path = '/home/lgz/pythontest/mmphoto/'+contents[i][0][0]mkdir(path)getperMMpageImg(perMMpageUrl,path)i += 1fp.flush()fp.close()number = 1for imageUrl in imagesUrl:url = "https:"+str(imageUrl["src"])html = urlopen(url)data = html.read()fileName = '/home/lgz/pythontest/mmphoto/mm'+str(number)+'.jpeg'fph = open(fileName,"wb")print("loading MM......"+fileName)fph.write(data)fph.flush()fph.close()number += 1driver.close()def mkdir(path):isExists = os.path.exists(path)if not isExists:print("to create a new folder named"+path)os.makedirs(path)else:print("create complete!")def getperMMpageImg(MMURL,MMpath):owndriver = webdriver.Firefox()owndriver.get(MMURL)ownObj = BeautifulSoup(owndriver.page_source,"lxml")perMMimgs = ownObj.findAll("img",{"src":re.compile("\/\/img\.alicdn.*\.jpg")})number = 2for perMMimg in perMMimgs:ImgPath = "https:"+str(perMMimg["src"])print(ImgPath)try:html = urlopen(ImgPath)data = html.read()fileName = MMpath+"/"+str(number)+'.jpg'fp = open(fileName,'wb')print("loading her photo as"+fileName)fp.write(data)fp.flush()fp.close()number += 1except Exception:print("Address Error!!!!!!!!!!!!!!!!!!!!")if __name__ == '__main__':main()

博主亲测,爬了前四个人第五个爬不动了不知道为啥,效果如图:

python3 爬取淘女郎照片相关推荐

  1. Python爬虫之爬取淘女郎照片示例详解

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...

  2. Python爬虫入门-利用scrapy爬取淘女郎照片

    最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址,它主要可以通过改变URL中page参数来实现翻页. 我们这个这个链接进入到一个淘女郎的页面,进入相册页面,里面有很多相册,我们打开其中一个,可以 ...

  3. python3爬取淘女郎图片

    selenium+chrome 爬取淘女郎页面 分析https://www.taobao.com/markets/mm/mmku 这个页面,右键查看网页源代码搜索 img 竟然找不到图片标签,可以猜测 ...

  4. 【python--爬虫】爬取淘女郎照片

    通过网络请求分析发现是json传递的信息 接口就是"https://v.taobao.com/micromission/req/selectCreatorV3.do" 这个接口的翻 ...

  5. Python爬虫实战:爬取淘女郎照片

    本篇目标 抓取淘宝MM的姓名,头像,年龄 抓取每一个MM的资料简介以及写真图片 把每一个MM的写真图片按照文件夹保存到本地 熟悉文件保存的过程 PS:如有需要Python学习资料的小伙伴可以加下方的群 ...

  6. python爬虫 爬取淘女郎介绍以及照片

    从https://mm.taobao.com/json/request_top_list.htm?page=1上爬取淘女郎的介绍和个人主页的照片 Spider.py # __author__ = 'y ...

  7. Python2 Python3 爬取赶集网租房信息,带源码分析

    *之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是 ...

  8. python3爬取百度图片

    python3爬取百度图片 最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库 首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面 分析: 1.百度图片搜索结 ...

  9. Python3爬取影片入库

    Python3爬取影片入库 1.服务器说明 [root@openshift maoyan]# cat /etc/redhat-release CentOS Linux release 7.4.1708 ...

最新文章

  1. 江西师范大学c语言程序考研,2018年江西师范大学程序设计(C语言)考研大纲
  2. 软件项目管理的内在定律
  3. java 革命_JAVA数据库连接池的革命 -- 从BoneCP到HikariCP(转)
  4. wget for windows 下载与安装
  5. PHP 开启或关闭错误提示
  6. 国土空间规划师提升指南
  7. linux 内核模块开发,linux内核模块开发(示例代码)
  8. Oracle 11g 间隔分区(INTERVAL)批量规范命名
  9. 显示和隐藏Mac隐藏文件的命令
  10. 2010-4-22 星期四 晴转多云
  11. 怎样用计算机计算矩阵,【活用工具】教你如何用卡西欧fx82es计算机计算复数 矩阵等...
  12. MATLAB实现规范化(normalize)数据的函数实现
  13. 肖邦 《第一钢琴协奏曲》E小调,OP.11 个人赏析
  14. pyhon3爬取百度搜索结果
  15. 外置USB供电与内置锂电池供电自动切换电路,便携电子设备常用,经典电路必须掌握...
  16. 音符起始点检测(音频节奏检测)(6)
  17. 2020年AJ超级配乐库音频配乐资源2020.VOL-09更新100首Audio Jungle音乐素材包
  18. 搭建网站是进行创业的第一步
  19. 淘宝店小蜜配置手册——店小蜜的配置框架
  20. android加载ftp图片,按键安卓版网络访问之 图片处理,FTP,HTTP 实现

热门文章

  1. 一文带你系统梳理Google三驾马车
  2. Flink Cep 扩展 - 动态规则更新及Pattern间within()
  3. 修改织梦cms文章页关键词内链显示样式
  4. 启动vscode不打开上次文件夹
  5. 求助ambari-server报错early EOF问题
  6. Failed to load config plugin:vue/essenti al to extend from.
  7. MTK feature phone 音频功放开启关闭驱动示例
  8. asp.net IE10 下的bug
  9. C语言编程练习 3.写一个函数,如果它首次被调用,则返回字母A,第二次被调用,则返回字母B,第三次调用,则返回字母C,以此类推。(提示:使用一个static数据类型)
  10. 拼多多如何利用店铺上新来打造淘宝爆款吸引自然流量