Python爬虫-爬取贴吧中每个帖子内的楼主图片

# -*- coding:utf-8 -*-import urllib.request
from lxml import etreedef loadPage(url):"""作用：根据url发送请求，获取服务器响应文件url: 需要爬取的url地址"""# headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}request = urllib.request.Request(url)html = urllib.request.urlopen(request).read()# 解析HTML文档为HTML DOM模型content = etree.HTML(html)# print content# 返回所有匹配成功的列表集合link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')# link_list = content.xpath('//a[@class="j_th_tit"]/@href')for link in link_list:fulllink = "http://tieba.baidu.com" + link# 组合为每个帖子的链接# print linkloadImage(fulllink)# 取出每个帖子里的每个图片连接
def loadImage(link):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}request = urllib.request.Request(link, headers=headers)html = urllib.request.urlopen(request).read()# 解析content = etree.HTML(html)# 取出帖子里每层层主发送的图片连接集合# link_list = content.xpath('//img[@class="BDE_Image"]/@src')# link_list = content.xpath('//div[@class="post_bubble_middle"]')link_list = content.xpath('//img[@class="BDE_Image"]/@src')# 取出每个图片的连接for link in link_list:print("link:" + link)writeImage(link)def writeImage(link):"""作用：将html内容写入到本地link：图片连接"""# print "正在保存 " + filenameheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# 文件写入request = urllib.request.Request(link, headers=headers)# 图片原始数据image = urllib.request.urlopen(request).read()# 取出连接后10位做为文件名filename = link[-10:]# 写入到本地磁盘文件内with open("/Users/didi/Downloads/crawlertest/" + filename, "wb") as f:f.write(image)# print("已经成功下载 " + filename)def tiebaSpider(url, beginPage, endPage):"""作用：贴吧爬虫调度器，负责组合处理每个页面的urlurl : 贴吧url的前部分beginPage : 起始页endPage : 结束页"""for page in range(beginPage, endPage + 1):pn = (page - 1) * 50filename = "第" + str(page) + "页.html"print(filename)fullurl = url + "&pn=" + str(pn)print(fullurl)loadPage(fullurl)# print htmlprint("下载完成")if __name__ == "__main__":kw = input("请输入需要爬取的贴吧名:")beginPage = int(input("请输入起始页："))endPage = int(input("请输入结束页："))url = "http://tieba.baidu.com/f?"key = urllib.parse.urlencode({"kw": kw})fullurl = url + keytiebaSpider(fullurl, beginPage, endPage)

Python爬虫-爬取贴吧中每个帖子内的楼主图片相关推荐

python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...
python爬取贴吧所有帖子-Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
Python爬虫爬取虎牙数据！谁才是虎牙第一主播！
首先打开我们所需要爬取的网站,这里我们挑选的是虎牙直播. 我们今天所爬取的数据就是直播名,直播地址,直播的人,观看数以及直播的类别,如下图所示第一步关于直播的类别,从第一张图片我们可以看到在右边有直 ...
python爬虫爬取贝壳网中所有行政区内的二手房将获取信息存于excle中--Excel文件含分析
-- coding: utf-8 -- """ Created on Sat Feb 29 19:13:37 2020 @author: acliu "&quo ...
Python爬虫:爬取知乎上的视频，并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块主要是requests模块,用于得到的网页的数据安装命令为:pip install requests 2 ...
【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中（2）...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

Python爬虫-爬取贴吧中每个帖子内的楼主图片

Python爬虫-爬取贴吧中每个帖子内的楼主图片相关推荐

最新文章

热门文章