画师通网站团片爬取——二次元的福利

先声明一下画师通的的网址，这里面存在大量的二次元的图片。总有一款适合你，但小孩子才做选择题，我们全要!!!

进入画师通

爬取效果

爬取代码

import requestsfrom lxml import etreeclass Dmimg:def __init__(self):self.headers = {"User - Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Cookie": "UM_distinctid = 1712e065ee94a5 - 0fe79487749dc4 - f313f6d - 144000 - 1712e065eea910;hstud = u2ltte469895f389;auth_tk = MGRiNjZhODQxODE3NGM4ZTllMmFmYzQyODhjZGNhZTZvbzd2bl8yODcwNQ ==;Hm_lvt_a3e2ff554f3229fd90bcfe77f75b9806 = 1585615106, 1585615135;Hm_lpvt_a3e2ff554f3229fd90bcfe77f75b9806 = 1585651165", "If - Modified - Since": "Sun, 29 Mar 2020 05:38: 04GMT","If - None - Match": "AIF7wq3NzjqeN4RpTnJILDgjP8SQ",}self.conut=0def get_url_list(self):url_list =[]url_list.append("https://www.huashi6.com/share")for i in range(1000, 10000):url_list.append("https://www.huashi6.com/draw/{}".format(i))return url_listdef get_img_url(self,url_list):print(url_list)content = requests.get(url_list,headers =self.headers)img_url = etree.HTML(content.content)url = img_url.xpath('//*[@id="imgTooles"]/div/img/@src')try:for url_img in url :img = requests.get(url_img,headers =self.headers)name = "jpg"if "png" in url_img:name = "png"with open('img/'+str(self.conut)+'.'+name,"wb") as f:print("写入成功")print(img.content)f.write(img.content)self.conut = self.conut + 1except:print("写入失败")def run(self):pass# 1.获取爬取网站的列表url_list = self.get_url_list()# 2.访问网站内容并提取图片链接for url in url_list:img_url = self.get_img_url(url)if __name__ == "__main__":Dm = Dmimg()Dm.run()

画师通网站团片爬取——二次元的福利相关推荐

爬虫爬取二次元网站美女图片
爬虫爬取二次元网站美女图片前言 xpath解析需求分析代码编写总代码前言本次需要爬取二次元网站cos板块下的图片需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...
python爬虫可以爬取哪些有用的东西_有哪些网站用爬虫爬取能得到很有价值的数据？...
有哪些网站用爬虫爬取能得到很有价值的数据? 题主是个web程序员,最近想转去做数据分析,先练习的爬虫(python),各种爬取技巧以及多网站爬取等已经掌握,但发现转方向最无奈的是方向(要抓什么数据来干 ...
网络推广计划浅析如何增加网站蜘蛛的爬取频次？
搜索引擎优化的主要目的就是为了能够更好地推广自己的网站,让网络推广计划网站能获得更多用户的喜爱,给网站带来更多的用户转化,所以做好提升网站蜘蛛爬取频次很重要,那么在优化过程中都有什么技巧来提升蜘蛛的爬 ...
基于某网站的信息爬取与保存
需求:对某网站实现动态爬取并能每天保存到文本文件中解决方法:通过Python的BeautifulSoup.selenium完成该需求. 完整代码: import json import urllib ...
python爬虫，g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
python多页网站目录_python 爬取页面所有的url
原博文 2020-08-07 21:01 − 1.使用request爬取有效的URL # -*- coding: GBK -*- from urllib import request import r ...
长沙网络推广浅析如何增加网站的蜘蛛爬取频次？
网站的收录越高,网站排名高的机会也就越大,对于收录的问题,对于蜘蛛爬取网站也是有很大的关系的,通常情况下,蜘蛛爬取的越多,也就代表该网站很受用户喜爱,网站的被抓取率也会高点,那么对于有些网站优化来说, ...
基于某网站的信息爬取与保存_指定查询内容
需求:对某网站实现输入指定的查询内容后动态爬取并能保存到文本文件中解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json ...
基于某网站的信息爬取与保存_指定跳转页
需求:对某网站实现输入指定的跳转页完成爬取并能保存到文本文件中解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json im ...

画师通网站团片爬取——二次元的福利

进入画师通

爬取效果

爬取代码

画师通网站团片爬取——二次元的福利相关推荐

最新文章

热门文章