画师通网站团片爬取——二次元的福利
先声明一下画师通的的网址,这里面存在大量的二次元的图片。总有一款适合你,但小孩子才做选择题,我们全要!!!
进入画师通
爬取效果
爬取代码
import requestsfrom lxml import etreeclass Dmimg:def __init__(self):self.headers = {"User - Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Cookie": "UM_distinctid = 1712e065ee94a5 - 0fe79487749dc4 - f313f6d - 144000 - 1712e065eea910;hstud = u2ltte469895f389;auth_tk = MGRiNjZhODQxODE3NGM4ZTllMmFmYzQyODhjZGNhZTZvbzd2bl8yODcwNQ ==;Hm_lvt_a3e2ff554f3229fd90bcfe77f75b9806 = 1585615106, 1585615135;Hm_lpvt_a3e2ff554f3229fd90bcfe77f75b9806 = 1585651165", "If - Modified - Since": "Sun, 29 Mar 2020 05:38: 04GMT","If - None - Match": "AIF7wq3NzjqeN4RpTnJILDgjP8SQ",}self.conut=0def get_url_list(self):url_list =[]url_list.append("https://www.huashi6.com/share")for i in range(1000, 10000):url_list.append("https://www.huashi6.com/draw/{}".format(i))return url_listdef get_img_url(self,url_list):print(url_list)content = requests.get(url_list,headers =self.headers)img_url = etree.HTML(content.content)url = img_url.xpath('//*[@id="imgTooles"]/div/img/@src')try:for url_img in url :img = requests.get(url_img,headers =self.headers)name = "jpg"if "png" in url_img:name = "png"with open('img/'+str(self.conut)+'.'+name,"wb") as f:print("写入成功")print(img.content)f.write(img.content)self.conut = self.conut + 1except:print("写入失败")def run(self):pass# 1.获取爬取网站的列表url_list = self.get_url_list()# 2.访问网站内容并提取图片链接for url in url_list:img_url = self.get_img_url(url)if __name__ == "__main__":Dm = Dmimg()Dm.run()
画师通网站团片爬取——二次元的福利相关推荐
- 爬虫爬取二次元网站美女图片
爬虫爬取二次元网站美女图片 前言 xpath解析 需求分析 代码编写 总代码 前言 本次需要爬取二次元网站cos板块下的图片 需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...
- python爬虫可以爬取哪些有用的东西_有哪些网站用爬虫爬取能得到很有价值的数据?...
有哪些网站用爬虫爬取能得到很有价值的数据? 题主是个web程序员,最近想转去做数据分析,先练习的爬虫(python),各种爬取技巧以及多网站爬取等已经掌握,但发现转方向最无奈的是方向(要抓什么数据来干 ...
- 网络推广计划浅析如何增加网站蜘蛛的爬取频次?
搜索引擎优化的主要目的就是为了能够更好地推广自己的网站,让网络推广计划网站能获得更多用户的喜爱,给网站带来更多的用户转化,所以做好提升网站蜘蛛爬取频次很重要,那么在优化过程中都有什么技巧来提升蜘蛛的爬 ...
- 基于某网站的信息爬取与保存
需求:对某网站实现动态爬取并能每天保存到文本文件中 解决方法:通过Python的BeautifulSoup.selenium完成该需求. 完整代码: import json import urllib ...
- python爬虫,g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
- python多页网站目录_python 爬取页面所有的url
原博文 2020-08-07 21:01 − 1.使用request爬取有效的URL # -*- coding: GBK -*- from urllib import request import r ...
- 长沙网络推广浅析如何增加网站的蜘蛛爬取频次?
网站的收录越高,网站排名高的机会也就越大,对于收录的问题,对于蜘蛛爬取网站也是有很大的关系的,通常情况下,蜘蛛爬取的越多,也就代表该网站很受用户喜爱,网站的被抓取率也会高点,那么对于有些网站优化来说, ...
- 基于某网站的信息爬取与保存_指定查询内容
需求:对某网站实现输入指定的查询内容后动态爬取并能保存到文本文件中 解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json ...
- 基于某网站的信息爬取与保存_指定跳转页
需求:对某网站实现输入指定的跳转页完成爬取并能保存到文本文件中 解决方法:通过Python的BeautifulSoup.selenium的Kyes完成该需求. 代码见下: import json im ...
最新文章
- 共谋大数据产业发展新篇章
- C语言之typedef详解
- c语言 异或_C语言经典例题来袭!5大方法告诉你答案
- docker整合hue
- html轮播视频插件上加文字,可加入视频、图片的轮播swiper插件(可以拖动、视频存在加载条)...
- Redis Mac下安装与使用
- win10饥荒服务器未响应,win10系统玩饥荒联机很卡如何解决[多图]
- Kickstart无人职守安装RHEL6.4
- Linux 命令(83)—— groups 命令
- web前端-HTML 媒体插件 022
- 记录阿里技术面试全流程
- ffmpeg合并多个MP4视频
- 2020数学建模国赛A题解题思路
- Scala数据类型中的Symbol(符号文本)
- a360desktop有用吗_A360 Desktop 停用 - 2018 年 6 月 19 日
- 手把手教你做蓝牙聊天应用(三)-获取要连接的设备
- 异地远程连接在家里的群晖NAS【无公网IP,免费内网穿透】
- java jdk17 Tomcat
- H-WORM家族远控木马分析与处置
- [论文阅读笔记]Aladdin: Optimized Maximum Flow Management for Shared Production Clusters