前言

爬爬爬!

一、依赖

        <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.4.5<</version></dependency><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.14.2</version></dependency>

ImagesUtil

/*** @author lanys* @Description:* @date 31/8/2021 上午9:12*/public class ImagesUtil {/*** 获取CPU个数*/private static int corePoolSize = Runtime.getRuntime().availableProcessors();/*** 创建线程池  调整队列数 拒绝服务*/private static ThreadPoolExecutor executor = new ThreadPoolExecutor(corePoolSize, corePoolSize + 1, 10L, TimeUnit.SECONDS,new LinkedBlockingQueue<>(1000));/*** 最大页数*/private static Integer max;/*** 首页地址*/public static final String startAddress = "http://www.netbian.com/1920x1080/";/*** 图片详情壁纸*/public static final String detailsAddress = "http://www.netbian.com";public static void main(String[] args) throws IOException {Connection connect = Jsoup.connect(startAddress);Document document = connect.get();//获取class pagefinal Elements prev = document.getElementsByClass("page");for (Element ps : prev) {//<a>标签final Elements byTag = ps.getElementsByTag("a");//最大页数max = Integer.parseInt(byTag.get(7).text());}for (int i = 1; i < max; i++) {if (i == 1) {//初始页地址publicPool(startAddress);i++;}publicPool(startAddress+"index_"+i+".htm");}}private static void publicPool(String path) throws IOException {//初始页地址Connection connect1 = Jsoup.connect(path);//获取Document document1 = connect1.get();//获取图片标签Elements elements = document1.body().getElementsByClass("list").select("li");for (Element img : elements) {//加入线程池Runnable task = () -> {try {//详情下载publicDownload(img);} catch (IOException e) {e.printStackTrace();}};executor.execute(task);}}private static void publicDownload(Element img) throws IOException {try {/*** 获取套图地址*/String href = img.child(0).attr("href");Connection subConnect = Jsoup.connect(detailsAddress + href).header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0").timeout(8000);Document subDocument = subConnect.get();final String location = subDocument.location();final Connection connect1 = Jsoup.connect(location);Document subDocument1 = connect1.get();final Elements pic = subDocument1.getElementsByClass("pic");for (Element element : pic) {final Elements img1 = element.getElementsByTag("img");for (Element element1 : img1) {System.out.println("开始下载.....");String src = element1.attr("src");System.out.println("src:" + src);//糊涂工具下载HttpUtil.downloadFile(src, FileUtil.mkdir("e:/妹子/"));System.out.println("结束下载.....");}}} catch (IOException e) {e.printStackTrace();}}
}


爬完后好像被禁爬了:

总结

每个网站html代码不一样,如果是其他网站需要自己手动改,自己爬完后,可能是网站不允许,致503报错,我第二天在试试!

java100行代码爬取妹zi图片相关推荐

  1. Python用10行代码爬取大批美女图片

    说到美女,第一个想到的就是美女云集的相亲网站了.所以今天也是选取某个相亲网站作为素材,爬取美女图片. 1.准备工作 首先需要一个相亲网站的账号,我这里选取的是"我主良缘".注册登陆 ...

  2. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  3. 简单20行代码爬取王者荣耀官网1080p壁纸

    简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...

  4. python爬取妹纸图片

    初学python,刚好看到爬取妹纸图片的教学视频,于是跟着学习学习python网络爬虫,使用python爬取图片. 进入主页,可以看到妹子自拍,一共446页之多 0.0 ,如下图所示: 查看网页url ...

  5. pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

  6. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

  7. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  8. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

  9. python59行代码爬取免费ppt模板

    Python59行代码爬取某站中秋节ppt模板 网址:https://www.1ppt.com/moban/zhongqiujie/ 用到的库:requests.re.os.lxml 请求方式:GET ...

最新文章

  1. 【杂谈】从医学专业转行到AI,独立完成项目到获得加州理工大学读研推荐,我如何与有三AI结缘...
  2. {在头值中找到无效的字符。} 发email的时候 遇到这个问题 老师解决
  3. 从服务器上传和下载文件方法
  4. C++内存和进程,线程学习补充(内存泄漏,信号量)
  5. 【风马一族_C】进制转化
  6. Quartz.net 的 FAQ
  7. 计算机学报模板百度云,《计算机学报》论文模版.
  8. c语言第一章复习思维导图
  9. 探索YoloV3源码
  10. 2017已经接近尾声,然而我却什么都没干成
  11. c语言kbhit函数头文件,有没有办法在标准C中替换kbhit()和getch()函数?
  12. html+css:自定义鼠标指针图案
  13. php 模板 下载xml,模板用xml的思路_PHP
  14. 【R语言】白葡萄酒的EDA分析
  15. 打开Flutter动画的另一种姿势——Flare,android面试题选择题
  16. PhyGeoNet一种可用于不规则区域的物理信息极限学习机
  17. java习题7参考练习及答案_Java基础练习题及详细答案
  18. 我的Python学习之路(5)
  19. sql查询结果加一行合计
  20. Word:公式编辑器,像Latex一样输入

热门文章

  1. 拼多多砍价算法 php
  2. java ilvmanagerview_Android 腾讯互动直播集成
  3. 【前端基础知识】web前端设计基础(前端三剑客之一 —— HTML5,包含课后习题)
  4. 最高年化收益36.5%!TOP Staking已开启“躺赚”模式
  5. Java学习笔记之——Java介绍
  6. 统计低2位均为偶数的数
  7. 【免费素材】国内外常用blender模型素材下载网站
  8. 【转载】计算反射向量
  9. python编写一个判断完数的函数过程_第4章-30 找完数 (20分)python
  10. 中国大陆第二代智能身份证 VS 香港智能身份证