这是我参考了网上一些资料写的第一个java爬虫程序

本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站

/*

* 网络爬虫取数据

*

* */

public class JianDan {

public static String GetUrl(String inUrl){

StringBuilder sb = new StringBuilder();

try {

URL url =new URL(inUrl);

BufferedReader reader =new BufferedReader(new InputStreamReader(url.openStream()));

String temp="";

while((temp=reader.readLine())!=null){

//System.out.println(temp);

sb.append(temp);

}

} catch (MalformedURLException e) {

// TODO 自动生成的 catch 块

e.printStackTrace();

} catch (IOException e) {

// TODO 自动生成的 catch 块

e.printStackTrace();

}

return sb.toString();

}

public static ListgetMatcher(String str,String url){

Listresult = new ArrayList();

Pattern p =Pattern.compile(url);//获取网页地址

Matcher m =p.matcher(str);

while(m.find()){

String bingoStr = m.group(1);

bingoStr = regexUrl(m.group(1),"(//)*([\\w\\s./:?&-@#$%^]+?)");

if(null != bingoStr && !"".equals(bingoStr)) {

result.add(bingoStr);

}

}

return result;

}

public static String regexUrl(String url,String regex) {

Pattern p =Pattern.compile(regex);//获取网页地址

Matcher m =p.matcher(url);

if(m.matches()) {

String rightStr = m.group(2);

if(!"//".equals(m.group(1)) && (rightStr.contains("jpg") || rightStr.contains("jpeg") || rightStr.contains("png"))) {

return rightStr;

}

}

return null;

}

public static void main(String args[]){

String str=GetUrl("http://www.163.com");

System.out.println(str);

Listouput =getMatcher(str,"src=\"([^

java抓取并保存图片_【初学】java爬虫并抓取图片保存相关推荐

  1. java抓取并保存图片_利用JAVA抓取网站的所有图片并保存于本地

    由于今天我要保存一个网页上的所有图片并做一个ppt,但是这个网页比较蛋疼,是微信上的一个类似于动画的东西,所以没法保存整个网页然后直接取照片, 所以我采用java写了一个程序,采用类似于网络爬虫的思路 ...

  2. java抓取网页数据_实现网络图片爬虫,只需5秒快速把整个网页上的图片全下载打包zip...

    我们经常需要用到互联网上的一些共享资源,图片就是资源的一种,怎么把网页上的图片批量下载下来?有时候我们需要把网页上的图片下载下来,但网页上图片那么多,怎么下载我们想要的东西呢,如果这个网页都是我们想要 ...

  3. java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码

    [实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...

  4. java抓取页面数据_通过java抓取任何指定网页的数据

    假设你需要获取51job人才网上java人才的需求数量,首先你需要分析51job网站的搜索这一块是怎么运作的,通过解析网页的源代码,我们发现了以下一些信息: 1. 搜索时页面请求的URL是 http: ...

  5. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  6. java jsp取静态常量_获取java静态

    Android NDK开发系列教程4:对类变量进行操作 终于建了一个自己个人小站:https://huangtianyu.gitee.io,以后优先更新小站博客,欢迎进站,O(∩_∩)O~~ 通常我们 ...

  7. r语言抓取网页数据_使用R进行网页抓取的简介

    r语言抓取网页数据 by Hiren Patel 希伦·帕特尔(Hiren Patel) 使用R进行网页抓取的简介 (An introduction to web scraping using R) ...

  8. java做比较有趣的_初学java可以用来做什么有趣的事

    思显露学的java可能后成立些什么乐趣的步伐呢,大神们研习的时刻都写过什么步伐呢? 初学英语,可能写什么乐趣的作品呢? 大学那会学Java,写过黑乎乎的闲话步伐,也写过花哨的博客网站,总之众折腾,找找 ...

  9. java入门应该学什么_初学Java应该掌握哪些基础知识?

    Java出现以前,Internet上的信息内容都是一些乏味死板的HTML文档.这对于那些迷恋于WEB浏览的人们来说简直不可容忍.Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中 ...

最新文章

  1. 关于Cloud各种组件的停更/升级/替换
  2. python模块安装(xgboost)
  3. 【线段树】扇形面积并(P3997)
  4. latex摘要目录页眉缺少一个空格
  5. oracle ldap 配置,Ubuntu安装OpenLDAP之配置LDAP
  6. iPhone 13系列将首发A15芯片:采用增强版5nm工艺 性能提升20%
  7. Java super与this
  8. Microsoft SQL Server 2000 索引碎片整理最佳实践(上)
  9. (11)数据结构-栈应用-简易计算器
  10. PHP 数组常用操作函数随记
  11. 通过 Table 的default-sort属性设置默认的排序列和排序顺序
  12. pmp考试中应该注意的点是什么?
  13. 8.《创业邦》:十大创业困境
  14. Day 9 淘宝静态页面练习 reset.css样式重置 头部信息结构及样式 自定义图标的样式
  15. Bluetooth HCI介绍
  16. 程序员编程入门必知!程序员需要学什么
  17. 浅谈Observer观察者模式
  18. MINIO(一)简介
  19. Exploratory Social Network Analysis with Pajek(第三版)2-1
  20. 【将百分制转换成五分制】

热门文章

  1. Content-Type简析
  2. 生产件批准流程(PPAP)--PPAP流程
  3. Unity项目添加广告,内购测试并上线APP Store
  4. 高斯滤波(Gaussian blur)
  5. JavaFX: 布局
  6. ES6——Promise 、ayanc 和 await 相关知识点
  7. 初一上册数学用计算机进行运算,人教版初一数学上册计算题及练习题
  8. 算法竞赛入门经典(第二版)第二章教材代码
  9. 云宕机事件盘点:IBM云服务全球宕机四小时,安全稳定成空话?
  10. Node.js和Javascript的异同