java抓取并保存图片_【初学】java爬虫并抓取图片保存
这是我参考了网上一些资料写的第一个java爬虫程序
本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站
/*
* 网络爬虫取数据
*
* */
public class JianDan {
public static String GetUrl(String inUrl){
StringBuilder sb = new StringBuilder();
try {
URL url =new URL(inUrl);
BufferedReader reader =new BufferedReader(new InputStreamReader(url.openStream()));
String temp="";
while((temp=reader.readLine())!=null){
//System.out.println(temp);
sb.append(temp);
}
} catch (MalformedURLException e) {
// TODO 自动生成的 catch 块
e.printStackTrace();
} catch (IOException e) {
// TODO 自动生成的 catch 块
e.printStackTrace();
}
return sb.toString();
}
public static ListgetMatcher(String str,String url){
Listresult = new ArrayList();
Pattern p =Pattern.compile(url);//获取网页地址
Matcher m =p.matcher(str);
while(m.find()){
String bingoStr = m.group(1);
bingoStr = regexUrl(m.group(1),"(//)*([\\w\\s./:?&-@#$%^]+?)");
if(null != bingoStr && !"".equals(bingoStr)) {
result.add(bingoStr);
}
}
return result;
}
public static String regexUrl(String url,String regex) {
Pattern p =Pattern.compile(regex);//获取网页地址
Matcher m =p.matcher(url);
if(m.matches()) {
String rightStr = m.group(2);
if(!"//".equals(m.group(1)) && (rightStr.contains("jpg") || rightStr.contains("jpeg") || rightStr.contains("png"))) {
return rightStr;
}
}
return null;
}
public static void main(String args[]){
String str=GetUrl("http://www.163.com");
System.out.println(str);
Listouput =getMatcher(str,"src=\"([^
java抓取并保存图片_【初学】java爬虫并抓取图片保存相关推荐
- java抓取并保存图片_利用JAVA抓取网站的所有图片并保存于本地
由于今天我要保存一个网页上的所有图片并做一个ppt,但是这个网页比较蛋疼,是微信上的一个类似于动画的东西,所以没法保存整个网页然后直接取照片, 所以我采用java写了一个程序,采用类似于网络爬虫的思路 ...
- java抓取网页数据_实现网络图片爬虫,只需5秒快速把整个网页上的图片全下载打包zip...
我们经常需要用到互联网上的一些共享资源,图片就是资源的一种,怎么把网页上的图片批量下载下来?有时候我们需要把网页上的图片下载下来,但网页上图片那么多,怎么下载我们想要的东西呢,如果这个网页都是我们想要 ...
- java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码
[实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...
- java抓取页面数据_通过java抓取任何指定网页的数据
假设你需要获取51job人才网上java人才的需求数量,首先你需要分析51job网站的搜索这一块是怎么运作的,通过解析网页的源代码,我们发现了以下一些信息: 1. 搜索时页面请求的URL是 http: ...
- java爬取网页数据_如何使用爬虫工具采集数据
网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...
- java jsp取静态常量_获取java静态
Android NDK开发系列教程4:对类变量进行操作 终于建了一个自己个人小站:https://huangtianyu.gitee.io,以后优先更新小站博客,欢迎进站,O(∩_∩)O~~ 通常我们 ...
- r语言抓取网页数据_使用R进行网页抓取的简介
r语言抓取网页数据 by Hiren Patel 希伦·帕特尔(Hiren Patel) 使用R进行网页抓取的简介 (An introduction to web scraping using R) ...
- java做比较有趣的_初学java可以用来做什么有趣的事
思显露学的java可能后成立些什么乐趣的步伐呢,大神们研习的时刻都写过什么步伐呢? 初学英语,可能写什么乐趣的作品呢? 大学那会学Java,写过黑乎乎的闲话步伐,也写过花哨的博客网站,总之众折腾,找找 ...
- java入门应该学什么_初学Java应该掌握哪些基础知识?
Java出现以前,Internet上的信息内容都是一些乏味死板的HTML文档.这对于那些迷恋于WEB浏览的人们来说简直不可容忍.Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中 ...
最新文章
- 关于Cloud各种组件的停更/升级/替换
- python模块安装(xgboost)
- 【线段树】扇形面积并(P3997)
- latex摘要目录页眉缺少一个空格
- oracle ldap 配置,Ubuntu安装OpenLDAP之配置LDAP
- iPhone 13系列将首发A15芯片:采用增强版5nm工艺 性能提升20%
- Java super与this
- Microsoft SQL Server 2000 索引碎片整理最佳实践(上)
- (11)数据结构-栈应用-简易计算器
- PHP 数组常用操作函数随记
- 通过 Table 的default-sort属性设置默认的排序列和排序顺序
- pmp考试中应该注意的点是什么?
- 8.《创业邦》:十大创业困境
- Day 9 淘宝静态页面练习 reset.css样式重置 头部信息结构及样式 自定义图标的样式
- Bluetooth HCI介绍
- 程序员编程入门必知!程序员需要学什么
- 浅谈Observer观察者模式
- MINIO(一)简介
- Exploratory Social Network Analysis with Pajek(第三版)2-1
- 【将百分制转换成五分制】