对于像我这样懒惰的人,治疗的最好方法就是强迫自己做一些事情!有人说过:坚持做一件事情超过21天,就能成为习惯。那么就用写博客这种方式来改变自己的懒惰吧!
今年的10月份气温好像不同于往年,冷的特别早。坐在温暖的工作间,突然有一股强烈的睡意,但是对面的领导就像每天定时叫我起床的闹钟一样使我肆无忌惮的心理有所收敛。那就翻看手机吧,一个博主的爬虫博客吸引了我,抱着死马当活马医的心态(此时的我由于一些文章的影响变得异常急躁,对于自己技术水平的缓慢提升感到失望)读了下去。我并没有想过一口气读完这个系列的博客,但是结果出人意料:在不到三个小时的时间内我居然读完了。首先我非常感谢博主以通俗易懂的方式讲解了爬虫方面的基础知识,使我多年来模糊的知识明朗化;再次我要感谢博主让我明白了作为技术人,整理对于自身技术能理的提升具有重要的意义。那么今天我就整理以下java爬虫中常用的技术。

1)、jsoup

jsoup是一款java的html解析器,可直接解析某个url地址、html文本内容。它提供了一套非常省力的api,可通过dom,css以及类似于jQuery的操作方法来取出和操作数据。
1. 从一个URL,文件或字符串中解析HTML;
2. 使用dom或css选择器来查找、取出数据;
3. 可操作html元素、属性、文本

以上是百科关于jsoup的总结。这彻底颠覆了我之前对jsoup的认识。之前我一直以为jsoup与httpclient有得一比,因为其可以解析一个url。如今看来jsoup的功能可能要比httpclient的功能广,因为其不仅仅可以请求某个url,还可以对请求结果进行解析。关于jsoup的使用,可以参见 jsoup开发指南 。
其他可参考的网站有:
1、jsoup快速入门(https://www.yiibai.com/jsoup/jsoup-quick-start.html)
2、jsoup教程(https://www.sojson.com/tag_jsoup.html)

2)、httpclient

HttpClient是Apache Jakarta Common下的子项目,可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。
HTTP协议可能是现在Internet上使用得最多、最重要的协议了,越来越多的Java应用程序需要直接通过HTTP协议来访问网络资源。虽然在JDK的java net包中已经提供了访问HTTP协议的基本功能,但是对于大部分应用程序来说,JDK库本身提供的功能还不够丰富和灵活。HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了 HttpClient。现在HttpClient最新版本为HttpClient 4.5 .6(2015-09-11)。
以上关于httpclient的描述均摘自百科
了解了这个工具的作用,对于开发,还需要研读其帮助文档,具体可参见其官方网站。这里给出一个地址,但不保证可用,具体以最新的搜索结果为准:http://hc.apache.org/

3)、htmlunit

htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一。
其采用的是Rhinojs引擎。模拟js运行。通常情况下,该项目用以对页面(包括js)进行测试,实现网页自动化测试。在小型爬虫项目中,这种框架的应用十分常见,可以有效的分析出 dom的标签,并且有效的运行页面上的js以便得到一些需要执行js才能得到的值。
对于这些东西的总结,技术大牛会很不屑一顾,但是个人认为这种总结在个人技术能力的成长中很有必要。还劳烦诸位大神手下留情,口下留情!

java爬虫——工具相关推荐

  1. Java 爬虫工具Jsoup解析

    Jsoup是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和 ...

  2. 自用Java爬虫工具JAVA-CURL已开源

    项目地址: https://github.com/rockswang/... 中央仓库: https://mvnrepository.com/art... 简介 CUrl类是以命令行工具CUrl为参考 ...

  3. java爬虫工具xpath提取,2020-07-16--爬虫数据提取--xpath

    xpath 全称 XML Path Language 是一门在XML文档中 查找信息的语言 最初是用来搜寻XML文档的 但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了非常 ...

  4. java爬虫工具xpath提取_爬虫 xpath (数据提取)

    xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 在 XPath 中,有七种类型的节点:元素.属性 ...

  5. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  6. Java爬虫入门篇---Jsoup工具

    Java爬虫入门篇---Jsoup工具 前言 准备工作 获取文本数据 获取页面中所有的图片 前言 pythoy的scrapy框架是大名鼎鼎,Jsoup则为Java框架的爬虫 准备工作 1.下载jsou ...

  7. 使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

    写在前面 最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...

  8. 为了不复制粘贴,我被逼着学会了JAVA爬虫

    写在前边 受疫情影响一直在家远程办公,公司业务进展的缓慢,老实讲活并没有那么多,每天吃饭.睡觉.逛技术社区.写博客,摸鱼摸得爽的很.早上本来还想在来个回笼觉,突然部门经理的语音消息就过来了. 甩给我一 ...

  9. java 爬虫 异步_Java 爬虫遇上数据异步加载,试试这两种办法!

    这是 Java 爬虫系列博文的第三篇,在上一篇 Java 爬虫遇到需要登录的网站,该怎么办? 中,我们简单的讲解了爬虫时遇到登录问题的解决办法,在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题 ...

最新文章

  1. AKAP95 regulates splicing through scaffolding RNAs and RNA processing factoAKAP95通过支架RNA和RNA加工因子调控剪接
  2. sqlite3之基本操作(二)
  3. matlab 工具 安装包下载地址,安装 | MATLAB2018a (64位) 安装教程及安装包下载链接...
  4. 易中天与单田芳的区别在哪儿
  5. undefined reference to '__gxx_personality_v0'
  6. Jpgraph php怎么变异,php使用Jpgraph绘制3D饼状图的方法
  7. WPF开源项目:AIStudio.Wpf.AClient
  8. MVC3 学习总结一(未发布)
  9. mysql blob图片_显示存储在mysql blob中的图像
  10. squid日志中关键字的含义
  11. 上海自考计算机及应用,上海交通大学--计算机及应用(独立本科080901)
  12. 海贼王游戏--EM游戏03--初出茅庐
  13. 厚物科技PXIe机箱PXI机箱PXIe便携机HW-1693BAT
  14. HTML Javascript CGI
  15. fastbin attack
  16. 京东登录页面html代码_如何制作一个简单的HTML登录页面(附代码)
  17. JQuery制作3D导航栏切换动画
  18. 来玩二分查找[NO.1]
  19. 时差 频差 双星定位 matlab,双星时差频差无源定位系统定位算法工程指标分析
  20. 电信运营商工程项目管理

热门文章

  1. Echarts主题更换
  2. qt获取”本地连接“的IP
  3. 2012年报刊杂志订阅目录【全面 1900条记录】
  4. Pycharm python解释器的选择与使用
  5. win 8 store app 中国国内航班 隐私声明
  6. 关于RM1135/RTS5735主控固态SSD开卡量产工具的使用简介
  7. pandas文件读取与存储
  8. OpenWrt编译扩展机制feeds
  9. 听写单词好助手:从有道py一个单词下载器(绿色免安装)
  10. JFinal Interceptor