HtmlUnit简介

HtmlUnit是一个可以模拟浏览器请求的java工具包,官网链接
,基本实现浏览器基础功能,包括:

  • 加载js,css
  • 执行ajax
  • 处理表单
  • 保存cookies等
    本篇文章简单介绍HtmlUnit的一些概念和基本使用,以一个模拟登陆的实例说明,代码实例在文章最后。

为什么要使用HtmlUnit

  • 不用再自己处理js和css了
  • 不用再自己处理cookies了
  • AND XXX

HtmlUnit基础类

  • HtmlPage:页面类,即每次请求返回的html页面,会自动加载静态资源。
  • HtmlForm:表单类,处理用户名和密码的基础表单。

模拟登陆

1. 创建WebClient并设置配置项

WebClient webClient = new WebClient(BrowserVersion.CHROME)
  • 这里模拟了一个chrome浏览器,并会设置对js和css的处理方式,详细的代码见示例。

2. 从网站的初始域名开始请求

//开始请求网站
HtmlPage page = webClient.getPage("https://gitee.com");
  • 这里以Gitee为例,通常访问网站的根域名时,会跳转到网站的首页或登录页,根据网站的不同后面流程会有差别。
  • Gitee会跳转到一个首页,上面有登录按钮,所以下一步是点击登录按钮

3.点击按钮

 //点击首页上的登陆按钮,跳转到登陆页面
HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();
  • 这段代码获取了首页上的登录按钮Dom元素,并点击,之后会跳转到登录页面。
3.1不了解CSS选择器,如何获取按钮的Dom?
  • 最简单的是使用XPath,可以直接打开chrome的开发者工具,找到要选择的元素,右键复制XPath,粘贴到代码里,搞定!

  • 这里注意HtmlUnit的getByXPath方法,返回的是List。一般网站通过XPath获取的元素只有一个,这里直接取List中第一元素就可以。

  • 获取到的元素要强转为DomElement对象,才能使用click()方法模拟点击。

  • 执行点击后,就获取了登陆页对象。

4.填充用户名和密码,并登陆

/** 获取登陆表单,表单如果是依赖js或css生成的,要等待加载完成,现有框架里等待方法不完善* 这里可以采用循环等待的方案,等到全部资源加载完,获取到了要取的表单元素再继续执行*/
while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {Thread.sleep(500);
}
//获取登陆表单元素
HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);
//用户名input
HtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);
//密码input
HtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);
//设置input的value
username.setValueAttribute("*****");
password.setValueAttribute("*****");
//登陆
HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();
  • 这里有一个静态资源加载的问题,有些要获取的Dom元素,是通过js和css执行渲染出来的。

    • 这里如果直接获取登陆表单,会出现因为js加载不全,导致获取不到的问题。
    • 当前HtmlUnit自带的等待资源加载方法不完善。这里可以简单的使用一个循环,等到获取到了要取的表单元素再继续执行。
  • 获取到表单后,就可以获取Input填充用户名和密码,并模拟点击登录。
  • 之后就会跳转到用户首页。

5.webClient中的cookies

  • 通过上面的步骤,登录成功后,获取的cookies会保存在webClient中,之后再使用这个webClient访问网站的其他页面时,会直接带上,非常方便。

完整代码示例

public void loginGitee() {try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {/******配置webClient******///ajaxwebClient.setAjaxController(new NicelyResynchronizingAjaxController());//支持jswebClient.getOptions().setJavaScriptEnabled(true);//忽略js错误webClient.getOptions().setThrowExceptionOnScriptError(false);//忽略css错误webClient.setCssErrorHandler(new SilentCssErrorHandler());//不执行CSS渲染webClient.getOptions().setCssEnabled(false);//超时时间webClient.getOptions().setTimeout(3000);//允许重定向webClient.getOptions().setRedirectEnabled(true);//允许cookiewebClient.getCookieManager().setCookiesEnabled(true);//开始请求网站HtmlPage page = webClient.getPage("https://gitee.com");//点击首页上的登陆按钮,跳转到登陆页面HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();/** 获取登陆表单,表单如果是依赖js或css生成的,要等待加载完成,现有框架里等待方法不完善* 这里可以采用循环等待的方案,等到全部资源加载完,获取到了要取的表单元素再继续执行*/while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {Thread.sleep(500);}//获取登陆表单元素HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);//用户名inputHtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);//密码inputHtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);//设置input的valueusername.setValueAttribute("*****");password.setValueAttribute("*****");//登陆HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();//搜索项目HtmlPage searchPage = webClient.getPage("https://gitee.com/search?utf8=%E2%9C%93&type=&fork_filter=on&q=java");//打印列表HtmlElement a = (HtmlElement) searchPage.getByXPath("/html/body/div[3]/div[1]/div/div[2]").get(0);System.out.println(searchPage.getBaseURL());System.out.println(a.getTextContent());} catch (Exception e) {e.printStackTrace();}}

本篇文章仅供学习交流使用
以上内容属个人学习总结,如有不当之处,欢迎在评论中指正

Java模拟浏览器工具HtmlUnit-登陆实践相关推荐

  1. java 模拟登陆 post_Java开发网 - 高手帮忙啊 (如何用java模拟post方式进行登陆论坛?)...

    于 2003-05-03 02:51 请教高手 我如何用java模拟post方式进行登陆论坛? 我先 URLConnection uc=htpurl.openConnection(); uc.setD ...

  2. java 模拟浏览器 htmlunit_htmlunit 模拟指定浏览器

    前面我们的测试代码是直接请求的,有些网站服务器防火墙会直接拒绝访问. 我们现在用htmlunit来模拟下浏览器请求:主要是加了一些头消息: 这个是我们用火狐调试工具看到的请求头小心里的属性,当然上面还 ...

  3. java模拟浏览器htmlunit,Java版本的浏览器HtmlUnit入门示例

    HtmlUnit是Java版本的浏览器,没有界面但是可以模拟任何浏览器操作. 下面示例访问htmlunit的官网,并打印网页的标题 import com.gargoylesoftware.htmlun ...

  4. java模拟浏览器不关闭会话_JSP实现浏览器关闭cookies情况下的会话管理

    通常,会话管理是通过服务器将 Session ID 作为一个 cookie 存储在用户的 Web 浏览器中来唯一标识每个用户会话.如果浏览器不支持 cookies,或者将浏览器设置为不接受 cooki ...

  5. java cookiesmanager,java 模拟浏览器的cookie管理机制

    cookie的格式 cookie是一段文本,里面只能包含ascii字符,不能含有逗号和号,也就是说只能包含那128个字符的一些字符,不可能包含例如:'中国' 这种汉字 cookie在http请求和响应 ...

  6. java模拟浏览器http请求_java使用HttpClient模拟浏览器请求

    代码如下,模仿10000次请求,为什么只成功了3次,求指教 按题主的代码,在第三次请求中,创建 HttpClientConnection 对象时就已经阻塞了,只成功3次实属正常(第三次是浏览器的请求) ...

  7. java模拟浏览器请求HttpUtils,可秒杀京东优惠券

    2019独角兽企业重金招聘Python工程师标准>>> package com.boot.utils;import java.io.BufferedReader; import ja ...

  8. java url获取 html body,java模拟浏览器请求抓取页面,无法抓取body里的内容

    试了一下结果是一样的,而且看了一下请求,并不是js动态生成的,就是一个请求返回的 Request URL: https://ceac.state.gov/GenNIV/default.aspx Req ...

  9. Java模拟浏览器程序

    遵循HTTP协议,向服务器发送请求,得到服务器的响应. 因为这只是一个请求,所以只是获得页面的主要代码(一个页面大都需要多个请求完成). 这个程序只能访问支持http协议的服务器.不能访问支持HTTP ...

最新文章

  1. 性能比GPU高100倍!华人教授研发全球首个可编程忆阻器AI计算机
  2. 百度吴恩达:图像和音视频搜索是人工智能新方向
  3. 梦幻手游登录显示服务器爆满,《梦幻西游》手游全服爆满,iOS二区开启_ 《梦幻西游》手游官网-人人都玩,无处不在...
  4. 网易云解码实时音视频社交 成就游戏产业发展新变量
  5. php xmlreader 读xml,PHP中使用xmlreader读取xml数据示例
  6. NET问答: 对 Linq 中的 Union 和 Concat 的用法困惑
  7. Balanced Lineup POJ - 3264(线段树模板+查询比大小+建树)
  8. scrapy 模拟登陆
  9. 拍照实力再升级!三星Galaxy S11系列将有望搭载潜望镜头
  10. shuffle的过程分析
  11. 常用的HTTP头部字段的基本含义(转)
  12. Hbase入门官网教程
  13. Windows10 adb安装与环境变量配置
  14. android 拍照和选择相册图片剪切
  15. 微信小程序组件之picker-view
  16. Activity的概述
  17. iptables 禁止访问全部URL,开放部分URL
  18. JS如何区分对象和数组
  19. Introduce MBT tool robogenerator
  20. Java x的平方根

热门文章

  1. neovim安装配置
  2. 如何才能写出让领导都喜欢的项目会议纪要?
  3. 2.4G无线遥控开关插座方案开发
  4. 导入/导入 MySQL数据库
  5. LaTeX 三级标题去冒号并且换行
  6. ceph文件系统的健康消息
  7. java: 错误:无效的源发行版
  8. (四)Linux环境搭建dubbo
  9. 数据库-超码、候选码、主码
  10. python经典的猜数字游戏