.Net解析html文档类库HtmlAgilityPack完整使用说明
在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例] )都有提到一个解析html的C#类库HtmlAgilityPack,
今天终于有时间整理一下,并把Demo分享一下。
HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。截止到本文发表时,HtmlAgilityPack的最新版本为 1.4.6。下载地址:http://htmlagilitypack.codeplex.com/。最新版本支持Linq to Objects ( LINQ to Xml ).
准备:
如果你有安装Nuget的话,可以直接查找安装即可。
下载后解压缩后有3个文件,这里只需要将其中的HtmlAgilityPack.dll(程序集)、HtmlAgilityPack.xml(文档,用于Visual Studio 2008中代码智能提示和帮助说明之用)引入解决方案中即可使用,无需安装任何东西,非常好用。
在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中,几乎都是以HtmlDocument类为主线的,这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档,而HtmlDocument类操作的是html文档(其实也可以操作xml文档),它们的操作方式都是基于Dom,所不同的是后者取消了诸如GetElementsByTagName这样的方法,强化了GetElementById方法(在HtmlDocument中可以直接使用,而XmlDocument则不可以)。
HtmlAgilityPack中定位节点基本上都用Xpath表达式,Xpath表达式的参考文档可见:http://www.w3school.com.cn/xpath/xpath_syntax.asp。自行学习。
不过可以先用几个简单就可以。比如,我们用到最多可能就是针对某个元素(div)、或者某个class属性的div、或者某个id的div,或者以什么开头的div,
类似这样的Xpath还是比较简单的。
Xpath举几个例子,下面的代码中我们就会用到:
"//comment()"在XPath中表示“所有注释节点” 1、获取网页title:doc.DocumentNode.SelectSingleNode("//title").InnerText; 解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。 2、获取所有的超链接:doc.DocumentNode.Descendants("a") 3、获取name为kw的input,也就是相当于getElementsByName(): var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']"); 解释:"//input[@name='kw']"也是XPath的语法,表示:name属性等于kw的input标签。 //li/h3/a[@href]:所有li下面的h3包含a超级链接有href属性才符合。有的a可能是支持的js事件 //div[starts-with(@class,'content_single')]:所有符合条件的div,并且它的class是由字符串content_single 开头的。 |
//标示获取documet下的所有符合条件。/div标示从根目录开始的符合条件的。
以上是准备工作。下面说一下HtmlAgilityPack读取web页面,并解析的方法步骤。
1.读取url:
HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb(); HtmlAgilityPack.HtmlDocument doccc = hw.Load(url);//是你需要解析的url ArrayList ImagePtahs = GetHrefs(doccc); |
这里可能会遇到2个问题。
一个是编码问题,一个是gzip不支持的问题。
首先编码问题解决办法:就是不用HtmlAgilityPack去获取Url的data数据,自己获取了。大家可能就问了:我自己获取了他不给我解析那?
没事,他不会那么笨的。谁的肉不是吃啊?
方法如下:
WebProxy proxyObject = new WebProxy(IP, port);//这里我是用的代理。 //向指定地址发送请求 HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create(url); HttpWReq.Proxy = proxyObject; HttpWReq.Timeout = 10000; HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse(); StreamReader sr = new StreamReader(HttpWResp.GetResponseStream(), System.Text.Encoding.GetEncoding("UTF-8")); //注意上面的编码了吗?? HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); doc.Load(sr); int res = CheckIsGoodProxy(doc); //这是我解析的函数,还没到那一步。不解释了。 sr.Close(); HttpWResp.Close(); HttpWReq.Abort(); |
另一个问题就是很奇怪了。gzip的问题开启了gzip压缩的网页请求时会报错。报错信息为“gzip”不是受支持的编码名。
在谷歌上搜索了半天,终于找到解决方案,而且不必更换HttpRequest或WebClient进行请求。同时还可以用此方法设置cookie,render伪装等等。。。解决后代码如下:在你发起请求的是修改一下。
HtmlWeb webClient = new HtmlWeb(); HtmlAgilityPack.HtmlWeb.PreRequestHandler handler = delegate(HttpWebRequest request) { request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate"; request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip; request.CookieContainer = new System.Net.CookieContainer(); return true; }; webClient.PreRequest += handler; HtmlDocument doc = webClient.Load(this.getUrl()); |
可能最新版本的HtmlAgilityPack会修复这个问题吧。期待中。
2.用Xpath解析。
这一步就比较简单了。就用Xpath选出你想要的数据,遍历他们,取出他们的value即可。
实例代码:
private ArrayList GetHrefs(HtmlAgilityPack.HtmlDocument _doc) { try { Images = new ArrayList(); HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes("//li/h3/a[@href]"); HtmlNodeCollection hrefs2 = _doc.DocumentNode.SelectNodes("//div[starts-with(@class,'content_single')]"); if (hrefs == null) return new ArrayList(); foreach (HtmlNode href in hrefs) { // Images.Add(href.Attributes["src"].Value); string hreff = href.Attributes["href"].Value;// 排除 博海拾贝第二百零二期】吃完薯条寂寞了 string title = href.Attributes["title"].Value; if (title.IndexOf("邪恶") >= 0) { continue; } if (title.IndexOf("恶搞") >= 0) { continue; } if (title.IndexOf("雷人") >= 0) { continue; } ///执行数据保存的逻辑 } } catch (Exception ex) { ShowLogMsg("出错了:"+ex.Message+ex.StackTrace); return new ArrayList(); } } |
每一个Htmlnode,你要获取他的数据用这个方法: img.Attributes["src"].Value
.Net解析html文档类库HtmlAgilityPack完整使用说明相关推荐
- java word库_几种解析Word文档的Java类库比较
推荐指数:⭐ 因为之前做过EXCEL的解析,所以我首选就是POI,然而经过调查之后发现POI解析Word文档就是个坑,非常难用不说,有些功能还不支持.试验一番之后不得不放弃了. 推荐指数:⭐⭐⭐ 发现 ...
- XML 解析XML文档 XML约束
XML 什么是XML Extensible Markup Language(可扩展的标记语言) 他是一个语言,有自己的语法,和Java以及其他的编程无关 "标记" 在文件中包含类似 ...
- 大杂烩 -- 四种生成和解析XML文档的方法详解
基础大杂烩 -- 目录 众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J DOM:在现在的Java JDK里都自带了,在xml-apis.jar包 ...
- python下载图片到文件夹_python实现解析markdown文档中的图片,并且保存到本地~
背景 前阵子简书好像说是凉了,搞得我有点小慌,毕竟我的大部分博客都是放在简书上面的,虽然简书提供了打包导出功能,但是只能导出文字,图片的话还是存在简书服务器上面,再加上我一直想要重新做一个个人博客,于 ...
- php 解析word文件,php解析word文档
(twips) 官方网站: 首先解释一下 PHPWord 最基本的计量单位:"缇"(twips),我们常常 在文件中看到或使用计量单位"缇",它是开源办公软件中 ...
- 四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例)
众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...
- 【学习笔记】关于DOM4J:使用DOM4J解析XML文档
一.概述 DOM4J是一个易用的.开源的库,用于XML.XPath和XSLT中.采用了Java集合框架并完全支持DOM.SAX.和JAXP. DOM4J最大的特色是使用大量的接口,主要接口都在org. ...
- 细节:解析XML文档和XML字符串
总代码如下: var XMLHttp = null; if (window.XMLHttpRequest) { //现代浏览器XMLHttp = new XMLHttpRequest(); } els ...
- Dom4j 解析Xml文档及XPath查询 学习笔记
本文查阅方法: 1.查阅目录 -- 查阅本文目录,确定想要查阅的目录标题 2.快捷"查找" -- 在当前浏览器页面,按键 "Ctrl+F" 按键 ...
最新文章
- 【学习笔记】项目Leader如何成长
- 飞鸽传书发现这个讲稿对现场
- 截取台风后的图片_今年首个台风来袭!“大黄蜂”下,货代如何“防台”?
- mysql连表的sql语句_sql语句之连表操作
- [k8s]debug模式启动集群k8s常见报错集合(on the fly)
- mui框架 页面无法滚动解决方法
- LAPSUS$声称盗取源代码仓库,微软正在调查
- 2018最新Web前端经典面试试题及答案
- redis返回的结果是null_Spring AOP 用注解封装 redis 缓存
- js 里不能使用${pageContext.request.contextPath}解决方案
- 简单有用的jar包下载方法及地址
- 最新无广告扒小马客服系统多种商户接入客服等!目前最好的客服系统 跟洽美站仿站网站源码
- c语言二进制转十进制大小,c语言二进制转换成十进制的方法
- fantastic-matplotlib:案例集合:
- 微信群活码生成系统,群活码、客服活码、一套非常棒的免费开源群活码系统
- 图片预览(原生js实现)
- 业界 | 为什么Jupyter是数据科学家们实战工具的首选?
- ​儿童手表APP开发让用户更好地体验到智能设备的便捷性​
- 闲置资源组建NAS存储服务器
- STC32G 三电感电磁循迹小车
热门文章
- OpenGL渲染纹理和平面反射
- C语言多维数组做函数参数技术推演
- C/C++ 基本类型注意事项
- php 从第几开始截取,php如何实现截取前几个字符
- jsp mysql视频_手把手教你做jsp servlet mysql实现的图书管理系统附带视频开发教程和完整源码...
- 05_pandas读写文件,读写数据到CSV,HDF5,Excel中
- zookeeper基本原理及适用场景 转:http://blog.chinaunix.net/uid-26748613-id-4536290.html
- 04_NoSQL数据库之Redis数据库:set类型和zset类型
- Linux redhat目录下用户管理
- pytorch模型部署