一、说明,官方CodePlex地址:http://htmlagilitypack.codeplex.com/

Html Agility Pack 不算一个很复杂的类库,但它的功能确不弱,为解析DOM已经提供了足够强大的功能支持,可以跟jQuery操作DOM媲美:)
Html Agility Pack最常用的基础类其实不多,对解析DOM来说,就只有HtmlDocument和HtmlNode这两个常用的类,还有一个 HtmlNodeCollection集合类。其中HtmlWeb类帮助获取Web页面很方面。

二、添加引用很简单

Install-Package HtmlAgilityPack

HtmlDocument类

当然在解析DOM前需要加载html原始文件或者html的字符串,HtmlDocument类封装了支持此功能的方法,下面是加载html的方法介绍。

HtmlDocument类定义了多个重载的Load方法来实现以不同方式加载html,其实主要分为两种,一种是从Stream中加载html,另外一种是从物理路径加载html,分别见下面:

方法:public void Load(TextReader reader)
说明:从指定的 TextReader对象中加载Html
示例

HtmlDcument doc =new HtmlDocument();
StreamReader sr = File.OpenText("file path");
doc.Load(sr);

基于上面方法,衍生出了几个不同重载方法。

以指定的Stream对象为主的有:

(1)public void Load(Stream stream)    ///从指定的Stream对象中加载html;

(2)public void Load(Stream stream, bool detectEncodingFromByteOrderMarks)    ///指定是否从顺序字节流中解析编码格式

(3)public void Load(Stream stream, Encoding encoding)    ///指定编码格式

(4)public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks)

(5)public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize)

以指定的物理路径为主的有:

(1)public void Load(string path)

(2)public void Load(string path, bool detectEncodingFromByteOrderMarks)    ///指定是否从顺序字节流中解析编码格式

(3)public void Load(string path, Encoding encoding)    ///指定编码格式

(4)public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks)

(5)public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize)

HtmlDocument类中还定义了直接从html字符串中加载Html,如下:

方法:public void LoadHtml(string html)
说明:从指定的html字符串中加载html
示例

HtmlDocument doc =new HtmlDocument();
string html ="<div id="demo"><span style="color:red;"><h1>Hello World!</h1></span></div>";
doc.LoadHtml(html);

HtmlDocument类还有其他写DOM方法的定义,这里不作详细介绍,留作以后专门介绍Html Agility Pack写DOM章节介绍吧,这里着重介绍Html Agility pack解析DOM的细节。

HtmlNode类和HtmlNodeCollection类

通过HtmlDocument把html加载进来后,接着是要做什么呢?当然是对html解析了,解析DOM就需要提到HtmlNode类 了。 HtmlDocument类由属性DocumentNode属性返回当前Html解析后的一个全局的HtmlNode对象;如果想获取某一个元素的 HtmlNode,可以通过HtmlDocument类的GetElementbyId(string Id)方法来获取,返回指定某一个html元素的HtmlNode对象。如何通过HtmlNode对象来访问DOM呢?介绍之前先对它的功能了解下。

HtmlNode类实现了IXPathNavigable接口,这说明了它可以通过xpath来查询DOM了,如果对System.Xml 命名空间下的 XmlDocument类了解的,特别是使用过了SelectNodes()和SelectSingleNode()方法的朋友对使用HtmlNode类 将会很熟悉。其实Html Agility Pack内部是把html解析成xml文档格式了的,所以支持xml中的一些常用查询方式。下面对HtmlNode的一些主要的常用成员作简要的说明。

 HtmlNode类的主要属性

1)Attributes属性

获取当前Html元素的属性的集合,返回的是一个HtmlAttributeCollection对象。如一个div元素,它可能会定义一些属性, 如:<div id="title" name="title" class="class-name" title="title div">***</div>,那Attributes返回的HtmlAttributeCollection就包含了 “id,name,class,title”的信息。HtmlAttributeCollection类是实现了接口 IList<HtmlAttribute>的一个集合类,故此可以通过下面代码方式访问每一个成员。

HtmlNode node = doc.GetElementbyId("title");
string titleValue = node.Attributes["title"].Value;

或者

foreach(HtmlAttribute attr in node.Attributes)
{
Console.WriteLine("{0}={1}",attr.Name,attr.Value);
}

在获取属性值时,如果某一个属性名称不存在的话,Attributes["name"]返回的是null值。

2)FirstChild,LastChild,ChildNodes,ParentNode属性

FirstChild属性:返回所有子节点的第一个节点,如下面代码:

string html ="<div id="demo"><span style="color:red;"><h1>Hello World!</h1></span><div id="innerDiv">inner div</div></div>";

FirstChild则返回的是“<span style="color:red;"><h1>Hello World!</h1></span>” 的节点。

LastChild属性:返回所有子节点的最后一个节点,以上面的html为例,则返回“<div id="innerDiv">inner div</div>”节点。

ChildNodes属性:返回当前节点所有直接一代的子节点的集合,不包括跨代子节点,以上面的html为例,则返回“<span style="color:red;"><h1>Hello World!</h1></span>” 和“<div id="innerDiv">inner div</div>”两个节点。

ParentNode属性:返回当前节点的直接父节点。

3)获取Html源码和文本

HtmlNode类设计了OuterHtml属性和InnerHtml属性用于获取当前节点的Html源码。两者不同之处 是,OuterHtml属性返回的是包含当前节点的Html代码在内的所有Html代码,而InnerHtml属性返回的是当前节点里面子节点的所有 Html代码。如下面:

HtmlDocument doc =new HtmlDocument();

string html ="<div id="demo"><span style="color:red;"><h1>Hello World!</h1></span></div>";

doc.LoadHtml(html);

HtmlNode node = doc.HtmlDocument;

Console.WriteLine(node.OuterHtml); /// return "<div id="demo"><span style="color:red;"><h1>Hello World!</h1></span></div>";
Console.WriteLine(node.InnerHtml); /// return "<span style="color:red;"><h1>Hello World!</h1></span>";

如要获取节点的文本值,通过InnerText属性来获取,InnerText属性过滤掉了所有的Html标记代码,只返回文本值,如下面:

Console.WriteLine(node.InnerText);/// return "Hello World!";

HtmlNode类的主要方法

HtmlNode类提供了足够丰富的方法供查询当前节点下的子节点(元素),当然也包括查询当前节点的父节点(元素)的方法,下面列出主要的方法和使用说明。

获取父节点的系列方法:

1)public IEnumerable<HtmlNode> Ancestors()

获取当前节点的父节点列表(不包含自身)。

2)public IEnumerable<HtmlNode> Ancestors(string name)

以指定一个名称来获取父节点的列表(不包含自身)。

3)public IEnumerable<HtmlNode> AncestorsAndSelf()

获取当前节点的父节点列表(包含自身)。

4)public IEnumerable<HtmlNode> AncestorsAndSelf(string name)

以指定一个名称来获取父节点的列表(包含自身)。

获取子节点的系列方法:

1)public IEnumerable<HtmlNode> DescendantNodes()

获取当前节点下的所有子节点的列表,包括子节点的子节点(不包含自身)。

2)public IEnumerable<HtmlNode> DescendantNodesAndSelf()

获取当前节点下的所有子节点的列表,包括子节点的子节点(包含自身)。

3)public IEnumerable<HtmlNode> Descendants()

获取当前节点下的直接子节点的列表(不包含自身)。

4)public IEnumerable<HtmlNode> DescendantsAndSelf()

获取当前节点下的直接子节点的列表(包含自身)。

5)public IEnumerable<HtmlNode> Descendants(string name)

获取当前节点下的以指定名称的子节点列表。

6)public IEnumerable<HtmlNode> DescendantsAndSelf(string name)

获取当前节点下的以指定名称的子节点的列表(包含自身)。

7)public HtmlNode Element(string name)

获取第一个符合指定名称的直接子节点的节点元素。

8)public IEnumerable<HtmlNode> Elements(string name)

获取符合指定名称的所有直接子节点的节点列表。

9)public HtmlNodeCollection SelectNodes(string xpath)

获取符合指定的xpath的子节点列表。

10)public HtmlNode SelectSingleNode(string xpath)

获取符合指定的xpath的单个字节点元素。

查询节点的方法主要是上面10个方法,该类还有其他写节点的系列方法,这里不详细介绍写操作的方法,留作以后详细介绍。

结合Xpath进行查询节点是功能比较强大,这像操作xml那样方便。

C# HTML解析工具HtmlAgilityPack使用简介相关推荐

  1. html解析器c#,C# HTML解析工具HtmlAgilityPack使用实例(一)

    一.生成HTML字符串 //生成DOM字符串结构 HtmlNode container = HtmlNode.CreateNode(" "); title.InnerHtml = ...

  2. Python静态类型解析工具简介和实践

    简介: Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型,但类型不匹配的操作是不被允许的.动态类型帮助开发者写代码轻松愉快,然而,俗话说:动态一时爽,重构火葬场.动态类型也带来了许 ...

  3. Python 静态类型解析工具简介和实践

    一 背景 Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型(动态),但类型不匹配的操作是不被允许的(强类型,如str和int两个变量无法相加). 动态类型帮助开发者写代码轻松愉快, ...

  4. [开源]C#二维码生成解析工具,可添加自定义Logo

    原文:[开源]C#二维码生成解析工具,可添加自定义Logo 二维码又称 QR Code,QR 全称 Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的 Bar Co ...

  5. 【Android 逆向】逆向修改游戏应用 ( APK 解析工具 | 解包 -> 分析 -> 重打包 -> 签名 流程 )

    文章目录 一.APK 解析工具 二.解包 -> 分析 -> 重打包 -> 签名 流程 一.APK 解析工具 使用 [Android 逆向]使用 Python 编写 APK 批处理分析 ...

  6. sketch 将动图转换为json_开源 | Picasso:sketch设计稿智能解析工具

    开源二期项目专题系列(一) 1. 开源项目名称:Picasso 2. github地址: https://github.com/wuba/Picasso 3. 简介:Picasso是58同城推出的一款 ...

  7. HTML解析利器HtmlAgilityPack

    在以前的项目中周公曾有解析HTML的情况,当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是 ...

  8. 一文吃透Json解析工具类合集(FastJson、Jackson、Gson)

    Json解析工具类 前言 一.各个JSON技术的简介 1.1 FastJson角色 1.2 Jackson角色 1.3 Gson角色 二.使用步骤 2.1 引入库 1.FastJson依赖 2.Jac ...

  9. JSON解析工具比较,主要GSON和FastJSON

    转自:http://www.cnblogs.com/kunpengit/p/4001680.html 一 .各个JSON技术的简介和优劣 1.json-lib json-lib最开始的也是应用最广泛的 ...

最新文章

  1. 多店铺多用户商城可以用来干嘛?适合什么样的商业模式?
  2. python测试开发django-1.开始hello world!
  3. 校园计算机协会简介,大学计算机协会校园活动策划书
  4. 微信小程序服务器开小差了,微信小程序wx.request请求封装
  5. 【算法系列之四】柱状图储水
  6. java本地方法不能是final_Java final关键字
  7. 2017.3.25 矩阵快速幂 求斐波那契数列第n项
  8. mysql置信度支持度,支持度 置信度 提升度
  9. 不学无数——JAVA中NIO再深入
  10. 高级政工师具备的能力_广东省固体废弃物利用处置能力评价资质申报指南
  11. 电大与152双向数据同步的方案
  12. indesign用于产品排班_InDesign排版:设计师的基本印刷知识
  13. SDN控制器Ryu、Floodlight、OpenDayLight的安装以及Mininet连接
  14. grpc客户端调用接口报:too many colons in address 域名配置问题
  15. 拓嘉辰丰电商:如何投诉拼多多商家一直不发货
  16. target=“_blank“有啥安全性问题?如何防范?
  17. 阿里云大佬叮嘱我务必要科普这个 Elasticsearch API
  18. c语言如何初始化程序,浅谈C语言的初始化
  19. C语言指针(一)——什么是指针及指针的定义
  20. 可以度量金融泡沫的对数周期幂律

热门文章

  1. Ubuntu系统apt-get, pip国内源设置
  2. 2021年3月全国MySQL二级考试笔记
  3. p-value矫正方法
  4. idea彻底卸载安装及配置笔记
  5. 使用 Docker 制作一个盒装部落格
  6. 百度东施效颦 技术和理念相去甚远
  7. 裂缝综合测试分析软件,裂缝宽度深度综合检测仪ZBL-F800
  8. C语言的基础知识:是与非
  9. 微型计算机gl703评测,华硕GL703笔记本电脑评测
  10. idea运行程序报错 程序包不存在,找不到符号解决方法