HtmlAgilityPack是.NET下的一个HTML解析类库。支持用XPath来解析HTML。命名空间:HtmlAgilityPack

    HtmlWeb webClient = new HtmlWeb();HtmlAgilityPack.HtmlDocument html = webClient.Load("http://news.baidu.com/");//是你需要解析的url这里解析的是百度新闻首页
    var strhtml = html.DocumentNode.InnerText;//获取页面数据

获取下来的页面数据如下图:出现了乱码

解决方法:

    var end = html.Encoding.BodyName;//获取页面编码格式
var end1 = html.StreamEncoding.BodyName;//当前编码格式
webClient.OverrideEncoding = Encoding.GetEncoding(end);//设置webClient编码格式为页面编码格式,默认是utf-8
html = webClient.Load("http://news.baidu.com/");
var end2 = html.StreamEncoding.BodyName;//当前编码格式

页面已经正常显示,百度页面加载是通过js加载,所以取的数据不完全:标题的链接竟然只是普通的文字,翻到最后发现后续是通过js去加载的数据

HtmlAgilityPack获取的是源代码就是页面组成的代码方式,而不是加载完毕以后完整的页面

C#网页数据采集(一)HtmlAgilityPack相关推荐

  1. java研发网页数据采集

    我觉得网页数据采集是一个不道德的行为,但是我喜欢.下面就说说我为什么喜欢. 某一天,小编看到喜欢的网页,很欣赏这个原创作者的作品,但由于小编穷,没法开通vip去下载资源,所以小编就运用一些网络技术进行 ...

  2. 一款全新的网页数据采集工具:爬山虎采集器

    特性 爬山虎采集器是一款全新的网页数据采集工具.作为一款工具软件,我们: 放弃了花哨的界面,换之以快速流畅的体验. 放弃了复杂的规则配置,开发了智能的自动提取算法. 在基于浏览器的可视化操作上,同时保 ...

  3. php获取其他网站的cookie,php获取(curl) 带有cookie的网页数据采集方法

    今天早上呢小编打开我们的php中文网(www.php.cn)看到有网友在问php获取页面数据,需要带cookie,不知道如何写,我们网站的专职工程师第一时间响应并给了解决 方案,在这里呢我分享给大家一 ...

  4. C#网页数据采集(三)HttpWebRequest

    <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255) ...

  5. java在网页填写集数据,java网页数据采集(中篇-数据存储)

    上期我们学习了html页面的数据采集,为了方便我们今后来调用收集到的数据,首先我们需要学习下如何将这些采集到的数据存储起来(MySql数据库). 打开MySql数据库,创建数据库 和表 (拷贝如下代码 ...

  6. [功能发布]Excel催化剂2周年巨献-网页数据采集功能发布,满足90%合理场景使用...

    转眼间,Excel催化剂推出已经两周年,在此之际,献上数据时代最刚需的网页采集功能,无需苦苦寻觅各种工具,借助Excel催化剂过往数据处理.清洗功能,加上此轮的网页采集功能,一点不输于市面上的各种收费 ...

  7. 网页数据采集爬虫研究

    数据采集的方式 采用国内现成的采集工具 通用类: 如火车头,八爪鱼等,gooseeker.com等,有配置页面,可定义规则,八爪鱼号称有抓取国内主流电商网站的版本. 专用类 天猫店铺商品采集工具 v1 ...

  8. 批量网页数据采集导出Excel

    网站数据采集,采集后的数据批量导入Excel怎么完成,提到数据整理和数据分析,我们就离不开Excel.通过采集工具,我们可以对网页上公开的数据进行采集,对于数据量庞大的数据,我么可以使用采集工具一键批 ...

  9. Java实现网页数据采集

    <div class="markdown_views"><p>最近,由于某些需要,用Java制做了一个网页数据采集器,用于将网页中需要的数据采集下来.< ...

最新文章

  1. oracle怎么打代码,使用DOS打Oracle代码技巧
  2. Py之mpld3:mpld3的简介、安装、使用方法之详细攻略
  3. eslint git提交不上_Git常用命令及日常问题集锦
  4. 6.1 引言-系统数据文件和信息
  5. 数据包接收系列 — IP协议处理流程(一)
  6. 判断true的正确做法
  7. Web安全CSRF攻击与防御
  8. 硬解析优化_72最近一次现场生产系统优化的成果与开发建议
  9. Linux 命令整理 —— 基本操作
  10. 更改日期为英文_修改3000个日期格式,不用熬夜到天亮,3秒就完事儿
  11. 【Android】Fresco图片加载框架(二)————Producer
  12. 研究生科研必备!!!2015-2020年各类国际会议基于图像的三维重建论文综述(1)——总览
  13. 《Redis实战》一1.2 Redis数据结构简介
  14. BZOJ.4832.[Lydsy1704月赛]抵制克苏恩(期望DP)
  15. JavaScript 启动性能瓶颈分析与解决方案
  16. HTTP响应状态代码----客户端错误(400–499)
  17. Java 病毒感染检测
  18. 乌班图 修改ip_Ubuntu配置和修改IP地址
  19. 计算机vf等级,全国计算机等级考试二级考试大纲(VF语言版)
  20. IPv4(分类编址)

热门文章

  1. java callback类_利用java8新特性实现类似javascript callback特性
  2. max点缓存烘焙帧_深入理解浏览器的缓存机制
  3. vue 全局排序_搞定VUE [ 一 ]
  4. python 上传文件夹,python – 使用Flask上传文件夹/文件
  5. 【Web安全】Weak Session IDs (弱会话IDs)-burp进行Cookie劫持
  6. 【Web安全】绕过WAF过滤-利用cookie进行SQL注入
  7. 2019-2020 ACM-ICPC Brazil Subregional Programming Contest
  8. Python机器学习笔记:sklearn库的学习
  9. python做动态数据采集仪代理_python做监控数据采集,怎么做.
  10. ubuntu libapache2-mod-php5,ubuntu安装apache2 mysql5 php5