作者:郝喜路   个人主页: http://www.cnicode.com       博客地址:http://haoxilu.cnblogs.com    时间:2014年6月26日 19:25:02


  刚刚在博客园 看到一篇博文《使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)》  ,感觉不错,作者写的也挺好的,然后在看了园子里的朋友的评论后,我知道了有一个更牛x的工具——Jumony 。这个工具用起来可谓称之为简单、高效。 特此记录和分享,Jumony 的使用方法。

  Jumony是开源项目,目前源代码存放咋GitHub ,源码地址: https://github.com/Ivony/Jumony 。我测试使用的是Visual Studio 2012 ,测试网页为博客园。

  下面介绍使用方法:

  一、在新建项目后,需要将Jumony添加到项目中,你可以下载源码使用,也可以在NugGet 中 搜索 Jumony Core 将其添加到项目中并且后自动添加所需的引用。

  二、添加引用之后,即可写项目代码。(此处代码为获取  博客园首页文章内容)

  

 1  public string Html = string.Empty;//为将拼接好html字符串返回给前台代码
 2         protected void Page_Load(object sender, EventArgs e)
 3         { 5             var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");
 6             int count = 0;
 7             foreach (var htmlElement in htmlSource)
 8             {
 9                 count ++;
10                 Html += string.Format(" <li>{2}、&nbsp;&nbsp;<a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a></li>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);
11             }
12         }

  效果图:

       

  三、下面就是要在点击上图从博客园抓取的文章标题之后,在显示博客全文(并非在打开博客园的文章)

    代码:   

1   string html = Request["Url"];
2             var htmlSource =
3                 new JumonyParser().LoadDocument(html);
4             HtmlText = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();
5
6             Html = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();

效果图:

到此,网页抓取写完了,没有什么深奥的道理,只是把他的使用方法简单的把代码贴出来了,还没有研究其源码,有时间需要深究一下。
Jumony更多的使用方式请参见博客 http://www.cnblogs.com/Ivony/p/3447536.html 
本次演示Jumony快速开发的代码如下(在百度云盘,请自行下载:):
http://pan.baidu.com/s/1COuCI
谢谢!

转载于:https://www.cnblogs.com/haoxilu/p/3810698.html

Jumony快速抓取网页 --- Jumony使用笔记--icode相关推荐

  1. 利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

    利用pandas库中的read_html方法快速抓取网页中常见的表格型数据 本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要 ...

  2. 使用Scrapy,帮你快速抓取网页数据(代码可下载)!

    Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网站数据.提取结构性数据以及各种图片,非常方便.Sc ...

  3. php正则获取li,用正则表达式抓取网页中的ul 和 li标签中最终的值!

    获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1";       ...

  4. cookie追加数据_集算器 SPL 抓取网页数据

    [摘要] 集算器 SPL 支持抓取网页数据,根据抓取定义规则,可将网页数据下载到在本地进行统计分析.具体定义规则要求.使用详细情况,请前往乾学院:集算器 SPL 抓取网页数据! 网站上的数据源是我们进 ...

  5. excel数据自动录入网页_Excel自动抓取网页数据,数据抓取一键搞定

    网站上的数据源是我们进行统计分析的重要信息源.我们在生活中常常听到一个词叫"爬虫",能够快速抓取网页上的数据,这对于数据分析相关工作来说极其重要,也是必备的技能之一.但是爬虫大多需 ...

  6. php抓取标签内的内容,php抓取网页中的内容

    以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码 代码如下:>>>>>>>>>>> ...

  7. Python 爬虫篇#笔记02# | 网页请求原理 和 抓取网页数据

    目录 一. 网页请求原理 1.1 浏览网页的过程 1.2 统一资源定位符URL 1.3 计算机域名系统DNS 1.4 分析浏览器显示完整网页的过程 1.5 客户端THHP请求格式 1.6 服务端HTT ...

  8. 服务器处理蜘蛛抓取网页的过程,让你网站快速被蜘蛛抓取的十三个方法

    据调查显示,有87%的网民会利用搜索引擎服务查找需要的信息,而这之中有近70%的搜索者会直接在搜索结果的自然排名的第一页查找自己所需要的信息.由此可见,目前来讲SEO对于企业和产品,有着难以替代的重要 ...

  9. 转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)

    转载自http://blog.csdn.net/sac761/article/details/48379173 android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式) 标签: ...

最新文章

  1. 5G时代到来,人工智能设备如何重塑TMT行业
  2. 学习 Message(10): WM_CancelMode 消息测试
  3. Stream 和Byte[] 之间的转换
  4. 电阻应用电路之指示灯电路的设计
  5. Lua === Lua 十分钟基础入门上手
  6. ​WeihanLi.Npoi 根据模板导出Excel
  7. 我要认真学Git了 - Config
  8. 快学Scala习题解答—第一章 基础
  9. matlab用diag直接使用错误_精华液使用3大错误,过敏不能用,晒后不能用,第3点错得太常见!...
  10. ASP.NET版本不是1.1, 2.0的也一样
  11. Repeater——数据库控件学习
  12. react-native升级到0.63ios图片不展示
  13. 服务器位置设置,服务器部署位置
  14. android 刷机时缺少驱动无法识别
  15. php抽奖幸运,幸运大转盘-jQuery+PHP实现的抽奖程序
  16. openpyxl给excel设置条件格式
  17. 基于 SpringBoot + MyBatis-Plus 的公众号管理系统
  18. win10显示器亮度无法调节
  19. c语言中ifelse意义,c语言if和else if的区别
  20. 银行钱数(带小数位)转大写

热门文章

  1. java 圈复杂度 工具_java sourcemonitor圈复杂度计算
  2. Mybatis-Puls 基本的sql操作流程
  3. 8.3 多线程练习,卖票
  4. 本次操作由于这台计算机的限制而被取消,请与你的系统管理员联系,问题解决措施。
  5. 清华大学 计算机系 尹霞,轮椅上的清华博士毕业了,刷屏的还有她 .
  6. win7快捷键_简述win7操作系统非常实用的常用快捷键,电脑高手必学
  7. appreciate
  8. 某销售公司在年末的时候会向员工发放红包,发放的红包金额共有5种,获取的条件各不相同:   1) 五颗星红包,每人8000元,平均月绩效大于80件商品(>80),并且在本年度满勤; 2) 四颗星红包,每
  9. 有向无环图讲解及模板(C++代码)
  10. Linux i2c子系统