下面我以新浪军事新闻模块提取军事新闻的标题,将提取到的新闻标题保存到记事本上

  1. static void Main(string[] args)
  2. {
  3. Stopwatch watch = new Stopwatch();
  4. watch.Start();
  5. WebClient wc = new WebClient();
  6. int count = 0;
  7. //正则表达式
  8. string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";
  9. //由于耗时太久,在这里我只提取新浪100个页面的新闻标题
  10. for (int i = 1; i < 100; i++)
  11. {
  12. //http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
  13. string url = @"http://roll.mil.news.sina.com.cn/col/zgjq/index_"+i+".shtml";
  14. string html = wc.DownloadString(url);
  15. MatchCollection matchs = Regex.Matches(html, regLinks);
  16. using (StreamWriter sw = new StreamWriter(@"c:\news.txt", true, Encoding.GetEncoding("gb2312")))
  17. {
  18. foreach (Match match in matchs)
  19. {
  20. if (match.Success)
  21. {
  22. sw.WriteLine(match.Groups[1].Value + "\t" + match.Groups[2].Value);
  23. count++;
  24. }
  25. }
  26. }
  27. }
  28. watch.Stop();
  29. Console.WriteLine("共提取了{0}个新闻标题",count);
  30. Console.WriteLine("共计用时:{0}",watch.Elapsed);
  31. Console.ReadKey();
  32. }

朋友们可以提取其他相关网站的新闻标题,但是提取的时候一定要记得找源代码规律,因为

  1. //正则表达式
  2. string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";

正则表达式的拼接是根据标题源代码的规律来提取的,如果不找规律,是很难进行提取的。

希望大家可以根据程序来提取其他网站的内容

转载于:https://blog.51cto.com/5596307/1151471

C#从新浪新闻上提取新闻标题相关推荐

  1. java 使用正则表达式从网页上提取网站标题

    如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题.内容.Email.价格等)就能抓取什么信息. package catchhtml; import java.i ...

  2. python3爬虫-爬取新浪新闻首页所有新闻标题

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...

  3. 【提取新闻主要内容之一】从具体的新闻网页中提取标题和作者信息

    后续之[提取新闻列表并关联具体新闻内容] Задача: Используя Python и модуль requests и bs4 написать скрипт, извлекающий н ...

  4. 新闻上的文本分类:机器学习大乱斗

    来自:AI小白入门 知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标 从 ...

  5. 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处

    新闻上的文本分类:机器学习大乱斗 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...

  6. 【NLP】新闻上的文本分类:机器学习大乱斗

    知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标 从头开始实践中文短文本 ...

  7. 利用Ansj进行新闻关键词提取

    之前已经提到过使用FudanNLP进行新闻关键词提取,无奈组长不满意于是换成了ictclas,在我的ubuntu13.04上面ictclas跑得很好,可惜到别人的机器上就报错,没办法,只好再一次换工具 ...

  8. 正则表达式提取新闻发生时间

    最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间. 方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某 ...

  9. 全自动采集新闻站源码-单站自动采集新闻源码(seo标题伪原创)

    简介: 单站自动采集新闻源码(seo标题伪原创),一款能够轻松搭建的网站源码资源,用户可以搭建一个自动的新闻采集网站,支持seo伪原创功能,能够自动采集并进行seo优化,帮助你节省不少的精力. 有相关 ...

最新文章

  1. jQuery-this与$(this)的区别
  2. Spring MVC静态资源处理(转)
  3. 脚本编程语言python语言-python语言是脚本语言吗
  4. C语言打印文件数据,用C语言输出文件内所有数据
  5. asyncio协程与并发
  6. Codeforces Round #739 (Div. 3)(AK实况)
  7. struts2:JSON在struts中的应用(JSP页面中将对象转换为JSON字符串提交、JSP页面中获取后台Response返回的JSON对象)...
  8. Vue动态设置Style属性
  9. python json dumps 中文_Python下调用json.dumps中文显示问题解决办法
  10. 线程的简单理解,适用于初接触的小白,另类例子讲解,通俗易懂
  11. linux驱动开发(一):一个最简单的内核驱动程序
  12. 【OR】YALMIP大M法和凸包
  13. centos6.5重置密码
  14. 面完18家大厂的算法岗位,吐血整理了一个面经!
  15. 注意啦,还没有支持64位系统的App开发者,务必在12月底前完成这件事
  16. linux截图验证码,webdriver保存验证码截图
  17. git命令行切换到某一个提交版本的分支
  18. 北鲲云超算平台药物发现Cloud-HPCAI解决方案助力生命科学行业
  19. 学英语《每日一歌》之take me to your heart
  20. lol国服维护可以玩别的服务器吗,LOL:除了艾欧尼亚,其他服务器都只能算是“郊区”吗?...

热门文章

  1. 创业团队如何与兼职做饭的阿姨结算工资比较好?
  2. 初学Reporting Service2008
  3. 【转贴】ListView控件学习系列2-编辑ListView
  4. SSH整合之四(页面逻辑的实现)
  5. Android存储-SharedPreferences
  6. 从0开始构建SpringCloud微服务(1)
  7. Spring-Cloud-Config消息总线和高可用
  8. access_token is invalid or not latest hint
  9. PLSQL用DBMS_JOB建立作业
  10. Android 中文 API (28) —— CheckedTextView