C#从新浪新闻上提取新闻标题
下面我以新浪军事新闻模块提取军事新闻的标题,将提取到的新闻标题保存到记事本上
- static void Main(string[] args)
- {
- Stopwatch watch = new Stopwatch();
- watch.Start();
- WebClient wc = new WebClient();
- int count = 0;
- //正则表达式
- string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";
- //由于耗时太久,在这里我只提取新浪100个页面的新闻标题
- for (int i = 1; i < 100; i++)
- {
- //http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
- string url = @"http://roll.mil.news.sina.com.cn/col/zgjq/index_"+i+".shtml";
- string html = wc.DownloadString(url);
- MatchCollection matchs = Regex.Matches(html, regLinks);
- using (StreamWriter sw = new StreamWriter(@"c:\news.txt", true, Encoding.GetEncoding("gb2312")))
- {
- foreach (Match match in matchs)
- {
- if (match.Success)
- {
- sw.WriteLine(match.Groups[1].Value + "\t" + match.Groups[2].Value);
- count++;
- }
- }
- }
- }
- watch.Stop();
- Console.WriteLine("共提取了{0}个新闻标题",count);
- Console.WriteLine("共计用时:{0}",watch.Elapsed);
- Console.ReadKey();
- }
朋友们可以提取其他相关网站的新闻标题,但是提取的时候一定要记得找源代码规律,因为
- //正则表达式
- string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";
正则表达式的拼接是根据标题源代码的规律来提取的,如果不找规律,是很难进行提取的。
希望大家可以根据程序来提取其他网站的内容
转载于:https://blog.51cto.com/5596307/1151471
C#从新浪新闻上提取新闻标题相关推荐
- java 使用正则表达式从网页上提取网站标题
如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题.内容.Email.价格等)就能抓取什么信息. package catchhtml; import java.i ...
- python3爬虫-爬取新浪新闻首页所有新闻标题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...
- 【提取新闻主要内容之一】从具体的新闻网页中提取标题和作者信息
后续之[提取新闻列表并关联具体新闻内容] Задача: Используя Python и модуль requests и bs4 написать скрипт, извлекающий н ...
- 新闻上的文本分类:机器学习大乱斗
来自:AI小白入门 知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标 从 ...
- 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处
新闻上的文本分类:机器学习大乱斗 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...
- 【NLP】新闻上的文本分类:机器学习大乱斗
知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标 从头开始实践中文短文本 ...
- 利用Ansj进行新闻关键词提取
之前已经提到过使用FudanNLP进行新闻关键词提取,无奈组长不满意于是换成了ictclas,在我的ubuntu13.04上面ictclas跑得很好,可惜到别人的机器上就报错,没办法,只好再一次换工具 ...
- 正则表达式提取新闻发生时间
最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间. 方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某 ...
- 全自动采集新闻站源码-单站自动采集新闻源码(seo标题伪原创)
简介: 单站自动采集新闻源码(seo标题伪原创),一款能够轻松搭建的网站源码资源,用户可以搭建一个自动的新闻采集网站,支持seo伪原创功能,能够自动采集并进行seo优化,帮助你节省不少的精力. 有相关 ...
最新文章
- jQuery-this与$(this)的区别
- Spring MVC静态资源处理(转)
- 脚本编程语言python语言-python语言是脚本语言吗
- C语言打印文件数据,用C语言输出文件内所有数据
- asyncio协程与并发
- Codeforces Round #739 (Div. 3)(AK实况)
- struts2:JSON在struts中的应用(JSP页面中将对象转换为JSON字符串提交、JSP页面中获取后台Response返回的JSON对象)...
- Vue动态设置Style属性
- python json dumps 中文_Python下调用json.dumps中文显示问题解决办法
- 线程的简单理解,适用于初接触的小白,另类例子讲解,通俗易懂
- linux驱动开发(一):一个最简单的内核驱动程序
- 【OR】YALMIP大M法和凸包
- centos6.5重置密码
- 面完18家大厂的算法岗位,吐血整理了一个面经!
- 注意啦,还没有支持64位系统的App开发者,务必在12月底前完成这件事
- linux截图验证码,webdriver保存验证码截图
- git命令行切换到某一个提交版本的分支
- 北鲲云超算平台药物发现Cloud-HPCAI解决方案助力生命科学行业
- 学英语《每日一歌》之take me to your heart
- lol国服维护可以玩别的服务器吗,LOL:除了艾欧尼亚,其他服务器都只能算是“郊区”吗?...
热门文章
- 创业团队如何与兼职做饭的阿姨结算工资比较好?
- 初学Reporting Service2008
- 【转贴】ListView控件学习系列2-编辑ListView
- SSH整合之四(页面逻辑的实现)
- Android存储-SharedPreferences
- 从0开始构建SpringCloud微服务(1)
- Spring-Cloud-Config消息总线和高可用
- access_token is invalid or not latest hint
- PLSQL用DBMS_JOB建立作业
- Android 中文 API (28) —— CheckedTextView