C#从新浪新闻上提取新闻标题

下面我以新浪军事新闻模块提取军事新闻的标题，将提取到的新闻标题保存到记事本上

static void Main(string[] args)
{
Stopwatch watch = new Stopwatch();
watch.Start();
WebClient wc = new WebClient();
int count = 0;
//正则表达式
string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";
//由于耗时太久，在这里我只提取新浪100个页面的新闻标题
for (int i = 1; i < 100; i++)
{
//http://roll.mil.news.sina.com.cn/col/zgjq/index_4.shtml
string url = @"http://roll.mil.news.sina.com.cn/col/zgjq/index_"+i+".shtml";
string html = wc.DownloadString(url);
MatchCollection matchs = Regex.Matches(html, regLinks);
using (StreamWriter sw = new StreamWriter(@"c:\news.txt", true, Encoding.GetEncoding("gb2312")))
{
foreach (Match match in matchs)
{
if (match.Success)
{
sw.WriteLine(match.Groups[1].Value + "\t" + match.Groups[2].Value);
count++;
}
}
}
}
watch.Stop();
Console.WriteLine("共提取了{0}个新闻标题",count);
Console.WriteLine("共计用时：{0}",watch.Elapsed);
Console.ReadKey();
}

朋友们可以提取其他相关网站的新闻标题，但是提取的时候一定要记得找源代码规律，因为

//正则表达式
string regLinks = "<li><a\\s+href=\"http://mil.news.sina.com.cn/20\\d{2}-\\d{2}-\\d{2}/\\d{10}\\.html\"\\s+target=\"_blank\">(.+?)</a><span\\s+class=\"time\">(.+?)</span></li>";

正则表达式的拼接是根据标题源代码的规律来提取的，如果不找规律，是很难进行提取的。

希望大家可以根据程序来提取其他网站的内容

转载于:https://blog.51cto.com/5596307/1151471

C#从新浪新闻上提取新闻标题相关推荐

java 使用正则表达式从网页上提取网站标题
如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题.内容.Email.价格等)就能抓取什么信息. package catchhtml; import java.i ...
python3爬虫-爬取新浪新闻首页所有新闻标题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/xiangwanpeng/articl ...
【提取新闻主要内容之一】从具体的新闻网页中提取标题和作者信息
后续之[提取新闻列表并关联具体新闻内容] Задача: Используя Python и модуль requests и bs4 написать скрипт, извлекающий н ...
新闻上的文本分类：机器学习大乱斗
来自:AI小白入门知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标从 ...
新闻上的文本分类：机器学习大乱斗王岳王院长王岳王院长 5 个月前目标从头开始实践中文短文本分类，记录一下实验流程与遇到的坑运用多种机器学习（深度学习 + 传统机器学习）方法比较短文本分类处
新闻上的文本分类:机器学习大乱斗王岳王院长 5 个月前目标从头开始实践中文短文本分类,记录一下实验流程与遇到的坑运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...
【NLP】新闻上的文本分类：机器学习大乱斗
知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 目标从头开始实践中文短文本 ...
利用Ansj进行新闻关键词提取
之前已经提到过使用FudanNLP进行新闻关键词提取,无奈组长不满意于是换成了ictclas,在我的ubuntu13.04上面ictclas跑得很好,可惜到别人的机器上就报错,没办法,只好再一次换工具 ...
正则表达式提取新闻发生时间
最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间. 方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某 ...
全自动采集新闻站源码-单站自动采集新闻源码(seo标题伪原创)
简介: 单站自动采集新闻源码(seo标题伪原创),一款能够轻松搭建的网站源码资源,用户可以搭建一个自动的新闻采集网站,支持seo伪原创功能,能够自动采集并进行seo优化,帮助你节省不少的精力. 有相关 ...

C#从新浪新闻上提取新闻标题

C#从新浪新闻上提取新闻标题相关推荐

最新文章

热门文章