c# 连续抓取页面内容
实现功能:去一个url抓取页面,在页面的内容里面在去找另一个url。找到这个这url之后经过一系列操作后再去重组的url去抓取内容。
第一、写出c#抓取页面的代码
![](/assets/blank.gif)
![](/assets/blank.gif)
1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Web; 5 using System.IO; 6 using System.Net; 7 using System.Text; 8 9 /// <summary> 10 ///abc 的摘要说明 11 /// </summary> 12 public static class abc 13 { 14 /// <summary> 15 /// webRequest 模拟http get请求 16 /// </summary> 17 /// <param name="strUrl">请求的url</param> 18 /// <param name="encoding">编码</param> 19 /// <returns>返回字符串</returns> 20 public static string GetHttpResponse(this string strUrl, Encoding encoding) 21 { 22 string strResult = string.Empty; 23 try 24 { 25 HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(strUrl); 26 HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse(); 27 Stream myStream = HttpWResp.GetResponseStream(); 28 StreamReader sr = new StreamReader(myStream, encoding); 29 strResult = sr.ReadToEnd(); 30 31 } 32 catch (Exception ex) 33 { 34 WriteLog(ex.Message, strUrl); 35 } 36 37 return strResult; 38 } 39 40 /// <summary> 41 /// webRequest 模拟http post请求 42 /// </summary> 43 /// <param name="url">请求的url</param> 44 /// <param name="val">post 的数据</param> 45 /// <returns>返回字符串</returns> 46 public static string GetHttpPostResponse(this string url, string val, Encoding encoding) 47 { 48 string strResult = string.Empty; 49 try 50 { 51 HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(url); 52 myReq.Method = "Post"; 53 myReq.ContentType = "application/x-www-form-urlencoded"; 54 byte[] byteArray = encoding.GetBytes(val); 55 myReq.ContentLength = byteArray.Length; 56 Stream stream = myReq.GetRequestStream(); 57 stream.Write(byteArray, 0, byteArray.Length); 58 stream.Close(); 59 HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse(); 60 Stream myStream = HttpWResp.GetResponseStream(); 61 StreamReader sr = new StreamReader(myStream, encoding); 62 strResult = sr.ReadToEnd(); 63 64 } 65 catch (Exception ex) 66 { 67 WriteLog(ex.Message + val, url); 68 } 69 70 return strResult; 71 } 72 73 public static void WriteLog(string sLog, string titleLog) 74 { 75 try 76 { 77 string logPath = System.AppDomain.CurrentDomain.BaseDirectory;//目录位置 78 79 DateTime dt = DateTime.Now; 80 string logfile = new StringBuilder(logPath).Append("\\Log\\").Append(dt.ToString("yyyy-MM-dd")).Append("\\").Append(titleLog).Append("_").Append(dt.ToString("yyyyMMddHHmmss")).Append(".txt").ToString(); 81 if (!System.IO.Directory.Exists(System.IO.Path.GetDirectoryName(logfile))) 82 { 83 System.IO.Directory.CreateDirectory(System.IO.Path.GetDirectoryName(logfile)); 84 } 85 if (!File.Exists(logfile)) 86 { 87 FileStream fs = System.IO.File.Create(logfile); 88 fs.Close(); 89 } 90 using (StreamWriter sw = new StreamWriter(logfile, true)) 91 { 92 sw.WriteLine(DateTime.Now.ToString("yyyy-MM-dd HH:mm:ss") + ":"); 93 sw.WriteLine(sLog); 94 sw.WriteLine(); 95 sw.Close(); 96 } 97 } 98 catch 99 { 100 101 } 102 } 103 }
第二、调用里面的方法GetHttpResponse去抓取页面(注这是get方式,如果是post方式可以选择post方式)
第三、用正则匹配方式得到想要的URL(Match mc = Regex.Match(aa, "action=(.*)>", RegexOptions.IgnoreCase);)
第四、由于此时得到URL是经过浏览器处理的URL如果我们直接去抓取页面就会找不到页面。因为此时的URL的协议是Https协议。所以我们需要中间做一次跳转。
首先还是去抓aa = abc.GetHttpResponse(str, Encoding.UTF8);得到的URL里有一个将要跳转到的url目录。我们需要将主域名+刚刚得到的这个目录。
第五、然后再去抓取。就可以得到我们想要的内容!
转载于:https://www.cnblogs.com/honghong75042/archive/2013/04/28/3049201.html
c# 连续抓取页面内容相关推荐
- apache httpclient 工具类_Java教程分享使用HttpClient抓取页面内容
Java教程分享使用HttpClient抓取页面内容,使用HttpClient工具来发送Http请求 1.简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提 ...
- java response 获得code_Java教程分享使用HttpClient抓取页面内容
Java教程分享使用HttpClient抓取页面内容,使用HttpClient工具来发送Http请求 1.简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提 ...
- php登录页面后抓取页面内容,PHP模拟登陆抓取页面内容
平时开发中经常会遇到抓取某个页面内容, 但是有时候某些页面需要登陆才能访问, 最常见的就是论坛, 这时候我们需要来使用curl模拟登陆. 大致思路:需要先请求提取 cookies 并保存,然后利用保存 ...
- php抓取页面内容乱码,如何解决抓取乱码php网页的问题
爬行乱码php网页的解决方案:1.使用"mbconvertencoding"来转换编码:2.设置并添加"curl _ setopt ($ ch,curl opt _ en ...
- 7.正则抓取页面内容
文章目录 请求方法: GET请求: POST请求: 二者之间的区别: GET爬取xazlsec.com页面内容: POST爬取页面信息: 用脚本爬取页面内容: 正则匹配: 元字符 (参见 python ...
- php抓取页面生成html,PHP smiple html dom抓取页面内容
之前做页面抓取,数据采集等功能的时候,第一个想到的就是用正则表达式去匹配页面内容.但是对于像我这种,正则只懂皮毛的人来说,写正则是真的很恶心的一件事.去网上找,也不一定能改成自己需要的正则. 今天给大 ...
- php 正则抓取页面内容_PHP_php获取网页内容方法总结,抓取到的内容在通过正则表达 - phpStudy...
php获取网页内容方法总结 抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法. 1. ...
- php 正则抓取页面内容_php 正则表达式抓取网页内容
php 抓取网页内容优化 我想在youku网抓取高清视频的链接,然后发到手机客户端那里,可是抓取的时间不理想(大概50个视频,电脑抓取显示在网页都要6秒多,发送到手机更要30秒),想问有什么优化方法呢 ...
- php 正则抓取页面内容_php使用curl和正则表达式抓取网页数据示例
session_start(); //封装成类 开启这些自动抓取文章 #header("Refresh:30;http://www.test.com:8080"); class S ...
最新文章
- 前端动态菜单权限、按钮权限实现思路
- 计算机主机漏电,电脑机箱漏电怎么办?机箱电源漏电原因及解决方法
- 9.28 linux系统基础优化
- ALGO-221 数据交换
- P4149 [IOI2011]Race
- popupwindow 不抢夺焦点_央视专访“上个厕所就要3000块”的亲历者, 被“坑”的不愉快经历...
- SQL Server游标
- log4net配置文件样本
- php oci_bind_array_by_name查询,PHP - 函数:OCIBindByName()
- strcpy函数的C/C++实现
- ie8不支持console.log()的解决方法
- html 悬浮在固定位置,纯CSS实现DIV悬浮(固定位置)
- python lambda菜鸟教程_Python - lambda函数
- 线性代数 行列式 矩阵 教材笔记
- 【DVB】【ATSC】ATSC和DVB数字电视系统的比较
- netscape.exe_评论-Netscape 6.1
- 简单粗暴的动态气泡图
- tomcat更改默认端口
- 中国大学MOOC北京大学唐大仕老师《Java程序设计》源码分享
- 学习笔记 | 独热编码(One-Hot Encoding)
热门文章
- mfc对话框的二次切分
- 设置html可打印区域,一个或多个页边距被设置到可打印区域之外,是否继续?...
- python 事务操作_Python实现完整的事务操作示例
- java同步锁synchronized_Java对象锁和类锁全面解析(多线程synchronized关键字)
- 008_JavaScript输出
- Mac下Unity5x的安装
- elasticsearch 客户端工具_万字长文:详解 Spring Boot 中操作 ElasticSearch
- Java语法基础-2
- getRunningTasks和getRunningAppProcesses失效
- java dayofweek_Java DayOfWeek getDisplayName()用法及代碼示例