using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;namespace _2015._5._23通过WebClient类发起请求并下载html
{class Program{static void Main(string[] args){#region 抓取网页邮箱//string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_";//WebClient wc = new WebClient();//wc.Encoding = Encoding.UTF8;//string str = wc.DownloadString(url);//MatchCollection matchs=  Regex.Matches(str,@"\w+@([-\w])+([\.\w])+",RegexOptions.ECMAScript);//foreach (Match item in matchs)//{//    Console.WriteLine(item.Value);//}//Console.WriteLine(matchs.Count);#endregion #region 抓取网页图片//WebClient wc = new WebClient();//wc.Encoding = Encoding.UTF8;下载源网页代码//string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban");//MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>");//foreach (Match item in matches)//{//    //下载图片到指定路径//    wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value));//}//Console.WriteLine(matches.Count);#endregion 爬一些信息WebClient wc = new WebClient();wc.Encoding = Encoding.UTF8;string html = wc.DownloadString("http://www.lagou.com/");MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>");foreach (Match item in matches){Console.WriteLine(item.Groups[1].Value);}Console.WriteLine(matches.Count);Console.ReadKey();                                  }}
}

C#实现简单的网页爬虫相关推荐

  1. 【Python 爬虫】简单的网页爬虫

    这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...

  2. Python之简单的网页爬虫开发

    Python之简单的网页爬虫开发 文章目录 Python之简单的网页爬虫开发 下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式 多线程爬虫 多进程库(m ...

  3. 3.简单的网页爬虫开发

    目录 一.爬虫开发中的法律与道德问题 1.数据采集的法律问题 (1)妨害个人信息安全 (2)涉及国家安全信息 (3)妨害网站正常运行 (4)侵害他人利益 (5)内幕交易 2.道德协议 (1)Robot ...

  4. python制作查询网页_Python制作简单的网页爬虫

    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...

  5. python制作简单网页_Python制作简单的网页爬虫

    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...

  6. Python小姿势 - Python爬虫:如何使用Python实现网页爬虫

    Python爬虫:如何使用Python实现网页爬虫 网页爬虫(Web Crawler),也叫网络爬虫(Web Spider),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.爬虫程序或者脚本 ...

  7. 怎么获取上一个html网页传过来的值_爬虫:一个简单实例说明爬虫机制

    爬虫,我的简单理解就是通过写定的程序,利用计算机的高速的优势,批量高效的获取数据的一种机制.通常我们访问网站是通过浏览器,而爬虫就是通过程序访问网站,也就是让程序伪装成浏览器进行访问. ​Reques ...

  8. python网页爬虫+简单的数据分析

    python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...

  9. Python简单网页爬虫——极客学院视频自动下载

    一.需求背景 最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军. 极客学院的视频是需要年费会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结 ...

  10. 【谷歌推网页爬虫新标准,开源robots.txt解析器】

    https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...

最新文章

  1. excel表格中IP地址排序
  2. 夺命雷公狗---微信开发57----微网站之jquery_mobile之入门案例
  3. 通过Ajax来简单的实现局部刷新(主要为C#中使用的UpdatePanel控件和ScriptManager控件)...
  4. opencv基础小程序大集合
  5. 【Linux系统编程】文件IO操作
  6. 用 Microsoft Expression Design 制作图形资源
  7. 点货网 x mPaaS | 仅 2 位 Java 开发,使用小程序上线一款 App
  8. 计算机教师自媒体方向,教师和自媒体,我该选择哪个深耕?
  9. python模板代码替换_Python - 安全替换字符串模板(safe_substitute) 详细解释
  10. matlab安装出现“无法访问所在网络位置”的正确解决办法
  11. 笔记本无线上网卡的种类
  12. Vscode Opencv4.5.2环境搭建
  13. 对于如何长胖和减肥的研究
  14. [CVPR2022|基于文本实例分割]ReSTR: Convolution-free Referring Image Segmentation Using Transformers
  15. 微博php面试,新浪微博php实习生
  16. 基于FPGA的UART串口通信实验(VHDL语言实现)
  17. 仿百度音乐html5,js仿百度音乐全选操作
  18. fms安装教程 linux_[转]linux下fms2流媒体服务器搭建之三-----FMS安装篇
  19. Confluence7(WIKI) 安装部署(傻瓜式)
  20. java applet 在线demo_编写可在线收发E-mail的Java Applet

热门文章

  1. mapxtreme for java_在MapXtreme for Java 4.8.0 中公布新制造的电子地图
  2. access数据库拆分的用途_在Access中手动拆分数据库
  3. Vue实现CNode
  4. 《Java并发编程实战》读书笔记一:基础知识
  5. 幼儿园管理系统源码【免费分享】
  6. 太原科技大学计算机宿舍,太原科技大学宿舍怎么样
  7. AMPL-段阶段生产模型
  8. pdf文档转换器绿色版
  9. 最新多种方式, 判断客户端IP是国内还是国外?
  10. IKM JAVA , SPRING, HIBERNATE_ANZ