C#实现简单的网页爬虫
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;namespace _2015._5._23通过WebClient类发起请求并下载html
{class Program{static void Main(string[] args){#region 抓取网页邮箱//string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_";//WebClient wc = new WebClient();//wc.Encoding = Encoding.UTF8;//string str = wc.DownloadString(url);//MatchCollection matchs= Regex.Matches(str,@"\w+@([-\w])+([\.\w])+",RegexOptions.ECMAScript);//foreach (Match item in matchs)//{// Console.WriteLine(item.Value);//}//Console.WriteLine(matchs.Count);#endregion #region 抓取网页图片//WebClient wc = new WebClient();//wc.Encoding = Encoding.UTF8;下载源网页代码//string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban");//MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>");//foreach (Match item in matches)//{// //下载图片到指定路径// wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value));//}//Console.WriteLine(matches.Count);#endregion 爬一些信息WebClient wc = new WebClient();wc.Encoding = Encoding.UTF8;string html = wc.DownloadString("http://www.lagou.com/");MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>");foreach (Match item in matches){Console.WriteLine(item.Groups[1].Value);}Console.WriteLine(matches.Count);Console.ReadKey(); }}
}
C#实现简单的网页爬虫相关推荐
- 【Python 爬虫】简单的网页爬虫
这边有一个用来测试的网站点击跳转 简单的网页爬虫 requests的使用 使用requests获取网页的源代码 requests与正则结合 多线爬虫 多进程库 开发多线程爬虫 爬虫算法的开发 深度优先 ...
- Python之简单的网页爬虫开发
Python之简单的网页爬虫开发 文章目录 Python之简单的网页爬虫开发 下面简单介绍一下request: 简单介绍一下什么是第三方库: 结合requests与正则表达式 多线程爬虫 多进程库(m ...
- 3.简单的网页爬虫开发
目录 一.爬虫开发中的法律与道德问题 1.数据采集的法律问题 (1)妨害个人信息安全 (2)涉及国家安全信息 (3)妨害网站正常运行 (4)侵害他人利益 (5)内幕交易 2.道德协议 (1)Robot ...
- python制作查询网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
- python制作简单网页_Python制作简单的网页爬虫
1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
- Python小姿势 - Python爬虫:如何使用Python实现网页爬虫
Python爬虫:如何使用Python实现网页爬虫 网页爬虫(Web Crawler),也叫网络爬虫(Web Spider),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.爬虫程序或者脚本 ...
- 怎么获取上一个html网页传过来的值_爬虫:一个简单实例说明爬虫机制
爬虫,我的简单理解就是通过写定的程序,利用计算机的高速的优势,批量高效的获取数据的一种机制.通常我们访问网站是通过浏览器,而爬虫就是通过程序访问网站,也就是让程序伪装成浏览器进行访问. Reques ...
- python网页爬虫+简单的数据分析
python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...
- Python简单网页爬虫——极客学院视频自动下载
一.需求背景 最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军. 极客学院的视频是需要年费会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结 ...
- 【谷歌推网页爬虫新标准,开源robots.txt解析器】
https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...
最新文章
- excel表格中IP地址排序
- 夺命雷公狗---微信开发57----微网站之jquery_mobile之入门案例
- 通过Ajax来简单的实现局部刷新(主要为C#中使用的UpdatePanel控件和ScriptManager控件)...
- opencv基础小程序大集合
- 【Linux系统编程】文件IO操作
- 用 Microsoft Expression Design 制作图形资源
- 点货网 x mPaaS | 仅 2 位 Java 开发,使用小程序上线一款 App
- 计算机教师自媒体方向,教师和自媒体,我该选择哪个深耕?
- python模板代码替换_Python - 安全替换字符串模板(safe_substitute) 详细解释
- matlab安装出现“无法访问所在网络位置”的正确解决办法
- 笔记本无线上网卡的种类
- Vscode Opencv4.5.2环境搭建
- 对于如何长胖和减肥的研究
- [CVPR2022|基于文本实例分割]ReSTR: Convolution-free Referring Image Segmentation Using Transformers
- 微博php面试,新浪微博php实习生
- 基于FPGA的UART串口通信实验(VHDL语言实现)
- 仿百度音乐html5,js仿百度音乐全选操作
- fms安装教程 linux_[转]linux下fms2流媒体服务器搭建之三-----FMS安装篇
- Confluence7(WIKI) 安装部署(傻瓜式)
- java applet 在线demo_编写可在线收发E-mail的Java Applet
热门文章
- mapxtreme for java_在MapXtreme for Java 4.8.0 中公布新制造的电子地图
- access数据库拆分的用途_在Access中手动拆分数据库
- Vue实现CNode
- 《Java并发编程实战》读书笔记一:基础知识
- 幼儿园管理系统源码【免费分享】
- 太原科技大学计算机宿舍,太原科技大学宿舍怎么样
- AMPL-段阶段生产模型
- pdf文档转换器绿色版
- 最新多种方式, 判断客户端IP是国内还是国外?
- IKM JAVA , SPRING, HIBERNATE_ANZ