python php c#爬虫_php 爬虫采集
概述
现在爬虫技术算是一个普遍的技术了,各个语言的爬虫百家争鸣,但是根据笔者自己的感觉还是python是主流。爬虫涉及到太多的东西,笔者并不是专业的爬虫工程师,只不过个人兴趣分享一下。由于笔者是php工作,所以就使用php来进行简单爬虫。不过我的方法应该是很通用的,我相信java,C#等肯定有类似的函数,然后做法其实都一样了。
技术准备
看懂这段代码你需要对php的正则表达式函数以及正则表达式有一定的理解。
代码 注意实际代码就这么多
//这个是你网页正则匹配出来的字符串
$str = '
[小组] 标签内容1
237059 成员
[小组] 标签内容2
237059 成员
';
//这个是正则的输出结果
preg_match_all('/
[\s\S]*?(.*?)/',$str,$match);
print_r($match);//根据打印的结果很明白了吧
//这个方法就是抓取网页内容的方法了可以吧需要抓取的页面传进去,然后正则匹配内容哦
function getUrlContent($url){//通过url获取html内容
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1 )");
curl_setopt($ch,CURLOPT_HEADER,1);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
$output = curl_exec($ch);
curl_close($ch);
return $output;
}
?>
到这里就可以匹配你想要的数据了,如果还是不懂,就继续往下瞅瞅
流程图
简单的爬虫,特殊字符处理就不进行了,保证插入数据库不出错就行了
思路
首先getUrlContent($url)函数,只需要穿一个url地址就行了,当然了因为各个网站都有反扒机制,不过笔者的这个函数并不是万能的,但是在豆瓣测试过,其他网站大家自行测试了。
任何网站都可以理解为一个很长的字符串,如果对html有研究无非就是:
我们需要的只是将body标签里的东西拿出来,笔者模拟了一段body里的代码
[小组]
237059 成员
[小组]
237059 成员
对于这段代码,可以理解为一个很长的字符串
$str = '
[小组]
237059 成员
[小组]
237059 成员
';
对这段字符串,只需要进行正则匹配拿出你想要的,假如需要a标签里的href与内容
preg_match_all('/
[\s\S]*?
python php c#爬虫_php 爬虫采集相关推荐
- python爬虫原理-python爬虫之认识爬虫和爬虫原理
python爬虫之基础学习(一) 网络爬虫 网络爬虫也叫网络蜘蛛.网络机器人.如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情.网络爬虫的产生就是代替人 ...
- python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
- 爬虫python是干什么的_爬虫是什么?能自学嘛
1.爬虫是什么 网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢.少量的获取 ...
- 【毕业设计_课程设计】基于网络爬虫的新闻采集和订阅系统的设计与实现(源码+论文)
文章目录 0 项目说明 1 项目说明 2 系统需求 3 系统架构 4 效果展示 5 论文目录 6 项目工程 0 项目说明 基于网络爬虫的新闻采集和订阅系统的设计与实现 提示:适合用于课程设计或毕业设计 ...
- Python爬虫——网络爬虫简介
文章目录 Python爬虫--网络爬虫简介 1.爬虫介绍 2.爬虫的应用 3.爬虫的分类 Python爬虫--网络爬虫简介 1.爬虫介绍 网络爬虫(Web Spider)又称"网络蜘蛛&qu ...
- 详细讲解如何用爬虫工具批量采集阿里巴巴商品数据
阿里巴巴是全球最大的B2B电子商务平台之一,它提供了海量的商品信息,为采购商和供应商间牵线搭桥.然而,要想在如此庞大的商品库中找到适合自己的商品,需要耗费大量的时间和精力.为了提高工作效率,我们可以使 ...
- python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re
Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...
- Python实现信息自动配对爬虫排版程序(附下载)
授权自AI科技大本营(ID:rgznai100) 本文约2800字,建议阅读7分钟. 本文为你介绍Python实现信息自动配对爬虫排版程序. 公众号(DatapiTHU)后台回复"20200 ...
- hadoop 爬虫_python爬虫知识点梳理:带你全面入门python爬虫
今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...
最新文章
- 初学markdown
- 中国平安“豪赌”科技?从产险业务IT变形计聊起
- java 变量 动态类型_Java:如何将变量从一种类型动态转换为另一种类型?
- UNITY 多SCENE加载与编辑
- java中文乱码解决之道(五)—–java是如何编码解码的
- 如何把即时通讯软件做大做强?
- 基于注解方式@AspectJ的AOP
- android 开发对gif解码(适配android 4.2、4.3、4.4版本)
- ASP.NET页面生命周期概述
- 基于 IDL 的遥感要素序列提取代码
- 用概率的方法计算Pi值
- 软工文档---可行性研究报告
- Structs1.0入门知识
- 牛顿插值java_java实现牛顿插值法
- MySql 查询比其中某一位讲师工资少的教师姓名、工资和职称
- 第二讲:线性结构-Go语言实现
- 字符画君君C语言,20行代码制作字符画版小黄鸭表情包 | 文末送书抽奖结果
- java -- 函数/方法
- mysql修改字段类型语句
- c语言怎么把一个整数挨挨挤挤,《C语言》课程PPT_第1章_C语言基础