概述

现在爬虫技术算是一个普遍的技术了,各个语言的爬虫百家争鸣,但是根据笔者自己的感觉还是python是主流。爬虫涉及到太多的东西,笔者并不是专业的爬虫工程师,只不过个人兴趣分享一下。由于笔者是php工作,所以就使用php来进行简单爬虫。不过我的方法应该是很通用的,我相信java,C#等肯定有类似的函数,然后做法其实都一样了。

技术准备

看懂这段代码你需要对php的正则表达式函数以及正则表达式有一定的理解。

代码   注意实际代码就这么多

//这个是你网页正则匹配出来的字符串

$str = '

[小组]  标签内容1

237059 成员

[小组]  标签内容2

237059 成员

';

//这个是正则的输出结果

preg_match_all('/

[\s\S]*?

[\s\S]*?(.*?)/',$str,$match);

print_r($match);//根据打印的结果很明白了吧

//这个方法就是抓取网页内容的方法了可以吧需要抓取的页面传进去,然后正则匹配内容哦

function getUrlContent($url){//通过url获取html内容

$ch = curl_init();

curl_setopt($ch,CURLOPT_URL,$url);

curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1 )");

curl_setopt($ch,CURLOPT_HEADER,1);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

$output = curl_exec($ch);

curl_close($ch);

return $output;

}

?>

到这里就可以匹配你想要的数据了,如果还是不懂,就继续往下瞅瞅

流程图

简单的爬虫,特殊字符处理就不进行了,保证插入数据库不出错就行了

思路

首先getUrlContent($url)函数,只需要穿一个url地址就行了,当然了因为各个网站都有反扒机制,不过笔者的这个函数并不是万能的,但是在豆瓣测试过,其他网站大家自行测试了。

任何网站都可以理解为一个很长的字符串,如果对html有研究无非就是:

我们需要的只是将body标签里的东西拿出来,笔者模拟了一段body里的代码

[小组]

237059 成员

[小组]

237059 成员

对于这段代码,可以理解为一个很长的字符串

$str = '

[小组]

237059 成员

[小组]

237059 成员

';

对这段字符串,只需要进行正则匹配拿出你想要的,假如需要a标签里的href与内容

preg_match_all('/

[\s\S]*?

[\s\S]*?

python php c#爬虫_php 爬虫采集相关推荐

  1. python爬虫原理-python爬虫之认识爬虫和爬虫原理

    python爬虫之基础学习(一) 网络爬虫 网络爬虫也叫网络蜘蛛.网络机器人.如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情.网络爬虫的产生就是代替人 ...

  2. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  3. 爬虫python是干什么的_爬虫是什么?能自学嘛

    1.爬虫是什么 网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢.少量的获取 ...

  4. 【毕业设计_课程设计】基于网络爬虫的新闻采集和订阅系统的设计与实现(源码+论文)

    文章目录 0 项目说明 1 项目说明 2 系统需求 3 系统架构 4 效果展示 5 论文目录 6 项目工程 0 项目说明 基于网络爬虫的新闻采集和订阅系统的设计与实现 提示:适合用于课程设计或毕业设计 ...

  5. Python爬虫——网络爬虫简介

    文章目录 Python爬虫--网络爬虫简介 1.爬虫介绍 2.爬虫的应用 3.爬虫的分类 Python爬虫--网络爬虫简介 1.爬虫介绍 网络爬虫(Web Spider)又称"网络蜘蛛&qu ...

  6. 详细讲解如何用爬虫工具批量采集阿里巴巴商品数据

    阿里巴巴是全球最大的B2B电子商务平台之一,它提供了海量的商品信息,为采购商和供应商间牵线搭桥.然而,要想在如此庞大的商品库中找到适合自己的商品,需要耗费大量的时间和精力.为了提高工作效率,我们可以使 ...

  7. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  8. Python实现信息自动配对爬虫排版程序(附下载)

    授权自AI科技大本营(ID:rgznai100) 本文约2800字,建议阅读7分钟. 本文为你介绍Python实现信息自动配对爬虫排版程序. 公众号(DatapiTHU)后台回复"20200 ...

  9. hadoop 爬虫_python爬虫知识点梳理:带你全面入门python爬虫

    今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...

最新文章

  1. 初学markdown
  2. 中国平安“豪赌”科技?从产险业务IT变形计聊起
  3. java 变量 动态类型_Java:如何将变量从一种类型动态转换为另一种类型?
  4. UNITY 多SCENE加载与编辑
  5. java中文乱码解决之道(五)—–java是如何编码解码的
  6. 如何把即时通讯软件做大做强?
  7. 基于注解方式@AspectJ的AOP
  8. android 开发对gif解码(适配android 4.2、4.3、4.4版本)
  9. ASP.NET页面生命周期概述
  10. 基于 IDL 的遥感要素序列提取代码
  11. 用概率的方法计算Pi值
  12. 软工文档---可行性研究报告
  13. Structs1.0入门知识
  14. 牛顿插值java_java实现牛顿插值法
  15. MySql 查询比其中某一位讲师工资少的教师姓名、工资和职称
  16. 第二讲:线性结构-Go语言实现
  17. 字符画君君C语言,20行代码制作字符画版小黄鸭表情包 | 文末送书抽奖结果
  18. java -- 函数/方法
  19. mysql修改字段类型语句
  20. c语言怎么把一个整数挨挨挤挤,《C语言》课程PPT_第1章_C语言基础

热门文章

  1. T1042/T2080 vxWorks7开发笔记(二)
  2. mhdd中文说明完整版
  3. struts2升级到2.5版本需要注意的几点
  4. eclipse中文乱码怎么办
  5. 多路由器组局域网设置要点
  6. c语言随机抽取扑克问题,关于扑克牌的问题
  7. 将服务添加到桌面快捷方式
  8. Nuke关于Grade节点的一些笔记
  9. 计算机视觉 光和影ppt,计算机视觉介绍(马颂德).ppt
  10. 北京市昌平区回龙观个人房屋出租税收代征点介绍