什么是爬虫?

  • 1 爬虫简介
    • 1.1 什么是爬虫?
    • 1.2 为什么需要爬虫?
    • 1.3 企业获取数据的方式?
    • 1.4 Python 做爬虫的优势
    • 1.5 爬虫的分类
  • 2 爬虫的机制?
    • 2.1 计算机与计算机之间的交互
    • 2.2 计算机之间的交互语言
    • 2.3 网络模型介绍
    • 2.3 HTTPS是什么呢?
    • 2.2 SSL怎么理解?

1 爬虫简介

1.1 什么是爬虫?

  • 简单一句话就是代替人去模拟浏览器进行网页操作

1.2 为什么需要爬虫?

  • 为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、大数据等 等

1.3 企业获取数据的方式?

  • 公司原有的数据
  • 第三方平台购买的数据 (百度指数、数据堂)
  • 爬虫爬取的数据

1.4 Python 做爬虫的优势

  • PHP : 对多线程、异步支持不太好
  • Java : 代码量大,代码笨重
  • C/C++ : 代码量大,难以编写
  • Python : 支持模块多、代码简介、开发效率高 (scrapy框架)

1.5 爬虫的分类

  • 通用网络爬虫:例如 baidu google yahu
  • 聚焦网络爬虫: 根据既定的目标有选择的抓取某些特定主题内容
  • 增量式网络爬虫: 指对下载网页采取增量式的更新和只爬取新产生的或者已经发生变化的网页爬虫
  • 深层网络爬虫: 指那些一部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的web页面:例如用户登录注册才能访问的页面

2 爬虫的机制?

简单来讲就是计算机与计算机之间的交互方式

2.1 计算机与计算机之间的交互

  • 寻找IP地址
  • 找到指定的应用程序的端口

2.2 计算机之间的交互语言

  • 我们统称为通讯协议
  • 国际组织定义了通用的通信协议是TCP/IP协议
  • 所谓协议就是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则
  • HTTP又叫做超文本传输协议(是一种通信协议) HTTP它的端口是 80

2.3 网络模型介绍

  • 数据在显示以及传输的过程中必须经过多层包装,不然无法成为有用的数据,于是在计算机交互的过程中就必然存在包装–解包–包装的过程:
  • 后期更新了新的参考模型 TCP/IP参考模型:

2.3 HTTPS是什么呢?

  • https=http+ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的
  • https,是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL

2.2 SSL怎么理解?

  • SSL也是一个协议主要用于web的安全传输协议

什么是爬虫?--关于爬虫的简介相关推荐

  1. Python爬虫——网络爬虫简介

    文章目录 Python爬虫--网络爬虫简介 1.爬虫介绍 2.爬虫的应用 3.爬虫的分类 Python爬虫--网络爬虫简介 1.爬虫介绍 网络爬虫(Web Spider)又称"网络蜘蛛&qu ...

  2. 初识爬虫,爬虫原理?爬虫是什么?为什么爬虫用python比较流行?

    文章目录 什么是爬虫? 为什么需要爬虫? 企业获取数据的⽅式? 为什么选择python 爬虫原理 爬虫分类 通⽤⽹络爬⾍ 聚焦⽹络爬⾍ 增量式⽹络爬⾍ 深层⽹络爬⾍: robots协议 什么是爬虫? ...

  3. 爬虫入门——爬虫可以采集哪些格式的数据?

    上一篇为大家介绍了爬虫可以采集的数据范围及采集场景,今天来为大家继续介绍一下爬虫可以采集的数据格式有哪些. 1.采集文本数据 也就是文字,爬虫可以采集网页/app中公开展示的文字内容.这是最最常见的数 ...

  4. 和我一起学习爬虫之爬虫原理和网站基本知识

                                                      爬虫原理和网站基本知识 一.爬虫简介 1.为什么要做爬虫 1.1.数据的来源 首先请问:都说现在是' ...

  5. nodejs爬虫与python爬虫_爬虫知多少-(NodeJS 爬虫)

    不久前在公司做了一个关于爬虫的分享,简单介绍了网络爬虫的基础知识.爬虫的运作方式.抓取策略.攻防方式以及如何使用 NodeJS 进行爬虫开发, 在这里分享给各位同学分享一下~ 一.爬虫简介 二.爬虫的 ...

  6. 爬虫---scrapy爬虫框架(详细+实战)

    ​ 活动地址:CSDN21天学习挑战赛 爬虫---scrapy爬虫框架 爬虫---scrapy爬虫框架 一.简介 1.基本功能 2.架构 3.scrapy项目的结构 二.scrapy环境搭建 三.如何 ...

  7. 老司机带你学爬虫——Python爬虫技术分享

    什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...

  8. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  9. python爬虫流程-什么是爬虫?爬虫的基本流程是什么?

    网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛. 当人们在网络上(如google)搜索关键字时,其实 ...

  10. python爬虫原理-python爬虫之认识爬虫和爬虫原理

    python爬虫之基础学习(一) 网络爬虫 网络爬虫也叫网络蜘蛛.网络机器人.如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情.网络爬虫的产生就是代替人 ...

最新文章

  1. Binder相关面试总结(一):为什么Android要采用Binder作为IPC机制?
  2. python编程狮app题库_‎Python编程狮-零基础学Python im App Store
  3. mysql的length函数和char_length中文字符长度计算函数
  4. 1017 A除以B (20分)
  5. oracle数据库常用的语法与复合函数
  6. Nginx(二):安装、配置、常用命令
  7. 单例设计模式之间的区别
  8. CODE[VS] 1548 贝贝的车牌问题
  9. 二叉树 -- 5.1.1 Binary Tree Level Order Traversal -2 -- 图解
  10. ios transporter 缓存_鸿蒙和安卓都是开源,为什么iOS系统却可以获得出色的口碑?...
  11. Python django 安装 mysqlclient 失败
  12. 计算机二级c语言选择题pdf,计算机二级c语言选择题库(带答案)[汇编].pdf
  13. lammps教程:real和metal单位下能量转换公式
  14. 基于JAVA在线招生系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
  15. httprunner之业务解耦
  16. 韩信要是听了此人的建议,或许就不会死在这位女人手中了
  17. 深入了解 Vue3 模板编译原理
  18. 计算机类基金有哪些2019,2019年度国家自然科学基金最终立项数据,哪些高校表现突出?...
  19. 收音机主页网站服务器列表,谁有收音机频道列表,要山东的,越详细越好
  20. 用友YonBuilder:做数智化的创新泉眼

热门文章

  1. Scaling Your Node.js Apps 免积分下载
  2. 做IT精英还是IT民工? 从事IT只是个体力活
  3. python字典筛选
  4. 将网页上的MathJax复制到word中
  5. BetterJoy蓝牙将switch转化为xbox玩游戏,例子:双人成行(俄区版)
  6. UI设计学校培训课程有哪些?培训学校该怎么选?
  7. 企鹅吞狗,狗走狐悲,狼厂危矣
  8. 【科目一】你必须知道的驾考交通标志大全
  9. 【MySQL】增大字符串长度不会锁表吗
  10. static this(尚学堂视频学习总结_002)