爬虫可以爬取的数据大致有四类:

  • 网页源代码。最常见的便是常规网页,它们对应着HTML代码,而最长抓取的便是HTML源代码。
  • JSON字符串。可能有些网页返回的不是HTML源代码,而是一个JSON字符串(API接口大多采用这种形式),这种格式的数据方便传输和解析,爬虫同样可以爬取,而且数据提取更加方便。
  • 二进制数据。各种二进制数据,如图片、视频和音频等,利用爬虫可以将这些二进制数据抓取下来,然后保存成对应的文件名。
  • 各种扩展名的文件。如CSS、JavaScript和配置文件等,只要在浏览器里面可以访问到,就可以将其抓取下来。

上述内容其中都对应各自的URL,是基于HTTP或HTTPS协议的,只要是这种数据,爬虫都可以爬取。

爬虫的基本原理:爬虫能爬什么数据相关推荐

  1. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  2. PYTHON爬虫神站——curl.trillworks 爬取数据只需两步!

    前不久作者因为需要爬取一些建筑类数据 于是又又又准备苦哈哈的打开百度搜索"如何爬取XX",然后看html,找到关键点再挨个循环访问.....以下省略. 但这次 这款朋友推荐网站拯救 ...

  3. java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

    问题描述: 在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass("class的值"),这种方法获取不到 ...

  4. Python爬虫入门教程06:爬取数据后的词云图制作

    前言

  5. 和移动对接短信http协议和cmpp协议那个好_python网络爬虫之HTTP原理,爬虫的基本原理,Cookies和代理介绍...

    一.HTTP基本原理 (一)URI和URL URI的全称为统一资源标志符,URL的全称为统一资源定位符.用来指定一个资源的访问方式,包括访问协议,访问路径和资源名称,从而找到需要的资源(网页的内容都是 ...

  6. Python的爬虫学习笔记本(一)爬虫的基本原理

    NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺.为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来.由此开始了爬虫的学习. ...

  7. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

  8. 2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会

    2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...

  9. 【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会...

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...

  10. pythonrequestspost爬取数据不全_Python爬取数据之Requests库

    爬虫三步走包括爬取数据.解析数据和保存数据,Python强大之处就是每一步都提供了强大的库,我们只要使用对应的库,就能把网站中想要的数据爬取下来.第一步爬取数据,最常用的就是Requests库.Req ...

最新文章

  1. 赛题出简单了,让我们情何以堪?
  2. 内核 读写 flash mtd_2D动作卷轴《Lost Epic》公布 少女外表魂系内核|游民星空
  3. 修改Sublime Text3 的侧边栏字体大小
  4. git连接jenkins_开普勒云平台:如何配置gitlab与Jenkins
  5. android标题栏上增加按钮,Android:向自定义标题栏添加按钮
  6. zynq无法识别sd卡_百度米尔携手推出FZ3深度学习计算卡!
  7. python如何提高性能_python – 如何在这个短代码中提高numpy性能...
  8. 当我以为这是最后一个Bug,改完就能提交了的时候
  9. db powerdesigner mysql-odbc连接注意事项
  10. catv系统主要有哪三部分组成_光纤通信系统的组成与特点
  11. 解读微信团队的七个价值观
  12. Flexsim国外视频教程
  13. editormd html 转义,Markdown(editormd)语法解析成HTML
  14. Vue 从零开始搭建PC端项目完整框架(附GitHub地址和Vue项目执行流程)
  15. linux steam大屏幕模式,Steam 大屏幕模式 - Steam Support
  16. 独立的自动化智能系统——海格里斯(HEGERLS)直线双轨多层机器人RGV穿梭车
  17. 为什么Uber微服务架构使用多租户?
  18. 2020.7.7 ETH价格分析
  19. 创建并配置一个伪分布式Hadoop3.x版本集群(三)
  20. FFmpeg 中的一些参数意义(tbr, tbn, tbc)

热门文章

  1. php是否qq里面打开网页,javascript,_js判断页面是否为手机qq打开?,javascript - phpStudy...
  2. 雷柏8300无线鼠标就是个悲剧,占灰…
  3. 2013 12 android 凯立德秋季高清旗舰 百度云,凯立德导航常用工具软件(2013.4.12更新下载链接)...
  4. FancyCache Volume 0.8.0
  5. 红米K30s和华为Mate30Epro哪个好
  6. 计算机本地连接xp,xp本地连接不见了怎么办【图解】
  7. 7-14 十六进制转十进制
  8. 盘点2010年IT业界十大囧事 iPhone居首
  9. 简单使用gige千兆网口basler工业相机
  10. 网件R6400内网穿透最简单的实现方式