今天我们来学爬虫,这个系列预计会出11期

爬虫原理:

------------------什么是爬虫?-----------------

请求网站并提取数据的自动化程序

------------------爬虫的分类 --------------------

  1. 通用网络爬虫(全网爬取,搜索引擎,爬行的范围和速度是巨大的,但速度慢,有用和无用的数据需要很多的存储空间,而且需要很多只爬虫一起爬)
  2. 聚焦网络爬虫(我们平时要写的爬虫,有选择性的去爬取,不会获取无用的数据)

-------什么是requests和response?-------

他们两个也叫HTTP requests和HTTP response

(1)浏览器发送消息给某个网址所在的服务器,这个过程就叫做HTTP requests

比如你在上方的网址区输入网址,它就会给该网址所在的服务区发送HTTP Requests

(2)服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response.

比如你写出了某个网址,浏览器把请求上传到了那个网址的服务器中,服务器会传回给你一些HTML的代码,就构造了你想看到的网页

(3)浏览器收到服务器的Response信息后, 会对信息进行相应处理,然后展示

------------Requests中包含什么?-------------

请求方式

GET: 单纯地从服务器里提取数据,请求的时候不带任何数据和参数。
POST: 发送的请求当中携带一些数据,就像登陆,你需要填账号密码。

请求URL

在发出的请求中,总会包含URL,这样才能知道请求到哪个服务器去,服务器也会根据你发的URL来给你提供相应的服务。

请求头

User-Agent: 用来标识请求是从哪里来的,如果是从浏览器发起的请求,User-Agent会标示浏览器的信息。如果是爬虫发起的请求,User-Agent会标识编程语言的名字。

Host: 主机

Cookies: 用来存储用户的信息,比如你登录就会存储登录的信息。下次要是再去请求目标网址,由于你cookies里已经有登录的信息,就不用再去登陆。

请求体

存储发出请求时需要额外携带的数据。因为他是存储携带数据,所以当get请求的时候,请求体是空的。

------------Response中包含什么?------------

响应状态

200 代表 成功
301 代表 网址被移到其他地,要跳转
404 代表 找不到页面
502 代表 服务器错误
当我们向服务器发起请求的时候,第一件事就是要判断响应状态

响应头

它里面有内容类型,内容长度,还会帮我们设置cookie值

响应体

我们向网址发起请求时,希望得到网址背后的数据,就是包含在响应体当中。
有HTML的框架呀,有图片呀,或者还有视频。

例子:

一般来说每个浏览器都会有一些检查工具,就比如我是chrome浏览器,只要在你想要检查的页面右键就可以了。

Elements选项卡

Elements选项卡里面包含的是此网页的HTML代码文档右边跟着的styles是它的样式表。我们看到的那些网页都是HTML代码结合它的样式表呈现出来的。不懂也没关系,待会儿会讲
如果我想知道某个数据存在的位置,选项卡的左上角就会出现这样一个标志。

点开它,你的鼠标指到哪里,那里的代码就会显现给你

零基础Python爬虫教程和实战(一)相关推荐

  1. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  2. python经典教程_零基础 Python爬虫经典实战教程

    最近Python爬虫比较火,看到网上分享源码的比较多,很少有教程帖子,为了帮助新人和对爬虫比较感兴趣的朋友,所以想到写一些比较详细教程帖子!大家共同学习! 下载工具,安装对应系统的版本,下面以wind ...

  3. 小孩儿都能学会的零基础Python学习教程

    本套python学习路线从零开始,让你⼀步步掌握Python开发的各项相关技能,最终达到企业对Python开发.后端开发.爬⾍开发.数据分析等职位的要求. 内容很全面,从python基础知识到最后的项 ...

  4. 零基础python爬虫_零基础写python爬虫之爬虫编写全记录

    先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html 查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是 ...

  5. 零基础python嵌入式开发_零基础Python入门教程

    第01课 python基础之python介绍 课时1python的职业方向和工资 试听 00 : 15 : 54 开始学习 课时2环境的安装 试听 00 : 14 : 16 开始学习 课时3基础班课程 ...

  6. python爬电影_零基础Python爬虫实现(爬取最新电影排行)

    原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...

  7. 零基础python爬虫基础之王者荣耀图片下载(超级简单)

    requests与PyQuery requests 请求获取数据 PyQuery PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像 ...

  8. 零基础python机器学习笔记--代码实战第二天数据分析

    首先读取数据 #读取红酒数据 target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-qua ...

  9. python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

最新文章

  1. Python爬虫,利用scrapy来编写一个爬虫
  2. 清华大学大数据研究中心2020年RONG奖学金答辩会成功举办
  3. 文件操作:在某手诗文中插入一句话
  4. jvm类加载机制是怎么样的
  5. c++设置一个二维字符组初值_C语言 | 统计一段话中的字符
  6. 推荐一些C#相关的网站、资源和书籍
  7. Matlab Tricks(二十八)—— 笛卡尔积的实现
  8. 高并发下的HashMap
  9. 【CF1107G】Vasya and Maximum Profit(单调栈/单调栈+线段树最大子段和)
  10. 移动通信网络规划:机房设计
  11. 刘氏广传公家族七公子巨波公后裔V0.2
  12. 计算机主板的安装过程,电脑主板安装四大步骤全程讲解
  13. C语言:重命名文件(rename()函数)
  14. 求两圆相交的交点的方法
  15. 本地用户和组 无法访问计算机 无效的语法,找不到Windows NT用户或组“DOMAIN \ USER”?...
  16. HP pavilion g4笔记本详细拆机图解
  17. 知识付费平台排行榜,贩卖焦虑到底有多赚钱?
  18. linux centos 后台 启动 运行 nohup 经常跟的>/dev/null 2>1是什么意思
  19. 【历史上的今天】1 月 3 日:苹果公司正式注册成立;英特尔创始人诞生
  20. 小尺寸android 手机推荐,2021小屏手机不知道怎么买?三款小屏手机推荐

热门文章

  1. understand 教程
  2. CTex学习笔记之插入图片篇
  3. 全球及中国稀土磁性材料行业运行格局及未来前景趋势预测报告2021-2027年版
  4. [附源码]java毕业设计教师教学评价系统
  5. 设计分享|单片机抢答器(汇编)
  6. 使用mmap映射来读写文件
  7. Linux文件系统以及VFS
  8. 【PAT】1093. Count PAT's (25)【模拟题】
  9. win11更改网络适配器
  10. 目标检测YOLO系列总结