爬虫之HTTP基础知识
基础知识
HTTP = HyperText Transfer Protocol
URI = Uniform Resource Identifier
URL = Uniform Resource Locator
URL解释
完整的URL由这几个部分构成:scheme://host:port/path?query#hash:
scheme:通信协议,常用的有http、https、ftp、mailto等。
host:主机域名或IP地址。
port:端口号,可选。省略时使用协议的默认端口,如http默认端口为80。
path:路径由零或多个”/”符号隔开的字符串组成,一般用来表示主机上的一个目录或文件地址。
query:查询,可选。用于传递参数,可有多个参数,用”&”符号隔开,每个参数的名和值用”=”符号隔开。
hash:信息片断字符串,也称为锚点。用于指定网络资源中的片断。
URL例子
比如URL如下,https://www.baidu.com/index.html?id=1&page=1#name1
用javascript获得其中的各个部分如下:
window.location.href:整个URl字符串,返回值:”https://www.baidu.com/index.html?id=1&page=1#name1“。
window.location.protocol:协议部分,返回值:”https:”。
window.location.host:主机部分。返回值:”www.baidu.com”。
window.location.port:端口部分。如果采用了协议默认的端口,则返回空字符。本例返回值:”“。
window.location.pathname:路径部分。返回值:”/index.html”。
window.location.search:查询(参数)部分。返回值:”?id=1&page=1”。
window.location.hash:锚点。返回值:”#name1”。
常用请求类型
GET: 向特定资源发出请求
POST: 向指定资源提交数据进行处理请求
post请求起始就是form的表单,这里一定要注意form的action属性的连接是多少,传入参数的页面是action指向的页面,而不是form本身所在的页面。
请求报头
Header | 解释 | 示例 |
---|---|---|
Host | 主机和端口号 | |
Connection | 连接类型 | Connection:keep-alive 为默认值,如果server不支持keep-alive则返回Connection:close |
Accept | 指定客户端能够接收的内容类型 | Accept: text/plain(接受纯文本形式), text/html(接收html标签),*/*(所有的都接收) |
Referer | 页面跳转处,就是这个链接是来自于哪个页面,根据这个防盗链 | |
Accept-Charset | 浏览器可以接受的字符编码集。 | Accept-Charset: iso-8859-5 |
Accept-Encoding | 指定浏览器可以支持的web服务器返回内容压缩编码类型。 | Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0 (q表示前面编码的权重,更倾向于用哪种编码解析) |
Accept-Language | 浏览器可接受的语言 | Accept-Language: en,zh |
Cookie | HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。 | Cookie: $Version=1; Skin=new; |
Content-Type | post请求里用来表示内容的类型 | |
User-Agent | User-Agent的内容包含发出请求的用户信息 | User-Agent: Mozilla/5.0 (Linux; X11) |
Upgrade-Insecure-Requests: 1 | 告诉服务器,浏览器可以处理https协议 |
服务器响应状态
状态 | 说明 |
---|---|
1xx | 指示信息–表示请求已接收,继续处理 |
2xx | 成功–表示请求已被成功接收、理解、接受 |
3xx | 重定向–要完成请求必须进行更进一步的操作 |
4xx | 客户端错误–请求有语法错误或请求无法实现 |
5xx | 服务器端错误–服务器未能实现合法的请求 |
常见的状态
状态 | 说明 |
---|---|
200 OK | 客户端请求成功 |
400 Bad Request | 客户端请求有语法错误,不能被服务器所理解 |
401 Unauthorized | 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 |
403 Forbidden | 服务器收到请求,但是拒绝提供服务 |
404 Not Found | 请求资源不存在,eg:输入了错误的URL |
500 Internal Server Error | 服务器发生不可预期的错误 |
503 Server Unavailable | 服务器当前不能处理客户端的请求,一段时间后可能恢复正常 |
参考文献:
http://www.cnblogs.com/li0803/archive/2008/11/03/1324746.html
http://blog.csdn.net/jingcheng345413/article/details/55258996
爬虫之HTTP基础知识相关推荐
- python爬虫入门基础知识_【PYTHON】【爬虫】关于python爬虫的一些基础知识
基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...
- python爬虫需要哪些基础知识-【PYTHON】【爬虫】关于python爬虫的一些基础知识
基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...
- Python网络爬虫-原理及基础知识
爬虫步骤 1.获取网页,使用urllib,requests等第三方库构造HTTP请求 2.提取信息,使用正则表达式或者Beautifulsoup,pyquery,lxml等工具分析网页源码,提取所需要 ...
- 图像滤波基础知识:图像与波的关系以及图像噪声知识
☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython ░ 一.引言 老猿对图像处理基础知识非常缺乏,所以OpenCV-Python的学习进度很慢 ...
- java 网络爬虫 正则表达式_【干货】Java网络爬虫基础知识
原标题:[干货]Java网络爬虫基础知识 引言 Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分.例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 ...
- python基础知识整理-python爬虫基础知识点整理
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫 ...
- 第三十六期:学 Java 网络爬虫,需要哪些基础知识?
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
- python爬虫数据可视化_python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
- HTTP基础知识(仅介绍涉及R语言爬虫部分)
说明:本文参照Simon Munzert著&吴今朝译的<基于R语言的自动数据收集>一书,进行个人二次整合而成,如有侵权,告知后删. 同步转载至个人公众号:R语言学习 同步转载至个人 ...
最新文章
- 240个jquery插件
- 和为s的连续正数序列
- 那些年,SDN走过来时的路
- 如果算力足够根本不需要标注太多数据
- python:sort,sorted,argsort,lexsort
- java公平索非公平锁_java中的非公平锁不怕有的线程一直得不到执行吗
- react 父子传值_React父子组件间的传值
- LeetCode 201. 数字范围按位与
- Establishing SSL connection without server's ident
- 网站安全之存储型跨站脚本编制
- python 调用matlab 数据类型问题
- 关于U盘免疫的一些自我认识
- Kubernetes 学习总结(24)—— Kubernetes 滚动更新、蓝绿发布、金丝雀发布等发布策略详解
- 简单说 通过CSS实现 文字渐变色 的两种方式
- Web用户控件开发--分页控件
- 临门一脚 | 技术水平一般的程序员如何准备面试
- 德国奇葩经历之护照丢失
- opencv之棋盘格检测
- MSSQL 数据库邮件配置
- pitch yaw roll方向
热门文章
- 天正坐标标注显示不全_广联达导入CAD图纸不显示怎么办?
- 帮写python代码_10个工具,帮你写出更好的Python代码
- 1000道Python题库系列分享20(43道填空与判断题)
- 鲁大师检测内存条_外观漂亮,做工精致,潜力巨大、十铨(Team)8GB×2 3200Mhz台式机内存条 火神系列 评测...
- PAT: gets’ was not declared in this scope gets(s)
- java file.length 单位_Java.io.File.length()返回0
- if name==main是什么意思_VLOOKUP反向查找中的IF({1,0}是什么意思?
- nodejs cluster_NodeJS下好用的Redis客户端ioredis,再推荐一个Redis可视化工具
- python中index方法详解_详解python中的index函数用法
- shll脚本带参数输入给导出的数据库文件命名以及创造路径