基本知识

计算机只能处理数字，所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式。

ASCII码 ：英文字符和二进制数字之间的关系。一个符号为一个字节(byte)，一个字节是8位（bit）,所以总体共可以组合为2的8次方也就是256种状态。对于英文字符是足够表示了，然而对于汉字和其他国家256个符号时不够的。
gb2312 : 中文字符和二进制数字之间的对应关系。一个符号为两个字节，共16位，可以表示256*256个汉字。
Shift_JIS : 日文和二进制数字之间对应的关系。
Unicode : 不同国家的编码方式使得同一个二进制数字对应不同的字符，在多语言的文本中很有可能出现乱码。为了使得各国语言能够顺利进行文本转化与处理，有人发明了Unicode编码方式。Unicode被称为统一码，它为每个国家的符号都提供了唯一的二进制数字的对应关系。
UTF-8 : Unicode为了表示各种字符，所以占有字符的空间比较大。比如说ASCII码为一个字节，而Unicode通常是两个字节，这时候表示ASCII码时就会出现一个字节的空间浪费现象,所设计了节省空间的一些中间格式的字符集，被称为通用转换格式UTF（Unicode Transformation Format），UTF-8就是这种节省空间长度可变的格式。

爬取网页遇到的中文乱码

如下图所示，网页的内容时乱码的，不能识别

可能原因：
(1).网页采用GB2312的方式编码
查看网页源代码的头部，如果是如下图charset=geb2312的方式编码，则说明是中文乱码的原因。

解决办法：
获得内容后，将内容进行重新编码，使用Python爬虫进行爬取时，解决的具体代码是：

#已知网页的url和headers,使用requests获取网页
r = requests.get(url, headers=headers)
#对网页进行gb2312解码
r.encoding('gb2312')
print(r.text)

（2）网页进行了gzip压缩
进行网页查看的时候，网页头部是正常的，不是因为gb2312的编码原因，如下图所示，这是网页可能是因为使用了gzip方式压缩了。

解决方法：对网页解压缩，解压缩的方式如下：

#已知网页的url和headers,使用requests获取网页
r =requests.get(url, headers=headers)
#进行解码
content = r.content.decode('UTF-8')
print(content.text)

解决后的结果如图所示

爬取网页中文乱码的问题相关推荐

爬取html数据中文乱码,解决PHP中file_get_contents抓取网页中文乱码问题
根据网上有朋友介绍说原因可能是服务器开了GZIP压缩. 下面是用firebug查看我的博客的头信息,Gzip是开了的. 请求头信息原始头信息代码如下复制代码 Accept text/html,ap ...
Python3爬取网页信息乱码怎么解决？（更新：已解决）
更新:乱码问题已经解决了. 将下面代码中的红色部分改为下面这样就不会出现个别职位信息乱码的情况了. soup2 = BeautifulSoup(wbdata2, 'html.parser',from_ ...
python爬取内容乱码_python爬取html中文乱码
环境: python3.6 爬取代码: import requests url = 'https://www.dygod.net/html/tv/hytv/' req = requests.get(u ...
python爬取html中文乱码
环境: python3.6 爬取网址:https://www.dygod.net/html/tv/hytv/ 爬取代码: import requestsurl = 'https://www.dygod ...
python爬取网页有乱码怎么解决_Python爬取网页requests乱码
**之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据: 不知道是不是网站对网页内容进行了加密, ...
python爬取网页有乱码怎么解决_python - 爬虫获取网站数据，出现乱码怎么解决。...
问题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...
网页爬虫 python-python爬虫——爬取网页的中文
# 爬取网页的中文内容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlr ...
python爬虫——爬取网页的中文
# 爬取网页的中文内容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlr ...
Java两种方式简单实现：爬取网页并且保存
注:如果代码中有冗余,错误或者不规范,欢迎指正. Java简单实现:爬取网页并且保存对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错 ...

爬取网页中文乱码的问题

基本知识

爬取网页遇到的中文乱码

爬取网页中文乱码的问题相关推荐

最新文章

热门文章