Python爬虫获取网页编码格式

网页编码格式是每个网页规定的本页面文字的编码方式，其中比较流行的是ascii, gbk, utf-8, iso等。观察许多网页的编码格式都是在meta标签的content属性中定义的。基于以上特点本文提供获取编码格式的方法。
代码如下：

'''
注：本人使用的是IDLE python 3.7 64-bit，装载bs4库
'''
from urllib.request import urlopen
from bs4 import BeautifulSoup
import redef getCharsetList(url = None):#打开网页，创建BeautifulSoup对象newURL = urlopen(url)bsObj = BeautifulSoup(newURL, "html.parser")#首先查找属性中含有text/html的meta标签以缩小查找范围metaTagList = bsObj.findAll('meta', content = re.compile('text/html'))#定义一个存储编码格式的列表charsetList = []#之后从metaTagList列表中的各项查找其属性内容（用get()函数）for metaTag in metaTagList:attribution = metaTag.get('content')charData = str(attribution)position = charData.find('charset')charsetList.append(charData[(position + 8):].strip())return charsetList

下面是用百度作为url得到的编码方式（附上本人IDLE运行结果与代码截图）：

Python爬虫获取网页编码格式相关推荐

python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
Python爬虫--获取网页图片两步走：美女图片+王者荣耀皮肤
文章目录一.目标 1.实现当前页面的图片爬取: 2.实现二级网页下的图片爬取并分别存储二.实现截图二.代码 1.美女图片 2.王者荣耀皮肤指导博客(阿里嘎多!) 一.目标 1.实现当前页面的图 ...
Python爬虫获取网页源代码出现乱码
发现用python用requests在百度中获得的代码有乱码 import requests # 0.通过如下代码,会发现获取的网页源代码出现乱码 url = 'https://www.baidu.c ...
python爬虫获取网页源代码
import requests# 获取网页源代码 kv = {'user-agent':'Mozilla/5.0'} # 请求头信息,相当于一个浏览器面具 html = requests.get('h ...
Python爬虫 - 获取网页编码
前言:在我们做爬虫的时候会发现不同的网页会有不同的编码方式,但我们需要根据编码方式来获取数据,所以我们要先获取编码方式,为此我使用requests库解析当前页的编码方式. requests库是常用的网 ...
python爬虫获取网页的外链和内链（巨详细）
在开始之前,我们需要了解内链和外链到底是什么~ 内链:同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接) 外链:在自己的网站导入别人的网站(比如有些网站 ...
python爬虫获取url_Python爬虫如何获取页面内所有URL链接？本文详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
Python爬虫: 单网页所有静态网页动态网页爬取
Python爬虫: 单网页所有静态网页动态网页爬取前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

Python爬虫获取网页编码格式

Python爬虫获取网页编码格式

Python爬虫获取网页编码格式相关推荐

最新文章

热门文章