Python爬虫获取网页编码格式

网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等。观察许多网页的编码格式都是在meta标签的content属性中定义的。基于以上特点本文提供获取编码格式的方法。
代码如下:

'''
注:本人使用的是IDLE python 3.7 64-bit,装载bs4库
'''
from urllib.request import urlopen
from bs4 import BeautifulSoup
import redef getCharsetList(url = None):#打开网页,创建BeautifulSoup对象newURL = urlopen(url)bsObj = BeautifulSoup(newURL, "html.parser")#首先查找属性中含有text/html的meta标签以缩小查找范围metaTagList = bsObj.findAll('meta', content = re.compile('text/html'))#定义一个存储编码格式的列表charsetList = []#之后从metaTagList列表中的各项查找其属性内容(用get()函数)for metaTag in metaTagList:attribution = metaTag.get('content')charData = str(attribution)position = charData.find('charset')charsetList.append(charData[(position + 8):].strip())return charsetList

下面是用百度作为url得到的编码方式(附上本人IDLE运行结果与代码截图):


Python爬虫获取网页编码格式相关推荐

  1. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  2. Python爬虫--获取网页图片两步走:美女图片+王者荣耀皮肤

    文章目录 一.目标 1.实现当前页面的图片爬取: 2.实现二级网页下的图片爬取并分别存储 二.实现截图 二.代码 1.美女图片 2.王者荣耀皮肤 指导博客(阿里嘎多!) 一.目标 1.实现当前页面的图 ...

  3. Python爬虫获取网页源代码出现乱码

    发现用python用requests在百度中获得的代码有乱码 import requests # 0.通过如下代码,会发现获取的网页源代码出现乱码 url = 'https://www.baidu.c ...

  4. python爬虫 获取网页源代码

    import requests# 获取网页源代码 kv = {'user-agent':'Mozilla/5.0'} # 请求头信息,相当于一个浏览器面具 html = requests.get('h ...

  5. Python爬虫 - 获取网页编码

    前言:在我们做爬虫的时候会发现不同的网页会有不同的编码方式,但我们需要根据编码方式来获取数据,所以我们要先获取编码方式,为此我使用requests库解析当前页的编码方式. requests库是常用的网 ...

  6. python爬虫获取网页的外链和内链(巨详细)

    在开始之前,我们需要了解内链和外链到底是什么~ 内链:同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接) 外链:在自己的网站导入别人的网站(比如有些网站 ...

  7. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  8. python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  9. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

最新文章

  1. Android呼叫开发系列WebService
  2. js怎么获取访问页数记录(知道的能不能告诉我一下)
  3. 小工匠聊架构-布隆过滤器在亿级流量的电商系统中的应用
  4. netty接收大文件的方法
  5. 单双号限行,今天是否绿色出行
  6. Linux中进程正常退出return和exit()的区别
  7. linux -- 个人笔记
  8. Maximum Score After Splitting a String
  9. 梦幻西游新资源的提取一
  10. SCHNOKA施努卡:锂电池密封性焊接质量视觉检测
  11. 练习2-12 输出华氏-摄氏温度转换表
  12. swing的maven项目打成jar包
  13. NIO源码解析-FileChannel
  14. java 画笔粗细_Java初学记(四):一个简单的画图程序
  15. 文本文件与二进制文件区别 r 与 rb 方式 w 与 wb方式(windows)—————— 开开开山怪
  16. 终于去看了麦兜响当当
  17. matlab中如何画圆锥,使用Matlab画出圆台圆锥圆柱
  18. 深度学习目标检测 RCNN F-RCNN SPP yolo-v1 v2 v3 残差网络ResNet MobileNet SqueezeNet ShuffleNet
  19. 如何能让英语水平在一年半载内得到大幅提升?(备注下)
  20. layui-icon常用记录

热门文章

  1. 大数据回顾2017年网络购物APP:渗透率从63.5%增长至69.9%
  2. 如果 有的明星不会使用计算机,2018 年下半年【幼儿】教师资格考试 综合素质押题卷(一)...
  3. 学计算机笔记本屏幕多大,现在笔记本电脑显示屏的主流尺寸是多大?
  4. numpy.logical_and()函数的使用
  5. 奇异值分解(SVD)原理详解
  6. HDU1716-全排列
  7. 乐视云盘也关了,还有什么网盘可用?
  8. u大师u盘装系统win7_什么是u盘启动装系统 u盘启动装系统方法【介绍】
  9. JAVA 模拟post 表单提交
  10. Chrome扩展程序(插件),用你开发的脚本在浏览器上随心所欲