Python网页爬虫之中文乱码
Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。
首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~
# -*- coding: utf-8 -*-import urllib2
import re
import requests
import sysimport urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a
最后输出效果,中文完美输出
转载于:https://www.cnblogs.com/Toring/p/6628274.html
Python网页爬虫之中文乱码相关推荐
- python网页爬虫-Python网页爬虫
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
- Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱 - 数客
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...
- Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 2015-04-27 程序猿 程序猿 来自:我爱自然语言处理,www.52nlp. ...
- python网页爬虫+简单的数据分析
python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...
- python写入csv文件中文乱码解决方案
python写入csv文件中文乱码解决方案 参考文章: (1)python写入csv文件中文乱码解决方案 (2)https://www.cnblogs.com/vsivn/p/6115537.html ...
- python -m json.tool 中文乱码 Format JSON with python
python -m json.tool 中文乱码 Format JSON with python 现在以 json 为数据传输格式的 RESTful 接口非常流行.为调试这样的接口,一个常用的办法是使 ...
- python网页爬虫-python网页爬虫浅析
Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. ...
- python2中文输出代码_解决vscode python print 输出窗口中文乱码的问题
解决vscode python print 输出窗口中文乱码的问题 发布时间:2020-09-17 23:53:25 来源:脚本之家 阅读:119 一.搭建 python 环境 在 VSC 中点击 F ...
- 网页端显示中文乱码问题
1.问题描述 网页端显示中文乱码. 2.问题原因 网页端默认的编码格式不能显示中文汉字,需要指定编码格式去解析. 3.解决办法 使用meta标签设置字符编码:<meta charset=&quo ...
- Python爬虫——爬取网页时出现中文乱码问题
网页字符乱码处理 一.查看原网页编码的方式 1.首先呢,咱来说说如何在网页中查看编码方式,以爱奇艺为例,爱奇艺进入爱奇艺网页页面,鼠标 "右击–>检查–>点击Console ...
最新文章
- 关于ASP.NET MVC的一些工作中遇到的问题
- 一个常用的表单文本框input输入提示
- python学习笔记(12)--程序设计方法学
- 混合高斯模型_高斯混合模型(GMM)
- java 5 新特性 for_java5 新特性
- 在5分钟内在MacOSX Lion中设置JAVA_HOME,MAVEN_HOME,ANT_HOME
- 小学生图片_中秋节手抄报,小学生中秋节手抄报图片大全
- POJ1204 Word Puzzles
- 解决修改sources.list之后update NO_PUBKEY错误
- Nginx 默认的日志类型
- 防火墙虚拟系统互访配置实例
- linux 内核参数解释整理
- 6月8日 论文书写——公式
- 美食杂志排行榜_百度知道
- linux 查看mysql安装目录_Linux中安装Mysql
- win7下的的IVF2011+VS2010以及OpenMPI的安装与配置
- 时钟转盘html源代码
- 多媒体数据处理实验1:算术编码
- Wowza流媒体Live直播和VOD点播配置实战
- 干掉 Jenkins?顶级 DevOps 工具链大盘点