Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-import urllib2
import re
import requests
import sysimport urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

转载于:https://www.cnblogs.com/Toring/p/6628274.html

Python网页爬虫之中文乱码相关推荐

  1. python网页爬虫-Python网页爬虫

    曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...

  2. Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱 - 数客

    曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选 ...

  3. Python 网页爬虫 文本处理 科学计算 机器学习 数据挖掘兵器谱

    Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 2015-04-27 程序猿 程序猿 来自:我爱自然语言处理,www.52nlp. ...

  4. python网页爬虫+简单的数据分析

    python网页爬虫+简单的数据分析 文章目录 python网页爬虫+简单的数据分析 一.数据爬取 二.数据分析 1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是 ...

  5. python写入csv文件中文乱码解决方案

    python写入csv文件中文乱码解决方案 参考文章: (1)python写入csv文件中文乱码解决方案 (2)https://www.cnblogs.com/vsivn/p/6115537.html ...

  6. python -m json.tool 中文乱码 Format JSON with python

    python -m json.tool 中文乱码 Format JSON with python 现在以 json 为数据传输格式的 RESTful 接口非常流行.为调试这样的接口,一个常用的办法是使 ...

  7. python网页爬虫-python网页爬虫浅析

    Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. ...

  8. python2中文输出代码_解决vscode python print 输出窗口中文乱码的问题

    解决vscode python print 输出窗口中文乱码的问题 发布时间:2020-09-17 23:53:25 来源:脚本之家 阅读:119 一.搭建 python 环境 在 VSC 中点击 F ...

  9. 网页端显示中文乱码问题

    1.问题描述 网页端显示中文乱码. 2.问题原因 网页端默认的编码格式不能显示中文汉字,需要指定编码格式去解析. 3.解决办法 使用meta标签设置字符编码:<meta charset=&quo ...

  10. Python爬虫——爬取网页时出现中文乱码问题

    网页字符乱码处理 一.查看原网页编码的方式 1.首先呢,咱来说说如何在网页中查看编码方式,以爱奇艺为例,爱奇艺进入爱奇艺网页页面,鼠标    "右击–>检查–>点击Console ...

最新文章

  1. 关于ASP.NET MVC的一些工作中遇到的问题
  2. 一个常用的表单文本框input输入提示
  3. python学习笔记(12)--程序设计方法学
  4. 混合高斯模型_高斯混合模型(GMM)
  5. java 5 新特性 for_java5 新特性
  6. 在5分钟内在MacOSX Lion中设置JAVA_HOME,MAVEN_HOME,ANT_HOME
  7. 小学生图片_中秋节手抄报,小学生中秋节手抄报图片大全
  8. POJ1204 Word Puzzles
  9. 解决修改sources.list之后update NO_PUBKEY错误
  10. Nginx 默认的日志类型
  11. 防火墙虚拟系统互访配置实例
  12. linux 内核参数解释整理
  13. 6月8日 论文书写——公式
  14. 美食杂志排行榜_百度知道
  15. linux 查看mysql安装目录_Linux中安装Mysql
  16. win7下的的IVF2011+VS2010以及OpenMPI的安装与配置
  17. 时钟转盘html源代码
  18. 多媒体数据处理实验1:算术编码
  19. Wowza流媒体Live直播和VOD点播配置实战
  20. 干掉 Jenkins?顶级 DevOps 工具链大盘点

热门文章

  1. 5.4 机器翻译 数据集
  2. 19【13】DIN:深度兴趣网络
  3. HMM:隐马尔科夫模型 - 预测和解码
  4. POJ读书笔记2.1 —— 鸡兔同笼
  5. c语言如何在手机上运行程序,各位前辈这两个程序怎么在手机上运行
  6. Mysql记录历史执行的sql
  7. java检测栈溢出_java运行方法栈溢出
  8. centos rpm安装mysql5.6_CentOS 7下使用RPM安装MySQL 5.6
  9. LeetCode 973. K Closest Points to Origin
  10. STM32 USART 波特率计算