在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此8个二进制位就可以组合出256种状态,这就称为一个字节(byte)。也就是说,一个字节可以表示256种状态,每一个状态对应一个符号,就是256个符号,从00000000到111111。

• ASCII 码

上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。

ASCII码一共规定了128个字符的编码,比如空格"SPACE"是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

• 非ASCII编码

英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0--127表示的符号是一样的,不一样的只是128--255的这一段。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

• Unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

正如上一节所说,世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。

可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode统一码,就像它的名字都表示的,这是一种所有符号的编码。

• UTF-8

互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16(字符用两个字节或四个字节表示)和UTF-32(字符用四个字节表示),不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它对不同范围的字符使用不同长度的编码, 它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:

Unicode编码(十六进制)  UTF-8 字节流(二进制)

00000000 - 0000007F 0xxxxxxx

00000080 - 000007FF 110xxxxx 10xxxxxx

00000800 - 0000FFFF 1110xxxx 10xxxxxx10xxxxxx

00010000 - 001FFFFF 11110xxx 10xxxxxx10xxxxxx 10xxxxxx

00200000 - 03FFFFFF 111110xx 10xxxxxx10xxxxxx 10xxxxxx 10xxxxxx

04000000 - 7FFFFFFF 1111110x 10xxxxxx10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

举例:“汉”字的Unicode编码是0x6C49(16进制与10进制的对应关系是:0-9对应0-9;A-F对应10-15,1010 = 8 + 0 + 2 + 0 = 10 =A,以此类推1111 = 8 + 4 + 2+ 1 = 15 =F)。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:01101100 0100 1001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

• Little endian和Big endian

Unicode码可以采用UCS-2格式直接存储(UCS: 通用字符集(UniversalCharacter Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码;)。以汉字"严"为例,Unicode码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。

这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。

因此,第一个字节在前,就是"大头方式"(Big endian),第二个字节在前就是"小头方式"(Little endian)。那么很自然的,就会出现一个问题:计算机怎么知道某一个文件到底采用哪一种方式编码?

Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做"零宽度非换行空格"(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

最后介绍一下怎么转换编码方式:

在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击"文件"菜单中的"另存为"命令,会跳出一个对话框,在最底部有一个"编码"的下拉条。。打开"记事本"程序Notepad.exe,新建一个文本文件,内容就是一个"严"字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。

1)ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版)。

2)Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。

3)Unicode big endian编码与上一个选项相对应。

4)UTF-8编码,也就是上面谈到的编码方法。

计算机主要编码方式介绍相关推荐

  1. 数据在计算机中编码方式教案,字符数据在计算机中的表示方法

    计算机中数据的概念是广义的,计算机除了处理各种数之外,还要处理大量符号,如英文字母.汉字等非数值的信息.例如,当要用计算机编写文章时,就需要将文章中的各种符号.英文字母.汉字等输入计算机,然后由计算机 ...

  2. 【Python】python3编码方式encode介绍

    上一篇文章介绍了计算机编码发展历史和编码方式,现在我们聚焦到python语言中,在最新的Python3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言.例如: prin ...

  3. 计算机编码发展历史和编码方式

    编码是信息从一种形式或格式转换为另一种形式的过程,也称为计算机编程语言的代码简称编码. 用预先规定的方法将文字.数字或其它对象编成数码,或将信息.数据转换成规定的电脉冲信号. 编码在电子计算机.电视. ...

  4. 计算机编码方式详解(Unicode、UTF-8、UTF-16、ASCII)

    整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的"另存为",可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转 ...

  5. 计算机中数据的编码方式

    一.整数的表示 由于计算机只能识别二进制的0和1,在存储数据时就涉及到了对数据的编码问题,计算机中对整数的编码有两种不同的方式,分别为: 1. 只能表示非负数,此种类型数据称为无符号类型 即 unsi ...

  6. 计算机复位启动如何操作,详细介绍计算机的启动方式(冷启动、热启动、复位启动)、注销、待机...

    一:计算机的启动方式 ①冷启动,指计算机在没有加电的状态下初始加电,一般原则是,先开外设电源,后开主机电源,因为主机的运行需要非常稳定的电源,为了防止外设启动引起电源波动影响主机运行,应该先把外设电源 ...

  7. 浮点数在计算机中的编码方式

    在阅读<C++反汇编与逆向分析技术揭秘>一书中遇到了一个有趣的问题,摘出来跟大家分享下. 浮点数编码转换采用的是IEEE规定的编码标准,float和double这两种类型数据的转换原理相同 ...

  8. 【转】刨根究底字符编码之十一——UTF-8编码方式与字节序标记BOM

    一.UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式:UTF-8.UTF-16.UTF-32.这里先介绍应用最为广泛的UTF-8. 为满足基于ASCII.面向字节的字符处理 ...

  9. 【转】刨根究底字符编码之十——Unicode字符集的字符编码方式

    一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大(并且作为开放字符集还在不断扩展之中),有些字符的编号(即码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两 ...

最新文章

  1. MongoDB给数据库创建用户
  2. nginx如何开启debug日志及相关配置
  3. Java中弹出对话框的方法
  4. 视觉研究的前世今生(上)王天珍(武汉理工大学)
  5. 12-1 12 防盗链 访问控制 php解析 代理
  6. 保护个人信息需出“重典”
  7. Windows小工具广告弹窗杀手+源码
  8. linux-压缩与解压缩
  9. Win03+IIS6 部署.NetFramework4(ASP.NET4)的一点小经验
  10. Redhat Enterprise Linux 5系统引导故障解决方法
  11. 保留正常工作的环境,等自己的搞好后再替换
  12. 收看IT播吧吉米老师iptables讲座
  13. HT6221发送红外HS0038解码程序
  14. python解决约瑟夫问题
  15. PCF8591 A/D转换模块
  16. 学生成长画像系统前端的一些感悟和知识积累
  17. 计算机组成原理之MIPS汇编:冒泡排序
  18. socket接口调用 java_Java中socket接口调用(示例代码)
  19. rw,rwd,rws是什么
  20. 对多项式求积分和微分

热门文章

  1. Java中关键字总结汇总
  2. 在树莓派上编译和使用OpenDDS
  3. php 实现店铺装修4
  4. FastDFS合并存储原理分析
  5. ffmpeg视频播放器专栏阅读说明
  6. 使用Spring boot开发一个接口 - TODO应用中新建一个TASK
  7. 广度搜索解决迷宫问题
  8. 【神秘海域】[动图] 结合题目-手把手带你剖析 “带环链表”
  9. Android 调用系统录音
  10. ofstream基本用法