内容为个人学习心得,不能对准确性做过多保证,错误之处还望指点。

有时候我们会遇到一些\u开头的字符串,例如\u4f60\u597d,我们知道这些是Unicode码,一段\uxxxx字符串对应了一个Unicode字符。那这些编码字符的实际二进制存储格式是怎样呢?

我们知道Unicode编码可以呈现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8

)下,单字符的存储长度为1-4字节(可变),这种设计的由来和优点就不多讲了,这里主要说说看到的u编码串和二进制的换算方式。

在UTF-8编码格式的java代码下,对“测试”两个字打印其字节和字符结果如下:

System.out.println(Charset.defaultCharset());

String s = "测试";

System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));

byte[] bs = s.getBytes();

System.out.println(Arrays.toString(bs));

/*Result:

UTF-8

6d4b 8bd5

[-26, -75, -117, -24, -81, -107] */

观察结果可知,“测试”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格式,即得到“测试”两字的二进制存储内容,为:

11100110 10110101 10001011 11101000 10101111 10010101

而通过char.ToHexString得到的 6d4b 8bd5 是这两个字的Unicode编码

这两者是怎么关联上的呢?

通过UTF-8的百科页面有如下介绍:

UTF-8编码字节含义

对于UTF-8编码中的任意字节B,如果B的第一位为0,则B独立的表示一个字符(ASCII码);

如果B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);

如果B的前两位为1,第三位为0,则B为两个字节表示的字符中的第一个字节;

如果B的前三位为1,第四位为0,则B为三个字节表示的字符中的第一个字节;

如果B的前四位为1,第五位为0,则B为四个字节表示的字符中的第一个字节;

因此,对于上面得到的二进制串,每8位中的前面部分都是用来做标记的,1110开头表明需要3个字节来描述当前字符,并且当前字节为3字节中的第一部分,后面的字节使用10开头表明自己是当前字符编码串的后面部分。

把前三字节这些标记为去掉再合并,得到 0110 110101 001011,而“测”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。

这样做的优点很明显,扩展方便(看起来能支持到8字节编码呢),编码结构去掉了二进制的标记位,减小体积更易于数据传输。1字节的UTF-8码还完整兼容了ASCII码,所以UTF-8可以说应该是大部分场景下的最优选择了。

java 二进制转ascii码_Unicode码的二进制转换(Java)相关推荐

  1. java摩斯密码解密_[代码全屏查看]-摩斯密码转换-JAVA版

    [1].[代码] [Java]代码 import java.util.HashMap; import java.util.Map; import org.apache.commons.lang3.St ...

  2. python ascii函数二进制_python模块介绍- binascii:二进制和ASCII互转以及其他进制转换...

    20.1 binascii:二进制和ASCII互转 作用:二进制和ASCII互相转换. Python版本:1.5及以后版本 binascii模块包含很多在二进制和ASCII编码的二进制表示转换的方法. ...

  3. Java中文与ASCII码的转换

    今天在研究Java中编码的时候,看到了Java中ascii码的强大.写了一个CoderUtils.java,以后会扩展它. package com.xingxd.study.test; import ...

  4. 二进制转化成ascll_微机原理实验-二进制到ASCII码转换

    广州大学学生实验报告 开课学院及实验室:实验中心 电子信息楼 2013 年 11 月 4 日 学 院 机电 年级.专 业.班 姓名 学号 实验课程名称 微机原理实验 成绩 实验项目名称 二进制到 AS ...

  5. bcd转ascii码 流程图_BCD码转换成二进制和ASCII码

    首先得知道什么是BCD码,可以看下百度,基本定义已经讲清楚了,百度链接:BCD码--百度百科:这里要说的也是最常用的一种BCD码:8421码.本文规定若没有特殊说明时,各个数值只会是十进制数.二进制数 ...

  6. java字符与ASCII码相互转换

    java字符与ASCII码相互转换 一 .遍历字符串 二. java 字符 转换 ASCII码 三. java ASCII码 转换 字符 字符串: String s ="abcdefg&qu ...

  7. 【Java 虚拟机原理】Class 字节码二进制文件分析 二 ( 常量池位置 | 常量池结构 | tag | info[] | 完整分析字节码文件中的常量池二进制数据 )

    文章目录 前言 一.常量池结构分析 1.常量池位置 2.常量池结构 3.常量池单个常量 4.常量池单个常量 tag 标签 二.常量池字节码文件分析 0.常量池附加信息 1.常量池 #1 常量分析 2. ...

  8. javabean反射改字段内容_BAT程序员编写:深入理解 Java 反射和动态代理源码分析...

    什么是反射 反射(Reflection)是 Java 程序开发语言的特征之一,它允许运行中的 Java 程序获取自身的信息,并且可以操作类或对象的内部属性. 通过反射机制,可以在运行时访问 Java ...

  9. 【Java 虚拟机原理】动态字节码技术 | Dalvik ART 虚拟机 | Android 字节码打包过程

    文章目录 一.动态字节码技术 二.Dalvik & ART 虚拟机 三.Android 字节码打包过程 总结 一.动态字节码技术 动态字节码技术 就是在 运行时 , 动态修改 Class 字节 ...

最新文章

  1. 关于jsp和eclipse服务器端的相关配置和JS的区别
  2. 【实战教程】NLP-Beginner:自然语言处理入门练习
  3. Docker+mysql
  4. ftok file php,Linux和PHP中的ftok函数返回值不一致问题跟踪
  5. 图着色问题贪心算法c语言,区间图着色问题(贪心算法)C++实现
  6. 在LINQ to SQL中使用Translate方法以及修改查询用SQL
  7. SQL Server常用的系统存储过程应用实例(转)
  8. 战神笔记本电脑自带access吗_笔记本电脑卡顿不要急着换,这几个方法,让你的电脑流畅爆表...
  9. wapper打成linux服务,Wrapper配置详解及高级应用(转)
  10. 树形数据深度排序处理示例(模拟单编号法).sql
  11. python generator转为list_Python中的 List Comprehension 以及 Generator
  12. 心理平衡其实就这么简单
  13. Unity 制作艺术字 BMFont
  14. 使用shell脚本删除rabbitMq的exchange
  15. Word跨文件使用格式刷
  16. KM小鼠大脑海马区生理切片HE染色
  17. Camera2 开发问题记录
  18. 【雅虎2017】一个在线展示广告的CVR预估框架实践
  19. [ERROR] Please refer to XXXXXXXXXXX for the individual test result
  20. Xposed 探索之Hook 驾考宝典

热门文章

  1. 施工员简历英语计算机水平,技术施工员英文简历范文
  2. 可折叠列表ExpandableList
  3. ExpandableList三级扩展
  4. 2021-06-28剑指offer26.树的子结构
  5. A Comprehensive Overhaul of Feature Distillation
  6. php 图片视频模糊处理,视频画面模糊处理 如何将视频画面中的某个片段变模糊?...
  7. kali kda安装 linux_LinuxIDC.com论坛邀请码1枚(8月21日)
  8. 从单片机开发转向Linux开发系列博客五:Nand Flash根文件系统制作
  9. linux .pc文件make,简单的驱动makefile详解
  10. 路由重定向redirect的基本使用