unicode转utf8

场景:

1.有些字符串编码是unicode的，但是第3方库需要的是utf8字符串，这时候就需要unicode转utf8的接口了。

//unicodeתutf8
#include <iostream>
#include <fstream>using namespace std;#define MAX_LENGTH 1024int UniCharToUTF8(wchar_t UniChar, char* OutUTFString)
{int UTF8CharLength = 0;if (UniChar < 0x80){ if ( OutUTFString )OutUTFString[UTF8CharLength++] = (char)UniChar;elseUTF8CharLength++;}else if(UniChar < 0x800){if ( OutUTFString ){OutUTFString[UTF8CharLength++] = 0xc0 | ( UniChar >> 6 );OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );}else{UTF8CharLength += 2;}}else if(UniChar < 0x10000 ){if ( OutUTFString ){OutUTFString[UTF8CharLength++] = 0xe0 | ( UniChar >> 12 );OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 6) & 0x3f );OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );}else{UTF8CharLength += 3;}}else if( UniChar < 0x200000 ){if ( OutUTFString ){OutUTFString[UTF8CharLength++] = 0xf0 | ( (int)UniChar >> 18 );OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 12) & 0x3f );OutUTFString[UTF8CharLength++] = 0x80 | ( (UniChar >> 6) & 0x3f );OutUTFString[UTF8CharLength++] = 0x80 | ( UniChar & 0x3f );}else{UTF8CharLength += 4;}}return UTF8CharLength;
}void main()
{FILE* pFile=fopen("E:/project/11111/Debug/11.txt","r");fseek(pFile, 2, SEEK_SET);long int file_length = 0;int index = 1;char* pBuf;pBuf = (char*)calloc(1, MAX_LENGTH);char* curr_buf;wchar_t w_ch=fgetwc(pFile);while(!feof(pFile)){   if(file_length + 6 > index * MAX_LENGTH){index++;realloc(pBuf, index * MAX_LENGTH);}curr_buf = pBuf + file_length;file_length += UniCharToUTF8(w_ch, curr_buf);printf("%s", curr_buf);w_ch=fgetwc(pFile);   }pBuf[file_length] = '\0';fclose(pFile);getchar();
}

unicode转utf8相关推荐

C++中Ansi、Unicode、UTF8字符串之间的转换和写入
转自: http://dark0729.blogbus.com/logs/51496111.html Ansi字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个\0结尾,常用于txt文本文件 Un ...
Unicode 和 UTF-8关系
unicode 就是 "与存储无关的表示",utf-8 就是 "二进制表示".一句话,utf8是对unicode字符集进行编码的一种编码方式,utf8是给uni ...
三种字符编码：ASCII、Unicode和UTF-8
原文:三种字符编码:ASCII.Unicode和UTF-8 什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字 ...
分析Unicode和UTF-8
首先说明一下现在常用的一些编码方案: 1.在中国,大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的. 最早制定的汉字编码是GB2312,包括6763个汉 ...
unicode,ansi,utf-8,unicode big endian编码的区别
为什么80%的码农都做不了架构师?>>> 随便说说字符集和编码快下班时,爱问问题的小朋友Nico又问了一个问题: "sqlserver里面有char和nchar,那 ...
Unicode和UTF-8的关系
Unicode和UTF-8的关系 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种 ...
Unicode 和 UTF-8 有何区别？
Unicode符号范围 (一个字符两个字节) | UTF-8编码方式 (十六进制) | (二进制) ---------------------– 这儿有四个字节从-----00 00 ...
[转]各种编码ANSI、GB2312、GBK、GB18030、UNICODE以及UTF-8傻傻分不清！
计算机编程中的编码一直是让新手非常头疼的问题,特别是 GBK.GB2312.UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚,看一遍貌似懂了,但实际使用的时候又 ...
字符编码的发展（ASCII、Unicode、utf-8）
最近一直在看廖雪峰老师的python网上教程,python内容简单易理解,就没整理,但是字符串编码作为一直困扰自己的问题,看了几遍文章,最终还是将其整理如下,本篇博客总结自廖雪峰老师的网上教程:htt ...
字符编码笔记：ASCII，Unicode和UTF-8
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...

unicode转utf8

unicode转utf8相关推荐

最新文章

热门文章