C/C++ 编程中多国语言处理（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-13 13:46 | 只看该作者

C/C++ 编程中多国语言处理（1）

问题的提出多国语言的存在、不同语言操作系统的存在，使得针对多语言的设计颇费周章，在编码上所付出的工作量也是可观的。所谓编码的问题，归结起来，就是二进制的编码以何种编码格式进行解析的问题。特别是在硬盘文件和内存数据的相互转化、即读写过程中，如果采用了错误的编码格式，就会造成乱码。JAVA 语言在字符串、编码等处理方面给了程序员更为直接、方便的接口，习惯使用 JAVA 做编码的程序员，在使用 C/C++ 进行文本编码相关的操作时，常会感到困惑。本文的目的在于以常用的 Unicode（UCS-2）、GB2312、UTF8 三种编码为例，分析不同编码在实用中的关系，特别是 C/C++ 中，怎样处理各种编码的问题。
编码处理常见的问题

1. 将内存中编码 A 的字符串以编码 B 格式处理成字节流写入文件
2. 将原本以 A 编码组成的文件以字节流形式读入内存、并以编码 B 解析为字符串。

第一种情况，可能造成数据的变化、失真。
如果使用 JAVA 语言，发生这种错误的情况稍少一些，因为在 JAVA 中没有 wstring 这种概念，在内存中的 String，使用的编码都是 Unicode，其中的转换对于程序员来讲是透明的。只要使用输入 / 输出方法时注意字节流的字符集选择即可。
例如，编码为中文 GB2312 的“标准”字符串被读入内存后转存为 UTF8 的过程：
图 1. 文件转换编码的 JAVA 处理方式

但 C/C++ 编程，由于通常使用 char、string 类型的时候比较多，特别是进行文件读写，基本都是操作 char* 类型的数据。并且也没有像 JAVA 中 getByte(String charsetname) 这种函数，不能直接根据字符集重新编码得到字符串的 byte 数组。这时候，我们使用的 string 其实就一般不是 Unicode，而是符合某种编码表的。这使得我们往往困惑于 string 的编码问题。假设有 utf8 的字符串“一”(E4 B8 80)，而我们错误的认为它是符合 gb2312（编码 A）的，并将其转换为 utf8（编码 B），这种转换结果是破坏性的，错误的输出将永远无法正确识别。
依然以“标准”为例，这是一个正确的转换：
图 2. 文件转换编码的 C/C++ 处理方式

第二种情况，则是更常见到的。例如：浏览器浏览网页时的发生的乱码问题；在写 XML 文件时，指定了 < ?xml version="1.0" encoding="utf-8" ?> 然而文件中却包含 GB2312 的字符串——这样经常会导致 XML 文件 bad formatted，而使得解析器出错。
这种情况下，其实数据都是正确的，只要浏览器选择正确的编码，将 XML 文件中的 GB2312 转换为 UTF8 或者修改 encoding，就可以解决问题。
需要注意的是，ASCII 码的字符，即单字节字符，一般不受编码变动影响，在所有编码表中的值是一样的；需要小心处理的是多字节字符，例如中文语言。
编码转换方法一般的编码转换，直接做映射的不太可能，需要比较多的工作量，大多情况下还是选择 Unicode 作为转换的中介。
使用库函数如前文所说，JAVA 的 String 对象是以 Unicode 编码存在的，所以 JAVA 程序员主要关心的是读入时判断字节流的编码，从而确保可以正确的转化为 Unicode 编码；相比之下，C/C++ 将外部文件读出的数据存为字符数组、或者是 string 类型；而 wstring 才是符合 Unicode 编码的双字节数组。一般常用的方法是 C 标准库的 wcstombs、mbstowcs 函数，和 windows API 的 MultiByteToWideChar 与 WideCharToMultiByte 函数来完成向 Unicode 的转入和转出。
这里以 MBs2WCs 函数的实现说明 GB2312 向 Unicode 的转换的主要过程：
清单 1. 多字节字符串向宽字节字符串转换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

wchar_t * MBs2WCs(const char* pszSrc){
wchar_t* pwcs = NULL;
intsize = 0;
#ifdefined(_linux_)
      setlocale(LC_ALL, "zh_CN.GB2312");
      size = mbstowcs(NULL,pszSrc,0);
      pwcs = new wchar_t[size+1];
      size = mbstowcs(pwcs, pszSrc, size+1);
      pwcs[size] = 0;
#else
      size = MultiByteToWideChar(20936, 0, pszSrc, -1, 0, 0);
      if(size <= 0)
         returnNULL;
      pwcs = new wchar_t[size];
      MultiByteToWideChar(20936, 0, pszSrc, -1, pwcs, size);
#endif
returnpwcs;
}

相应的，WCs2MBs 可以将宽字符串转化为字节流。
清单 2. 宽字节字符串向多字节字符串转换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

char* WCs2MBs(const wchar_t * wcharStr){
char* str = NULL;
intsize = 0;
#ifdefined(_linux_)
      setlocale(LC_ALL, "zh_CN.UTF8");
      size = wcstombs( NULL, wcharStr, 0);
      str = new char[size + 1];
      wcstombs( str, wcharStr, size);
      str[size] = '\0';
#else
      size = WideCharToMultiByte( CP_UTF8, 0, wcharStr, -1, NULL, NULL, NULL, NULL );
      str = new char[size];
      WideCharToMultiByte( CP_UTF8, 0, wcharStr, -1, str, size, NULL, NULL );
#endif
returnstr;
}

Linux 的 setlocale 的具体使用可以参阅有 C/C++ 文档，它关系到文字、货币单位、时间等很多格式问题。Windows 相关的代码中 20936 和宏定义 CP_UTF8 是 GB2312 编码对应的的 Code Page[ 类似的 Code Page 参数可以从的 Encoding Class 有关信息中获得 ]。
这里需要特别指出的是 setlocale 的第二个参数，Linux 和 Windows 是不同的：

1. 笔者在 Eclipse CDT + MinGW 下使用 [country].[charset]（如 zh_CN.gb2312 或 zh_CN.UTF8）的格式并不能通过编码转换测试，但可以使用 Code Page，即可以写成 setlocale(LC_ALL, ".20936") 这样的代码。这说明，这个参数与编译器无关，而与系统定义有关，而不同操作系统对于已安装字符集的定义是不同的。
2. Linux 系统下可以参见 /usr/lib/locale/ 路径，系统所支持的 locale 都在这里。转换成 UTF8 时，并不需要 [country] 部分一定是 zh_CN，en_US.UTF8 也可以正常转换。

另外，标准 C 和 Win32 API 函数返回值是不同的，标准 C 返回的 wchar_t 数组或者是 char 数组都没有字符串结束符，需要手动赋值，所以 Linux 部分的代码要有区别对待。
最后，还要注意应当在调用这两个函数后释放分配的空间。如果将 MBs2WCs 和 WCs2MBs 的返回值分别转化为 wstring 和 string，就可以在它们函数体内做 delete，这里为了代码简明，故而省略，但请读者别忘记。
第三方库目前的第三方工具已经比较完善，这里介绍两个，本文侧重点不在此，不对其做太多探讨。

Linux 上存在第三方的 iconv 项目，使用也较为简单，其实质也是以 Unicode 作为转换的中介。可以参阅
ICU 是一个很完善的国际化工具。其中的 Code Page Conversion 功能也可以支持文本数据从任何字符集向 Unicode 的双向转换。可以访问其

收藏分享评分

回复引用

订阅 TOP

返回列表