G11N Program

编程入门 行业动态 更新时间:2024-10-22 21:40:06

<a href=https://www.elefans.com/category/jswz/34/1677827.html style=G11N Program"/>

G11N Program

i18n : internationalization 国际化
L10N : localization 本地化
g11n: globalization 全球化 = i18n + L10n


1. UNICODE的UTF编码规范的一部分

ANSI : 没有
UTF-8: EF BB BF
UTF-16:FF FE
UTF-16 Big endian : FE FF

for example: 文字内容为"测试1234",各种编码的文件格式为

ANSI:  B2 E2 CA D4 31 32 33 34
UTF-8: EF BB BF E6 B5 8B E8 AF 95 31 32 33 34
UTF-16: FF FE 4B 6D D5 8B 31 00 32 00 33 00 34 00
UTF-16 Big endian : FE FF 6D 4B 8B D5 00 31 00 32 00 33 00 34

2. wprintf
Q : sizeof(wchar_t) = ?
A : 随编译器不同。(所以:在需要跨平台的时候尽量不用wchar_t) vc : sizeof(wchar_t) = 2;

Q: 在vc中,为什么直接使用wprintf(L"测试1234")会没有结果
A: 没有设置好locale,这样做

setlocale(LC_ALL , " chs " );
wprintf(L " %s " ,L " 测试1234 " );
或者(假设当前活动codepage为chs)
char  scp[ 16 ];
int  cp  =  GetACP();
sprintf(scp, " .%d " ,cp);
setlocale( LC_ALL, scp );
wprintf(L " 测试1234 " );


3 . wcout
一样,不过设定locale,请用std::locale

    locale loc( " chs " );
    wcout.imbue(loc);
    wcout  <<  L " 测试1234 "   <<  endl;


(关于wprintf 请参考: .html)

1. printf 只能提供ANSI/MB 的输出,不支持输出unicode stream.
例如:
wchar_t test[] = L " 测试1234 " ;
printf( " %s " ,test); 是不会正确输出的


2.wprintf 同样不会提供unicode output,
   但是他会把wchar_t的string转为locale的SB/MB字符编码,然后输出
例如:
wchar_t test[]  =  L " 测试Test " ;
wprintf(L " %s " ,test); 会输出??1234之类的字符串,或者不输出任何结果
因为wprintf没有办法把L"测试Test"转为默认的ANSI,需要设置locale
setlocale(LC_ALL, " chs " );
wchar_t test[]  =  L " 测试Test " ;
wprintf(L " %s " ,test); 会有正确的输出
等同于printf("%ls",test);

综上:  CRT I/O functions do not provide Unicode output.

3. Window console自从NT4就是一个真正的unicode console
不过输出unicode string,只有使用Windows API, WriteConsoleW
例如:
wchar_t test[]  =  L " 测试1234 " ;
DWORD ws;
WriteConsoleW(GetStdHandle(STD_OUTPUT_HANDLE),test,wcslen(test), & ws,NULL); 可以正确的输出而不需要设置locale,因为是真正的unicode的输出,跟codepage无关

4. 如何实现跨平台的console output
    不要使用wchar_t和wprintf,因为这些都依赖于编译器.
     ICU是IBM的一个成熟的跨平台支持unicode的libary,推荐使用

以下是ICU的uprintf实现

void  uprintf( const  UnicodeString  & str) {
     char   * buf  =   0 ;
    int32_t len  =  str.length();
    int32_t bufLen  =  len  +   16 ;
    int32_t actualLen;
    buf  =   new   char [bufLen  +   1 ];
    actualLen  =  str.extract( 0 , len, buf /* , bufLen */ );  //  Default codepage conversion
    buf[actualLen]  =   0 ;
    printf( " %s " , buf);
    delete buf;
} 它也是先把Unicode string转化为本地的codepage,然后printf,虽然也不是unicode output,但是跨平台,大多数情况会工作得很好。



 

 

更多推荐

G11N Program

本文发布于:2024-02-10 23:08:44,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1677826.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:G11N   Program

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!