|
等 级:资深长老 |
经 验 值:14536 |
魅 力 值:9289 |
龙 币:19892 |
积 分:16426.5 |
注册日期:2003-03-19 |
|
|
|
这是一个世界难题
多语种的处理问题是一个世界性软件难题。曾有跨国企业提出并实施了用UNICODE解决,但同样遇到了麻烦。众所周知,UNICODE同时有两套内码处理标准,即UTF8和UCF2,但由于内码预留的空间不够,以及当时对第三世界国家的不重视,致使UNICODE几乎无法妥善解决诸如汉语、韩国语等亚洲双字节语种。
就用汉语举一个例子。
汉语有两套内码,即大陆施行的GB2312和台港澳以及东南亚各国所使用的BIG5,那么是不是解决好了这两套内码,就算解决了汉字处理问题呢?答案是否定的。几十年来,大陆的汉字历经几个阶段,比如解放初期的繁体字、1960年前后开始的简体字、1978年-1981年之间的华国峰简化字、当前的标准汉字,这些都是要用一套GB2312处理的;而BIG5的处理则更为复杂,同样的繁体字,香港、台湾的乃至东南亚诸国的竟然略有差异,都存在充满个性的数百个汉字上,因此,一套BIG5同样并不能很好地识别和处理繁体字。
汉语尚且如此,何况我们所不熟悉甚至根本不了解其他国家、民族的文字!
目前,包括机器翻译、搜索引擎、数据库等IT企业用了折中的办法:启用UTF8粗略地解决问题,技术解决不了的情况就在后台用人工干预,一点点矫正。在没有一个比UNICODE更好的方案出来之前,眼下也只得如此了。
|
|
|
|