《电子电脑》显示文章详细内容: [展开] [回复] [网址] [举报] [屏蔽]
胖墩儿
胖墩儿目前处于离线状态
等    级:资深长老
经 验 值:14536
魅 力 值:9289
龙    币:19892
积    分:16426.5
注册日期:2003-03-19
 
  查看胖墩儿个人资料   给胖墩儿发悄悄话   将胖墩儿加入好友   搜索胖墩儿所有发表过的文章   给胖墩儿发送电子邮件      

这是一个世界难题
 
 
 
多语种的处理问题是一个世界性软件难题。曾有跨国企业提出并实施了用UNICODE解决,但同样遇到了麻烦。众所周知,UNICODE同时有两套内码处理标准,即UTF8和UCF2,但由于内码预留的空间不够,以及当时对第三世界国家的不重视,致使UNICODE几乎无法妥善解决诸如汉语、韩国语等亚洲双字节语种。

就用汉语举一个例子。

汉语有两套内码,即大陆施行的GB2312和台港澳以及东南亚各国所使用的BIG5,那么是不是解决好了这两套内码,就算解决了汉字处理问题呢?答案是否定的。几十年来,大陆的汉字历经几个阶段,比如解放初期的繁体字、1960年前后开始的简体字、1978年-1981年之间的华国峰简化字、当前的标准汉字,这些都是要用一套GB2312处理的;而BIG5的处理则更为复杂,同样的繁体字,香港、台湾的乃至东南亚诸国的竟然略有差异,都存在充满个性的数百个汉字上,因此,一套BIG5同样并不能很好地识别和处理繁体字。

汉语尚且如此,何况我们所不熟悉甚至根本不了解其他国家、民族的文字!

目前,包括机器翻译、搜索引擎、数据库等IT企业用了折中的办法:启用UTF8粗略地解决问题,技术解决不了的情况就在后台用人工干预,一点点矫正。在没有一个比UNICODE更好的方案出来之前,眼下也只得如此了。
2006-10-31 15:20:30   此文章已经被查看346次   
 相关文章: [回复]  [顶端] 



  您必须登录论坛才可以发表文章:
 
用户名:   密码:   记住密码:    (忘记密码 注册




版权所有 回龙观社区网 经营许可证编号:京B2-20201639 昌公网安备1101140035号

举报电话:010-86468600-5 举报邮箱: