{WEB标准}教你制作GBK与Unicode的对照表

文章类别：div+css布局 | 发表日期:2008-9-26 11:53:26

前段时间，在所参与的项目中碰到了一个unicode与gb之间转码失败的问题，一些不常用汉字的编码都被转成了“??”，这些汉字没有显示出来，于是自己对相关的问题做了一些研究并最终使问题得以解决。现在就结合前面两篇的unicode与GB方面的基本原理，介绍这种制作GBK-Unicode编码对照表的方法。

　　Java的字符串String类功能强大，不但能进行一些基本的字符串操作，还可以根据需要构造指定字符集的字符串，本文所介绍的方法正是利了这一点，这种方法的基本思路是：

　　1、遍历GBK编码表中的所有汉字，使用该字的GB编码构造一个字符串。GBK编码表中各部分的汉字分块比较整洁，很轻易遍历。

　　2、使用getBytes()方法取得该字符的字节数组，由于Java是用unicode来表示字符的，所以此汉字的unicode就在其中。

　　以下是一段示例代码：

以下是引用片段：
{
int count = 0;
for(int segIndex=0xb0; segIndex<=0xf7; segIndex ) {
for(int charIndex=0xa1; charIndex<=0xfe; charIndex ) {
byte gbkBytes = new byte {(byte)(segIndex), (byte)charIndex};
byte unicodeBytes;
String str = new String(gbkBytes,\"GBK\");

unicodeBytes = str.getBytes(\"unicode\");
if(unicodeBytes.length == 4) {
count ;
String buffer = \"\";
for (int i=0;i<gbkBytes.length;i )
buffer = (int)(0x00ff&gbkBytes[i]) \" \";
for (int i=3;i>1;i--)
buffer = (int)(0x00ff&unicodeBytes[i]) \" \";
buffer = \" \";
osw.write(buffer);
}

}
}
}

　　这一段是对GBK/2区的汉字进行遍历并处理的代码，GBK/2区的首字节范围在[0xb0,0xf7]，尾字节范围在[0xa1,0xfe]，在构造字符串时使用的字符集为GBK：

以下是引用片段：
String str = new String(gbkBytes,\"GBK\");

　　在使用getBytes()取得的字节数组中会有四个元素，前两个不知是做什么用的，可能与字符串本身的结构有关，接下来的两个字节才是真正的unicode码。但这两个字节是倒序的，要从最后一个字节开始取，之所以这样是与big_endian和little_endian有关的，这里不多说。

　　当每一次内层循环结束时，buffer字符串中前两个数字就是一个GB码，后面两个数字就是一个unicode码，把它写到文件中就行了。

　　这样的文件得到之后，再在另外的程序中载入文件，把Unicode值装入数组，以GB码为索引，就可以很方便地由GB码查得Unicode码

Windows操作 [文]	Word教程 [文]	Excel教程 [文]	PowerPoint [文]	Dreamweaver [文]	Fireworks [文]
Flash教程 [文]	PhotoShop [文]	CorelDraw [文]	C语言教程 [文]	Html教程 [文]	Div+Css布局 [文]
Javascript [文]	ACCESS数据库 [文]	ASP教程 [文]	SQLServer [文]	ASP.NET教程 [文]	FlashAS [文]

Word教程网	Excel教程网	Dreamweaver 教程网	Fireworks教程网	PPT教程网	FLASH教程网	PS教程网
HTML教程网	DIV CSS教程网	FLASH AS教程网	ACCESS教程网	SQL SERVER教程网	C语言教程网	JAVASCRIPT教程网
ASP教程网	ASP.NET教程网	CorelDraw教程网