字符编码是怎么回事?
在计算机中我们所处理的字符信息,即文本信息(包括数字、字母、文字、标点符号等)是以一种特定编码格式来定义的。为了使世界各国的文本信息能够通用,就需要对字符编码做标准化。
我们现在最常用也最基本的字符编码系统是 ASCII 码(American Standard Code for Information Interchange,美国信息交换标准码)。ASCII 码定义每个字符仅占一个字节,可表示阿拉伯数字 0~9、26 个大小写英文字母,以及我们现在在标准键盘上能看到的所有标点符号、一些控制字符(比如换行、回车、换页、振铃等)。
ASCII 码最高位是奇偶校验位,用于通信校验,所以真正有编码意义的是低 7 个比特,因此只能用于表示 128 个字符(值从 0~127)。由于 ASCII 是美国国家标准,所以后来国际化标准组织将它进行国际标准化,定义为了 ISO/IEC 646 标准。两者所定义的内容是等价的。
ISO/IEC 646 对于英文系国家而言是基本够用了,但是对于拉丁语系、希腊等国家来说就不够用了。所以后来 ISO 组织就把原先 ISO/IEC 646 所定义字符的最高位也用上了,这样就又能增加 128 个不同的字符,发布了 ISO/IEC 8859 标准。
然而,欧洲大陆虽小,但国家却有数百个,128 种扩展字符仍然不够用。因此后来就在 8859 的基础上,引入了 8859-n,n 从 1~16,每一种都支持了一定数量的不同的字母,这样基本能满足欧美国家的文字表示需求。
当然,有些国家之间仍然需要切换编码格式,比如 ISO/IEC8859-1 的语言环境看 8859-2 的就可能显示乱码,所以,还得切换到 8859-2 的字符编码格式下才能正常显示。
而在中国大陆,我们自己也定义了一套用于显示简体中文的字符集——GB2312。它在 1981 年 5 月 1 日开始实施,是中国国家标准的简体中文字符集,全称为《信息交换用汉字编码字符集·基本集》。
GB2312 收录了 6763 个汉字,包括拉丁字母、希腊字母、日语假名、俄语和蒙古语用的西里尔字母在内的 682 个全角字符。
然后又出现了 GBK 字符集,GBK 1.0 收录了 21886 个符号,其中汉字就包含了 21003 个。GBK 字符集主要扩展了繁体中文字。
由于像 GB2312 与 GBK 能表示成千上万种字符,因此这已经远超 1 个字节所能表示的范围。它们所采用的是动态变长字节编码,并且与 ASCII 码兼容。
- 如果表示 ASCII 码部分,那么仅 1 个字节即可,并且该字节最高位为 0。
- 如果要表示汉字等扩展字符,那么头 1 个字节的最高位为 1,然后再增加一个字节(即用两个字节)进行表示。
所以,理论上,除了第 1 个字节的最高位不能动之外,其余比特都能表示具体的字符信息,因而最多可表示27 + 215 = 32896种字符。
当然,正由于 GB2312 与 GBK 主要用于亚洲国家,所以当欧美国家的人看到这些字符信息时显示的是乱码,他们必须切换到相应的汉字编码环境下看才能看到正确的文本信息。为了能真正将全球各国语言进行互换通信,出现了 Unicode(Universal Character Set,UCS)标准。它对应于编码标准 ISO/IEC 10646。
Unicode 前后也出现了多个版本。早先的 UCS-2 采用固定的双字节编码方式,理论上可表示 216 = 65536 种字符,因此极大地涵盖了各种语言的文字符号。
不过后来,标准委员会意识到,对于像希伯来字母、拉丁字母等压根就不需要用两个字节表示,而且定长的双字节表示与原有的 ASCII 码又不兼容,因此后来出现了现在用得更多的 UTF-8 编码标准。
UTF-8 属于变长的编码方式,它最少可用 1 个字节表示 1 个字符,最多用 4 个字节表示 1 个字符,判别依据就是看第 1 个字节的最高位有多少个 1。
- 如果第 1 个字节的最高位是 0,那么该字符用 1 个字节表示;
- 最高 3 位是 110,那么用 2 个字节表示;
- 最高 4 位是 1110,那么用 3 个字节表示;
- 最高位是 11110,那么该字符由 4 个字节来表示。
所以 UTF-8 现在大量用于网络通信的字符编码格式,包括大多数网页用的默认字符编码也都是 UTF-8 编码。
尽管 UTF-8 更为灵活,而且也与 ASCII 码完全兼容,但不利于程序解析。所以现在很多编程语言的编译器以及运行时库用得更多的是 UTF-16 编码来处理源代码解析以及各类文本解析,它与之前的 UCS-2 编码完全兼容,但也是变长编码方式,可用双字节或四字节来表示一个字符。
如果用双字节表示 UTF-16 编码的话,范围从0x0000到0xD7FF,以及从0xE000到0xFFFF。这里留出0xD800到0xDFFF,不作为具体字符的编码表示,而是用于四字节编码时的编码替换。当UTF-16表示0x10000到0x10FFFF之间的字符时,先将该范围内的值减去0x10000,使得结果落在0x00000到0xFFFFF范围内。然后将结果划分为高10位与低10位两组。将低10位的值与0xDC00相加,获得低16位;高10位与0xD800相加,获得高16位。比如,一个Unicode定义的码点(code point)为0x10437的字符,用UTF-16编码表示的步骤如下。
1)先将它减去0x10000——0x10437-0x10000=0x0437。
2)将该结果分为低10位与高10位,0x0437用20位二进制表示为00000000010000110111,因此高10位是0000000001=0x01;低10位则是0000110111,即0x037。
3)将高10位与0xD800相加,得到0xD801;将低10位与0xDC00相加,获得0xDC37。因此最终UTF-16编码为0xD801DC37。
我们看到,尽管UTF-16也是变长编码表示,但是仅低16位就能表示很多字符符号,况且即便要表示更广范围的字符,也只是第二种四字节的表示方法,这远比UTF-8四种不同的编码方式要简洁很多。因此,UTF-16用在很多编程语言运行时系统字符编码的场合比较多。像现在的Java、Objective-C等编程语言环境内部系统所表示的字符都是UTF-16编码方式。
另外,现在还有UTF-32编码方式,这一开始也是Unicode标准搞出来的UCS-4标准,它与UCS-2一样,是定长编码方式,但每个字符用固定的4字节来表示。不过现在此格式用得很少,而且HTML5标准组织也公开声明开发者应当尽量避免在页面中使用UTF-32编码格式,因为在HTML5规范中所描述的编码侦测算法,故意不对它与UTF-16编码做区分。