【转】刨根究底字符编码之一——关键术语解释(上)

时间 2021-05-29 标签 #刨根究底字符编码

声明：本系列文章参考了网上的大量资料，除了少部分资料由于未作大量修改(但基本也有少量修改，因为网上文章随意性较大，如若不改反而让人迷糊)而标明了出处之外，其余由于已作了大量改写，因此没有再一一说明，在此对原作者表示歉意并感谢。另外，文中图片部分来自网络，部分为本人制作，也不再一一说明。同时，文中若有错漏，还请直接招呼板砖，不用客气。

关键术语解释(上)

一、位

位，即比特(Bit)，亦称二进制位、比特位、位元，指二进制数中的一位，是计算机中信息表示的最小单位。

Bit是Binary digit（二进制数位）的缩写，由数学家John Wilder Tukey提出，习惯上以小写字母b表示，如8比特可表示为8b。

每个比特有0和1两个可能的值，除了代表数值本身之外，还可代表：

数值的正、负；
两种状态，如电灯的开、关，某根导线上电流的有、无，等等；
抽象逻辑上的是、否，或者说真、假。

二、字节

在计算机中，通常都会使用一连串的位(即比特)，称之为位串(即比特串，bit string)。很显然，计算机系统都不会让你使用任意长度的位串，而是使用某个特定长度的位串。

一些常见的位串长度形式具有约定好的名称，如，半字节(nibble)代表四个位的组合，字节(byte)代表8个位的组合；还有字(word)、双字(Double word，简写为Dword)、四字(Quad word，简写为Qword)、十字节(Ten byte，简写为Tbyte)等等。

字节(byte)，又称为位元组，音译为“拜特”(但很少使用这个译名)，是计算机中计量存储容量和传输容量的一种基本计量单位，是由连续的、固定数量的位(即比特)所组成的位串(即比特串)，一般由8个位组成，即1 byte = 8 bit。习惯上用大写的B表示，如3字节可表示为3B。

现代个人计算机(PC)的存储器编址，一般是以字节为单位的，称之为按字节编址，因此字节一般也是存储器的最小存取单位以及处理器的最小寻址单位（也有按位寻址、按字寻址等等，但在个人计算机上应用不普遍，这里不讨论）。

字节作为存储器的最小存取单位以及处理器的最小寻址单位这一重要特点，跟字符编码的关系极为密切，比如，码元的单字节与多字节、字节序的大端序与小端序等，都与以字节为基础的基本数据类型密切相关(详见后文介绍）。

习惯上，按照下面的图来排列一个字节上的各个位的顺序，即按照从右到左的顺序，依次为最低位(第0位)到最高位(第7位)：

注意，字节不一定非得是8位，以前也有过4位、6位、7位、12位或18位作为一个字节的标准，比如IBM 701（36位字长，18位为一字节）、IBM 702（7位字长，7位为一字节）、CDC 6600（60位字长，12位为一字节byte）等。只是现代计算机的事实标准就是用8位来代表一个字节（最终形成这一事实标准除了历史原因和商业原因之外，最重要的原因应该是由于二进制的特性：2的次方计算更方便快捷）。

正是因为这个原因，在很多较为严谨的技术规格文献中，为了避免产生歧义，更倾向于使用8位组(Octet)而不是字节(Byte)这个术语来强调8比特串。

不过，由于大众基本上都将字节理解为8比特的8位组，因此一般文章中如果未作特别说明，基本上都将8位组直接称之为字节，或者说，字节一般指的是8位组。

三、字与字长

虽然字节是大多数现代计算机的最小存储单位和传输单位，但并不代表它是计算机可以最高效地处理的数据单位。

一般来说，计算机可以最高效地处理的数据大小，应该与其字的字长相同，这就涉及到了字及字长的概念。

字：在计算机中，一串比特位(即位串、比特串)是作为一个整体来处理或运算的，这串比特位称为一个计算机字，简称字。字通常分为若干个字节。
字长：即字的长度，是指计算机的每个字所包含的位数。字长决定了CPU一次操作所处理的实际比特位数量的多少。字长由CPU对外数据通路的数据总线宽度决定。

计算机处理数据的速率，显然和它一次能加工的位数以及进行运算的快慢有关。如果一台计算机的字长是另一台计算机的两倍，若两台计算机的速度相同，在相同的时间内，前者能做的工作一般是后者的两倍。因此，字长与计算机的功能和用途有很大的关系，是计算机的一个重要技术指标。

在目前来讲，桌面平台的处理器字长正处于从32位向64位过渡的时期，嵌入式设备基本稳定在32位，而在某些专业领域（如高端显卡），处理器字长早已经达到了64位乃至更多的128位

四、编码

编码(Encode)，是信息从一种形式转换为另一种形式的过程，比如用预先规定的方法将字符(文字、数字、符号等)、图像、声音或其它对象转换成规定的电脉冲信号或二进制数字。

五、解码

解码(Decode)，为编码的逆过程。

六、字符集

字符集(Character Set、Charset)，字面上的理解就是字符的集合，是一个自然语言文字系统支持的所有字符的集合。字符是各种文字和符号的总称，包括文字、数字、字母、音节、标点符号、图形符号等。

例如ASCII字符集，定义了128个字符；GB2312字符集定义了7445个字符。而字符集准确地来说，指的是已编号的字符的有序集合(但不一定是连续的，后文有详细介绍)。

常见字符集有ASCII字符集、ISO 8859系列字符集(ISO 8859-1~8859-16)、GB系列字符集(GB2312、GBK、GB18030)、BIG5字符集、Unicode字符集等。

注：图中所示微软在GB2312的基础上扩展制订了GBK(Guo-Biao Kuozhan)，然后GBK才成为“国家标准”(也有说GBK不是国家标准，只是“技术规范指导性文件”)；但网上也有资料说是先有GBK(由全国信息技术标准化技术委员会1995年12月1日制订)，然后微软才在其内部所用的CP936代码页中以GBK为基础进行了扩展，亦即Windows系统中的CP936代码页实际上是GBK编码方案的一个实现(本人更倾向于这后一种说法)。

七、字符编码

字符编码(Character Encoding)，是把字符集中的字符按一定方式编码为某指定集合中的某一对象的过程(比如将字符编码为由0和1两个数字所组成的位串模式、由0~9十个数字所组成的自然数序列或电脉冲等)，亦即在字符集与指定集合两者之间建立一个对应关系(即映射关系)的过程。这是信息处理的一项基础技术。

因此，通常以字符集来定义字符，以计算机为基础的信息处理系统则利用电子元件(即硬件)的不同状态的组合来表示、存储和处理字符。

电子元件的不同状态(一般为断开和闭合两种状态)的组合能代表数字系统中的数字(比如断开和闭合代表二进制中的0和1)，因此字符编码的过程也就可以理解为将字符转换映射为计算机可以接受的二进制数字的过程，这样才便于字符在计算机中表示、存储、处理和传输(包括在网络中传输)。

常见的例子是将常用的拉丁字母表编码成摩斯电码和ASCII码。其中，ASCII将字母、数字和其它符号进行编号，并且在计算机中直接用7比特的二进制数字来表示这个编号。通常会额外地在最高位(即首位)再增加一个扩充的比特位“0”，以便于计算机系统刚好以1个字节(8比特位)的方式来进行处理、存储和传输。

八、字符编码模型

字符编码模型(Character Encoding Model)，是反映字符编码系统的结构特点和各构成部分相互关系的模型框架。

由于历史的原因，早期一般认为字符集和字符编码是同义词，并不需要进行严格区分。因此在像ASCII这样的简单字符集为代表的传统字符编码模型中，这两个概念的含义几乎是等同的。

因为在传统字符编码模型中，基本上都是将字符集里的字符进行编号(字符编号转化为二进制数后一般不超过一个字节)，然后该字符编号就是字符的编码。

但是，由统一码(Unicode)和通用字符集(UCS)为代表的现代字符编码模型则没有直接采用ASCII这样的简单字符集的编码思路，而是采用了一个全新的编码思路。

这个全新的编码思路将字符集与字符编码的概念更为细致地分解为了以下几个方面：

有哪些字符；
这些字符的编号是什么；
这些编号如何编码成一系列逻辑层面有限大小的数字，即码元序列；
这些逻辑层面的码元序列如何转换为(即映射为)物理层面的字节序列(即字节流)；
在某些特殊的传输环境中(比如Email中)，再进一步将字节序列进行适应性编码处理。

这几个方面作为一个整体，于是构成了现代字符编码模型。

现代字符编码模型之所以要分解为这么几个方面，其核心思想是创建一个能够用不同方式来编码的通用字符集。注意这里的关键词：“不同方式”与“通用”。

这意味着，同一个字符集，可以通用于不同的编码方式；也就是说，可以采用不同的编码方式来对同一个字符集进行编码。字符集与编码方式之间的关系可以是一对多的关系。

更进一步而言，在传统字符编码模型中，字符编码方式与字符集是紧密结合在一起的；而在现代字符编码模型中，字符编码方式与字符集脱钩了。用软件工程的专业术语来说，就是将之前紧密耦合在一起的字符编码方式与字符集解耦了。

因此，为了正确地表示这个现代字符编码模型，需要采用更多比“字符集”和“字符编码”更为精确的概念术语来描述。

在Unicode Technical Report (UTR统一码技术报告) #17《UNICODE CHARACTER ENCODING MODEL》中，现代字符编码模型分为了5个层次，并引入了更多的概念术语来描述（下面所涉及到的一些全新的概念术语，这里只做简介，更详细的解释见后文）：

第1层抽象字符表ACR(Abstract Character Repertoire)：明确字符的范围(即确定支持哪些字符)
第2层编号字符集CCS(Coded Character Set)：用数字编号表示字符(即用数字给抽象字符表ACR中的字符进行编号)
第3层字符编码方式CEF(Character Encoding Form)：将字符编号编码为逻辑上的码元序列(即逻辑字符编码)
第4层字符编码模式CES(Character Encoding Scheme)：将逻辑上的码元序列映射为物理上的字节序列(即物理字符编码)
第5层传输编码语法TES(Transfer Encoding Syntax)：将字节序列作进一步的适应性编码处理

后面将分层予以简要介绍。