汉字的存储问题

时间 2019-11-12 标签汉字存储问题

今天在写分词程序中碰到了汉字的存储问题，特做标记以下：测试

汉字机内码在计算机的表达方式的描述是，使用二个字节，每一个字节最高位一位为1。计算机中，补码第一位是符号位 1表示为负数。因此汉字机内码的每一个字节表示的十进制数都是负数，统计输入字符串含有几个汉字，只须要求出字符串中小于0的字符有几个，将它除以2就获得答案操作系统

汉字在计算机里是用机内码表示，国家标准的汉字字符集在汉字操做系统中是以汉字库的形式提供的。汉字库规定，把字库分为94个区（区号），每一个区有94个汉字（位号），这就是所谓的区位码（区位码第一字节是区号，第二字节是位号，由于知道了区位码就等于知道了该汉字在字库中的位置）。每一个汉字在字库中是以点阵字模形式存储的，如通常采用1616点阵形式，这样就须要32个字节。在1616点阵里，存1的点在显示时为一个亮点，存0的点不显示，这样汉字就显示出来了。 0000001100000000 0000001100000000 0000001100000000 0000001100000010 1111111111111110 0000001100000000 0000001100000000 0000001100000000 0000001100000000 0000001110000000 0000011001000000 0000110000100000 0001100000010000 0001000000011000 0010000000001110 1100000000000100 这样当须要显示“大”这个汉字时，首先要把这个字模取出，而后逐位显示，1显示0不显示，屏幕上就会出现“大”这个汉字那么咱们怎么知道汉字的区位码呢？汉字的机内码和区位码的转换关系是(以"大"为例) 区号B4-A0 位号F3-A0 也就是说，把内码减去A0就是区位码，那么“大”这个汉字的区位码就出来了，是在14H区53H好，也就是第20区第83号。那么因为每一个区有94个汉字，“大”这个字应该就是在汉字库的第(20-1)*94+(83-1)个汉字位置（每一个汉字字模占32字节）code

例子测试以下：字符串

<!-- lang: cpp -->
int x = -96;
string m = "大";
int quma = int(m[0]) - x;
int weima = int(m[1]) - x;

因为十六进制0xa0不能表示负数，故直接用-96表示，程序输出结果是quma=20,weima=83string