欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ANSI和Unicode中的汉字编码 (转)

程序员文章站 2022-07-11 23:48:39
...

ANSI:汉字区的内码范围高字节从B0-F7,低字节从A1-FE
Unicode:汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字了.

GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

Unicode 汉字内码的汉字区为4E00-9FA5, 共有20902个汉字

BIG5 是*计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE,其中 0xA140-0xA17E、0xA1A1-0xA1FE 是图形符号区,0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。

 

概况

1993年,Unicode 1.1版本推出,收录了*、*、日本及韩国通用字符集的汉字,总共有20,902个。

*订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面”。

由于GB 2312-80只收录了6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理*的“镕”字),*及香港使用的繁体字,日语及朝鲜语汉字等,并未有 收录在内。中文电脑开发商,于是利用了GB 2312-80未有使用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。

根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936字码表 (Code Page 936)的扩展(原来的CP936和GB 2312-80一模一样),最初出现于Windows 95简体中文版中,由于Windows产品的流行和在大陆广泛被使用,*国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国 家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。

*国家标准总局于2000年推出了GB 18030-2000标准,以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。

 

 

unicode码的分布情况

*******************************************************
0000..007F;   Basic   Latin
0080..00FF;   Latin-1   Supplement
0100..017F;   Latin   Extended-A
0180..024F;   Latin   Extended-B
0250..02AF;   IPA   Extensions
02B0..02FF;   Spacing   Modifier   Letters
0300..036F;   Combining   Diacritical   Marks
0370..03FF;   Greek
0400..04FF;   Cyrillic
0530..058F;   Armenian
0590..05FF;   Hebrew
0600..06FF;   Arabic
0700..074F;   Syriac    
0780..07BF;   Thaana
0900..097F;   Devanagari
0980..09FF;   Bengali
0A00..0A7F;   Gurmukhi
0A80..0AFF;   Gujarati
0B00..0B7F;   Oriya
0B80..0BFF;   Tamil
0C00..0C7F;   Telugu
0C80..0CFF;   Kannada
0D00..0D7F;   Malayalam
0D80..0DFF;   Sinhala
0E00..0E7F;   Thai
0E80..0EFF;   Lao
0F00..0FFF;   *
1000..109F;   Myanmar  
10A0..10FF;   Georgian
1100..11FF;   Hangul   Jamo
1200..137F;   Ethiopic
13A0..13FF;   Cherokee
1400..167F;   Unified   Canadian   Aboriginal   Syllabics
1680..169F;   Ogham
16A0..16FF;   Runic
1780..17FF;   Khmer
1800..18AF;   *n
1E00..1EFF;   Latin   Extended   Additional
1F00..1FFF;   Greek   Extended
2000..206F;   General   Punctuation
2070..209F;   Superscripts   and   Subscripts
20A0..20CF;   Currency   Symbols
20D0..20FF;   Combining   Marks   for   Symbols
2100..214F;   Letterlike   Symbols
2150..218F;   Number   Forms
2190..21FF;   Arrows
2200..22FF;   Mathematical   Operators
2300..23FF;   Miscellaneous   Technical
2400..243F;   Control   Pictures
2440..245F;   Optical   Character   Recognition
2460..24FF;   Enclosed   Alphanumerics
2500..257F;   Box   Drawing
2580..259F;   Block   Elements
25A0..25FF;   Geometric   Shapes
2600..26FF;   Miscellaneous   Symbols
2700..27BF;   Dingbats
2800..28FF;   Braille   Patterns
2E80..2EFF;   CJK   Radicals   Supplement
2F00..2FDF;   Kangxi   Radicals
2FF0..2FFF;   Ideographic   Description   Characters
3000..303F;   CJK   Symbols   and   Punctuation
3040..309F;   Hiragana
30A0..30FF;   Katakana
3100..312F;   Bopomofo
3130..318F;   Hangul   Compatibility   Jamo
3190..319F;   Kanbun
31A0..31BF;   Bopomofo   Extended
3200..32FF;   Enclosed   CJK   Letters   and   Months
3300..33FF;   CJK   Compatibility
3400..4DB5;   CJK   Unified   Ideographs   Extension   A
4E00..9FFF;   CJK   Unified   Ideographs
A000..A48F;   Yi   Syllables
A490..A4CF;   Yi   Radicals
AC00..D7A3;   Hangul   Syllables
D800..DB7F;   High   Surrogates
DB80..DBFF;   High   Private   Use   Surrogates
DC00..DFFF;   Low   Surrogates
E000..F8FF;   Private   Use
F900..FAFF;   CJK   Compatibility   Ideographs
FB00..FB4F;   Alphabetic   Presentation   Forms
FB50..FDFF;   Arabic   Presentation   Forms-A
FE20..FE2F;   Combining   Half   Marks
FE30..FE4F;   CJK   Compatibility   Forms
FE50..FE6F;   Small   Form   Variants
FE70..FEFE;   Arabic   Presentation   Forms-B
FEFF..FEFF;   Specials
FF00..FFEF;   Halfwidth   and   Fullwidth   Forms
FFF0..FFFD;   Specials
10300..1032F;   Old   Italic
10330..1034F;   Gothic
10400..1044F;   Deseret
1D000..1D0FF;   Byzantine   Musical   Symbols
1D100..1D1FF;   Musical   Symbols
1D400..1D7FF;   Mathematical   Alphanumeric   Symbols
20000..2A6D6;   CJK   Unified   Ideographs   Extension   B
2F800..2FA1F;   CJK   Compatibility   Ideographs   Supplement
E0000..E007F;   Tags
F0000..FFFFD;   Private   Use
100000..10FFFD;   Private   Use

相关标签: Windows