吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

計算機編碼全解析(下)

jf_78858299 ? 來源:小余的自習室 ? 作者:小余的自習室 ? 2023-03-30 10:29 ? 次閱讀

7.Unicode、UCS

以上的編碼都是本地化編碼, 一國之內還沒有問題,但是要跨國,就不行了 。比如漢字,在只有ISO-8859系列字符集的電腦上顯示就只能是亂碼了,要顯示漢字,電腦上必須裝GB2312或GBK的字符集。有沒有一個字符集,能夠包含全球所有的字符呢?這就是Unicode和UCS

1988年,Joe Becker 發布了一個草案,提出了“Unicode”的概念,他解釋說“‘Unicode’是一種唯一的、統一的、全球的編碼”。后來,RLG、Sun、Microsoft、NeXT(喬布斯被趕出蘋果后創建的公司)的人也都逐漸加入到Unicode工作組里。1991年1月3日,Unicode聯盟組織成立,同年發布了Unicode1.0.

同時,ISO組織也在做同樣的事情,創造一個全球統一的字符集(Universal Coded Character Set,簡稱UCS),1993年發布了標準ISO 10646-1。

后來,兩個組織認識到,世界不需要兩個不兼容的字符集,于是,開始合作。從Unicode2.0開始,開始采用和UCS相同的字庫和字碼。這樣,兩個項目仍都存在,并獨立地公布各自的標準。但雙方都同意保持兩者標準的碼表兼容,并緊密地共同調整任何未來的擴展。所以,現在說到UCS字符集,跟Unicode可以看成一回事。

Unicode編碼包含兩個層次:第一層定義字符的數值和第二層 定義數值的實現方式 。Unicode用數字 0x0~0x10FFFF 表示所有字符,所以最多可以容納 1114112 個字符。 數值的編碼方式,也就是實現方式包括 UTF-8,UTF-16,UTF-32 三種

有人會說,Unicode不是兩個字節表示字符的碼?為什么數值可以到0x10FFFF,這不21位,兩個半字節還多了嗎?其實,這是混淆了Unicode的數值定義和實現,這根本就是兩個概念,Unicode到底用幾個字節表示,取決于其實現方式是UTF-8,UTF-16,還是UTF-32.

比如,“漢字”對應的Unicode值是0x6c49和0x5b57,而編碼實現是:

char data_utf8[]= {0xE6,0xB1,0x89,0xE5,0xAD,0x97}; //UTF-8編碼 char16_t data_utf16[]= {0x6C49,0x5B57}; //UTF-16編碼 char32_t data_utf32[]= {0x00006C49,0x00005B57}; //UTF-32編碼

UTF-8

UTF,全稱“Unicode Transformation Formats”。是Unicode的編碼格式。

UTF-8是使用8-bit為單位,對Unicode進行編碼的。特點是,對不同范圍的字符使用不同長度的編碼。

Unicode編碼(十六進制) UTF-8 字節流(二進制)
00000000 - 0000007F 0xxxxxxx
00000080 - 000007FF 110xxxxx 10xxxxxx
00000800 - 0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 的編碼規則很簡單: 如果只有一個字節,那么最高的比特位為 0;如果有多個字節,那么第一個字節從最高位開始,連續有幾個比特位的值為 1,就使用幾個字節編碼,剩下的字節均以 10 開頭 。具體的表現形式為(xxx 就用來存儲 Unicode 中的字符編號):

0xxxxxxx:單字節編碼形式,這和 ASCII 編碼完全一樣,因此 UTF-8 是兼容 ASCII 的;
110xxxxx 10xxxxxx:雙字節編碼形式;
1110xxxx 10xxxxxx 10xxxxxx:三字節編碼形式;
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字節編碼形式。

下面是一些字符的編碼實例(綠色部分表示本來的 Unicode 編號):

字符 N ?
Unicode 編號(二進制) 01001110 11100110 00101110 11101100
Unicode 編號(十六進制) 4E E6 2E EC
UTF-8 編碼(二進制) 01001110 11000011 10100110 11100010 10111011 10101100
UTF-8 編碼(十六進制) 4E C3 A6 E2 BB AC

UTF-8編碼的最大長度是6個字節。

  • 對于0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同,用1個字節表示,首位為0。
  • 對于0x80-0x7FF之間的字符,用2個字節表示,第一個字節前三位“110”為標志位,第二個字節前兩位“10”為標志位。剩下的11位用來表示Unicode值(7FF最多11位)。
  • 同樣,UTF-8的3個字節,可以表示0x800-0xFFFF的Unicode(最多16位)。
  • UTF-8的4個字節,可以表示0x10000-0x001FFFFF的Unicode(最多21位)。 4個字節以內,已經包含了Unicode所有字符。
  • 5、6個字節表示的已經是非Unicode編碼范圍,屬于UCS-4 編碼。早期UTF-8規范也可以達到6字節序列,不過2003年11月UTF-8 被 RFC 3629 重新規范,只能使用原來Unicode定義的區域, U+0000到U+10FFFF。根據規范,這些字節值將無法出現在合法 UTF-8序列中。
例1:“漢”字的Unicode編碼是0x6C49。0x6C49在0x0800-0xFFFF之間,使用用3字節模板了:1110xxxx 10xxxxxx 10xxxxxx。將0x6C49寫成二進制是:0110 1100 0100 1001 用這個比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89
例2:Unicode編碼0x20C30在0x010000-0x10FFFF之間,使用用4字節模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。將0x20C30寫成21位二進制數字(不足21位就在前面補0):0 0010 0000 1100 0011 0000,用這個比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。

UTF-8有兩個好處:

    1. 1字節字符、2字節字符、3字節字符……的首字節標志位不同,這樣可以很清楚的區分一個字節屬于1字節字符還是2字節字符,如果一個字節流傳輸中出現錯誤,也不會錯位,只影響部分字符,根據標志位,很容易找到下個正確字符。
    1. 兼容ASCII碼, 英美字符用UTF-8可以一個字節表示,所以,www組織選用UTF-8作為推薦編碼格式。2007年,在互聯網上,UTF-8格式已經超過了ASCII碼。

UTF-16

UTF-16以2字節為單位,等同于UCS-2.

Unicode編碼(十六進制) UTF-16 字節流(二進制)
00000000 - 0000FFFF xxxxxxxx xxxxxxxx
00010000 - 0010FFFF 110110yyyyyyyyyy 110111xxxxxxxxxx

Unicode值小于等于0xFFFF的,直接用兩個字節表示,超過0xFFFF的,無法用兩個字節表示。使用下面公式編碼:

  1. 1.計算 U’= U – 0x10000
    
    2. 將U'寫成二進制形式:yyyy yyyy yyxx xxxx xxxx
    
    3. 加上標志位,1101 10yy yyyy yyyy 1101 11xx xxxx xxxx:高位代理值為D800,低位代理值為DC00
    

    可見,這是4個字節表示,2個6位標志位,20位有效位。因為U最大是0x10FFFF,所以U’最大是0xFFFFF,20位足夠表示

    案例1:

    U+0020,這個值的范圍在第一部分,即經過UTF-16編碼后,結果仍然為U+0020,在內存中的順序為00 20

    案例2:

    U+12345, 這個值的范圍在第二部分,因此需要先減去0x10000,得到0x02345,拆分成高1000 0000 1000和低1011 0100 0101。根據上面規則加上特定值后,高位代理值為D808,低位代理值為DF45,最終內存中的順序為D8 08 DF 45

BOM的含義

BOM即Byte Order Mark字節序標記。BOM是為UTF-16和UTF-32準備的,用戶標記字節序(byte order)。拿UTF-16來舉例,其是以兩個字節為編碼單元,在解釋一個UTF-16文本前,首先要弄清楚每個編碼單元的字節序。例如收到一個“奎”的Unicode編碼是594E,“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節流"594E",那么這是“奎”還是“乙”?

我們先來來看下UTF-16-Big Endian文件格式:

圖片

可以看到此時“文件”二字的unicode編碼并沒有超過0xFFFF,所以使用兩個字節來保存:

最早的“fe ff”即為Bom標簽

我們再來看下UTF-16-Little Endian文件格式:


圖片

使用的Bom標簽居然變為了fffe。

Unicode規范中推薦的標記字節順序的方法是BOM:在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"(零寬度無間斷空間)的字符,它的編碼是FEFF。而FEFF在UCS中是不不能再的字符(即不可見),所以不應該出現在實際傳輸中。UCS規范建議我們在傳輸字節流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者接收到FEFF,就表明這個字節流是Big-Endian的;如果收到FFFE,就表明這個字節流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱為BOM。

windows上默認的Unicode編碼方式就是UTF-16,使用wchar_t表示。

UTF-32

UTF-32編碼以4字節為單位 。直接把Unicode值轉為4字節二進制數就是其UTF-32編碼。等同于UCS-4.

8.Base64

有的電子郵件系統(比如國外信箱)不支持非英文字母(比如漢字)傳輸,這是歷史原因造成的(認為只有美國會使用電子郵件?)。因為一個英文字母使用ASCII編碼來存儲,占存儲器的1個字節(8位),實際上只用了7位2進制來存儲,第一位并沒有使用,設置為0,所以,這樣的系統認為凡是第一位是1的字節都是錯誤的。而有的編碼方案(比如GB2312)不但使用多個字節編碼一個字符,并且第一位經常是1,于是郵件系統就把1換成0,這樣收到郵件的人就會發現郵件亂碼。

為了能讓郵件系統正常的收發信件,就需要把由其他編碼存儲的符號轉換成ASCII碼來傳輸。比如在一端發送GB2312編碼->根據Base64規則->轉換成ASCII碼,接收端收到ASCII碼->根據Base64規則->還原到GB2312編碼

9.Big5

在臺灣、香港與澳門地區,使用的是繁體中文字符集。而1980年發布的GB2312面向簡體中文字符集,并不支持繁體漢字。在這些使用繁體中文字符集的地區,一度出現過很多不同廠商提出的字符集編碼,這些編碼彼此互不兼容,造成了信息交流的困難。為統一繁體字符集編碼,1984年,臺灣五大廠商宏碁、神通、佳佳、零壹以及大眾一同制定了一種繁體中文編碼方案,因其來源被稱為五大碼,英文寫作Big5,后來按英文翻譯回漢字后,普遍被稱為大五碼。 大五碼是一種繁體中文漢字字符集,其中繁體漢字13053個,808個標點符號、希臘字母及特殊符號。大五碼的編碼碼表直接針對存儲而設計,每個字符統一使用兩個字節存儲表示。第1字節范圍81H-FEH,避開了同ASCII碼的沖突,第2字節范圍是40H-7EH和A1H-FEH。因為Big5的字符編碼范圍同GB2312字符的存儲碼范圍存在沖突,所以在同一正文不能對兩種字符集的字符同時支持。 Big5編碼的分布如表1-5所示,Big5字符主要部分集中在三個段內:標點符號、希臘字母及特殊符號;常用漢字;非常用漢字。其余部分保留給其他廠商支持。

Big5編碼推出后,得到了繁體中文軟件廠商的廣泛支持,在使用繁體漢字的地區迅速普及使用。目前,Big5編碼在臺灣、香港、澳門及其他海外華人中普遍使用,成為了繁體中文編碼的事實標準。在互聯網中檢索繁體中文網站,所打開的網頁中,大多都是通過Big5編碼產生的文檔。

總結各種字符編碼之間的關系

上面關于字符集和編碼講了許多概念,其實歸類一下可以這么理解: 首先是單字節字符集:

  • 1、最初美國ANSI發明了自己的編碼ASCII,7-bit足夠,這是標準ASCII。
  • 2、標準ASCII碼沒有西歐國家拉丁文、英鎊等字符,各公司、國家開始擴展,形成自己的擴展ASCII碼字符集,各方混戰,不過8-bit也就足夠。
  • 3、天下分久必合,ISO統一了8-bit字符集,叫做ISO 8859.

但是亞洲國家字符更多,一個字節遠遠不夠,于是用多個字節表示,擴展形成本國字符集,中國GB系列,臺灣Big5,日本JIS……,這些叫做多字節字符集(MBCS),windows中用雙字節表示,也叫做(DBCS)。

以上字符都是群雄割據,各自為政,windows為了迎合大家需求,在哪個國家,默認編碼就用那個國家的,不過后來不知怎么被誤傳位ANSI編碼,其實ANSI怎么可能定義世界各國編碼,不過可以理解成各編碼都是在ANSI*礎上擴展的,因為都兼容ANSI的標準ASCII碼。

這時,ISO再次出手,和Unicode聯盟攜手打造了Unicode(UCS),意圖一統江湖。Unicode確實包羅萬象,涵蓋了各國字符,于是流行世界。Unicode自身只定義了每個字符的數值,真正二進制編碼格式卻是UTF-8,UTF-16(UCS-2),UTF-32(UCS-4)。

我們下期見。

參考

刨根究底字符編碼之五——簡體漢字編碼方案(GB2312、GBK等)以及全角、半角、CJK

字符集和字符編碼

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7537

    瀏覽量

    88643
  • 編碼
    +關注

    關注

    6

    文章

    957

    瀏覽量

    54953
  • BUG
    BUG
    +關注

    關注

    0

    文章

    155

    瀏覽量

    15723
收藏 人收藏

    評論

    相關推薦

    計算機與網絡技術基礎

    計算機與網絡技術基礎了解計算機網絡的形成與發展過程  掌握計算機網絡的定義、分類、功能和典型應用  掌握計算機網絡的組成結構  了解
    發表于 12-07 13:36

    計算機與第三方設備通信時,常用的計算機編碼

    計算機與第三方設備通信時,常用的計算機編碼
    發表于 07-10 13:06

    什么是計算機系統、計算機硬件和計算機軟件?

    第一章 計算機系統概論1. 什么是計算機系統、計算機硬件和計算機軟件?硬件和軟件哪個更重要?解:P3計算機系統:由
    發表于 07-22 09:06

    計算機應用

    1、第一臺計算機:1946年2月14日,在美國賓西尼亞大學的莫爾電機學院,世界第一臺現代電子計算機“埃尼阿克”ENIAC誕生,重達30t,在1s內能進行5000次加法運算和500次乘法運算。2
    發表于 09-10 08:17

    計算機運算速度是指什么

    計算機運算速度是指什么?按傳輸介質分類,計算機網絡可分為哪幾種?使用16位二進制編碼表示聲音與使用8位二進制編碼表示聲音的效果有何不同?
    發表于 10-19 09:05

    什么是程序?什么是計算機

    什么是程序?程序(Program)流程、議程、行程、…為了完成某項任務,解決某個問題需要執行的一系列步驟計算機程序為了完成某項任務,解決某個問題由計算機執行的一系列指令(步驟)什么是計算機
    發表于 11-23 09:02

    計算機三級嵌入式綜合題的解析

    今天這篇文章主要指針對計算機三級嵌入式綜合題的解析,對于沒有單片機基礎的同學來說配置寄存器有些困難,所以今天我就給大家分享一我的經驗,希望這篇文章可以幫助到大家,如有錯誤歡迎指正!!首先來分析矩陣
    發表于 12-23 07:39

    計算機應用基礎教案

    介紹什么是計算機計算機的特點,計算機的應用與發展:什么是計算機計算機的發展;計算機的分類;
    發表于 09-25 12:45 ?0次下載

    計算機應用基礎課程

    計算機的分類、特點及應用領域 計算機的進位計數制 計算機的信息編碼標準
    發表于 05-15 09:57 ?0次下載

    用SD卡設計8086計算機的硬盤

    介紹了8086計算機的體系架構,設計了8086計算機與SD卡連接的硬件接口,并使用軟件和硬件相結合的調試方法,可快速調試驗證SD卡的功能.通過FPGA的驗證,SD卡作為8086
    發表于 11-09 16:47 ?66次下載

    計算機尋址方式解析

    計算機尋址方式解析 尋址方式 就是尋找操作數地址的方式,解決的是如何在指令中表示一個操作數的地址。 形式地址 :在指令中出現的操作數地址
    發表于 04-15 11:22 ?6828次閱讀

    從5個方面來解析計算機中的字符編碼概念

    字符編碼計算機編程中不可回避的問題,不管你用 Python2 還是 Python3,亦或是 C++, Java 等,我都覺得非常有必要厘清計算機中的字符編碼概念。
    的頭像 發表于 01-16 09:08 ?7979次閱讀
    從5個方面來<b class='flag-5'>解析</b><b class='flag-5'>計算機</b>中的字符<b class='flag-5'>編碼</b>概念

    計算機算術運算實現原理

    計算機算術運算實現原理解。
    發表于 03-26 14:04 ?5次下載

    計算機編碼解析(上)

    你是不是工作了很多年了,一直沒搞清楚計算機中的各種編碼規則,雖然平時都會使用,但是內部機制原理一直都是之其然而不知其所以然,開發中也會經常涉及到這塊內容,但都沒有太多重視,這可能會讓有吃一些虧(出項目bug了),本著追本溯源的精神或是為了讓自己在少出血bug,小余今天就來
    的頭像 發表于 03-30 10:28 ?1368次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>編碼</b><b class='flag-5'>全</b><b class='flag-5'>解析</b>(上)

    計算機編碼解析(中)

    你是不是工作了很多年了,一直沒搞清楚計算機中的各種編碼規則,雖然平時都會使用,但是內部機制原理一直都是之其然而不知其所以然,開發中也會經常涉及到這塊內容,但都沒有太多重視,這可能會讓有吃一些虧(出項目bug了),本著追本溯源的精神或是為了讓自己在少出血bug
    的頭像 發表于 03-30 10:28 ?1246次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>編碼</b><b class='flag-5'>全</b><b class='flag-5'>解析</b>(中)
    太阳城娱乐城官方网| 澳门百家乐鸿福厅| 爱博| 百家乐平台注册送现金| 百家乐官网赢的秘籍在哪| 三国百家乐的玩法技巧和规则 | 百家乐官网获胜秘决百家乐官网获胜秘诀 | 百家乐官网园云鼎赌场娱乐网规则| 百家乐官网庄河闲的赌法| 百家乐官网隔一数打投注法| 百家乐官网庄闲和各| 娱网百家乐官网补丁| 怎样打百家乐官网的玩法技巧和规则| 狮威百家乐官网娱乐城| 百家乐必胜软件下载| 最好的百家乐游戏平台1| 百家乐博百家乐的玩法技巧和规则| 水果机上分器| 亲朋棋牌刷金币| 崇信县| 网上百家乐官网的赌博网站| 破战百家乐官网的玩法技巧和规则 | 百家乐官网百家乐官网技巧| 百家乐开户送十元| 百家乐游戏介绍与分析| 威尼斯人娱乐场官网是骗人的吗| 大发888官方网站指定开| 皇冠在线投注网| 百家乐官网那个平台信誉高| CEO百家乐官网的玩法技巧和规则 喜达百家乐官网的玩法技巧和规则 | 全迅网百家乐官网的玩法技巧和规则 | 互博百家乐官网的玩法技巧和规则 | 百家乐筹码防伪套装| 大发888hanpa| ewin娱乐城官方下载| 百家乐官网开户投注| 百家乐百家乐群| 百家乐娱乐城博彩通博彩网| 鸿宝娱乐| 百家乐官网赌博导航| 百家乐另类投注法|