編碼與編號有區別嗎
有人認為編號和編碼是同個意思,其實,編碼比編號複雜多了,編號僅僅就是一個順序代號,編碼裡面卻蘊含著很多資訊。下面小編帶你瞭解一下。
編號:
給順序號作為一種識別的方法,如給房間編號,限定於有限的或確定的數字內。
編碼:
編碼***Encoding***在認知上是解釋傳入的刺激的一種基本知覺的過程。技術上來說,這是一個複雜的、多階段的轉換過程,從較為客觀的感覺輸入***例如光、聲***到主觀上有意義的體驗。
字元編碼是一套法則,使用該法則能夠對自然語言的字元的一個集合***如字母表或音節表***,與其他東西的一個集合***如號碼或電脈衝***進行配對。
編碼分類:
數字系統中常用的編碼有兩類,一類是二進位制編碼,另一類是二—十進位制編碼。
編碼體系:
1.ASCII與Binary
我們日常接觸到的檔案分ASCII和Binary兩種。ASCII是“美國資訊交換標準編碼”的英文字頭縮寫,可稱之為“美標”。美標規定了用從0到127的128個數字來代表資訊的規範編碼,其中包括33個控制碼,一個空格碼,和94個形象碼。形象碼中包括了英文大小寫字母,阿拉伯數字,標點符號等。我們平時閱讀的英文電腦文字,就是以形象碼的方式傳遞和儲存的。美標是國際上大部分大小電腦的通用編碼。
然而電腦中的一個字元大都是用一個八位數的二進位制數字表示。這樣每一字元便可能有256個不同的數值。由於美標只規定了128個編碼,剩下的另外128個數碼沒有規範,各家用法不一。另外美標中的33個控制碼,各廠家用法也不盡一致。這樣我們在不同電腦間交換檔案的時候,就有必要區分兩類不同的檔案。第一類檔案中每一個字都是美標形象碼或空格碼。這類檔案稱為“美標文字檔案”***ASCII Text Files***,或略為“文字檔案”,通常可在不同電腦系統間直接交換。第二類檔案,也就是含有控制碼或非美標碼的檔案,通常不能在不同電腦系統間直接交換。這類檔案有一個通稱,叫“二進位制檔案”***Binary Files***。
2.國標、區位、“準國標”
“國標”是“中華人民共和國國家標準資訊交換用漢字編碼”的簡稱。國標表***基本表***把七千餘漢字、以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行叫一個“區”,每個區有九十四個“位”。一個漢字在方陣中的座標,稱為該字的“區位碼”。例如“中”字在方陣中處於第54區第48位,它的區位碼就是5448。
其實94這個數字。它是美標中形象碼的總數。國標表沿用這個數字,本意大概是要用兩個美標形象符代表一個漢字。由於美標形象符的編碼是從33到126,漢字區、位碼如果各加上32,就會與美標形象碼的範圍重合。如上例“中”字區、位碼加上32後,得86,80。這兩個數字的十六進位制放在一起得5650,稱為該字的“國標碼”,而與其相對應的兩個美標符號,VP,也就是“中”字的“國標符”了。
3.GBK碼
GBK碼是GB碼的擴充套件字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
4.BIG5碼
BIG5碼是針對繁體漢字的漢字編碼,目前在臺灣、香港的電腦系統中得到普遍應用。
5.HZ碼
HZ碼是在Internet上廣泛使用的一種漢字編碼。“HZ”方案的特點,是以“純國標”的中文與美標碼混用。那麼“HZ”是怎樣區分國標符和美標符的呢?答案其實也很簡單:當一串美標碼中間插入一段國標碼的時候,我們便在國標碼的前面加上~,後面加上~。這些附加碼分別叫“逃出碼”和“逃入碼”。 由於這些附加碼本身也是美標形象碼,整個檔案就儼然是一個美標文字檔案,可以安然地 在電腦網上傳遞,也和大部分英文文字處理軟體相容。
6.ISO-2022CJK碼
ISO-2022是國際標準組織***ISO***為各種語言字元制定的編碼標準。採用二個位元組編碼,其中漢語編碼稱ISO-2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。目前CJK碼主要在Internet網路中使用。
7.UCS和ISO10646
1993年,國際標準ISO10646 定義了通用字符集 ***Universal Character Set, UCS***。 UCS 是所有其他字符集標準的一個超集。它保證與其他字符集是雙向相容的。就是說, 如果你將任何文字字串翻譯到 UCS格式,然後再翻譯回原編碼, 你不會丟失任何資訊。
UCS 包含了用於表達所有已知語言的字元。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述, 還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語, 旁遮普語果魯穆奇字元***Gurmukhi***, 泰米爾語, 印.埃納德語***Kannada***,Malayalam,泰國語, 寮國語, 漢語拼音***Bopomofo***, Hangul,Devangari,Gujarati, Oriya,Telugu 以及其它語種。對於還沒有加入的語言, 由於正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。這些語言包括Tibetian,高棉語,Runic***古代北歐文字***,衣索比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言,還包括挑選出來的藝術語言比如 Tengwar,Cirth 和 克林貢語***Klingon***。UCS 還包括大量的圖形的,印刷用的,數學用的和科學用的符號,包括所有由 TeX,Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字型, 以及許多其他字處理和出版系統提供的字元。
8.Unicode碼
。Unicode其實就是寬位元組字符集,它對每個字元都固定使用兩個位元組即16位表示,於是當處理字元時,不必擔心只處理半個字元。
目前,Unicode在網路、Windows系統和很多大型軟體中得到應用。
字元種類:
1.文字編碼
2.語義編碼
3.電子編碼
4.神經編碼
5.記憶編碼
6.加密
7.譯碼
小編推薦:HS編碼
HS採用六位數編碼,把全部國際貿易商品分為22類,98章。章以下再分為目和子目。商品編碼第一、二位數碼代表"章",第三、四位數碼代表"目"***Heading***,第五、六位數碼代表"子目"***Subheading***。前6位數是HS國際標準編碼,HS有1241個四位數的稅目,5113個六位數子目。有的國家根據本國的實際,已分出第七、八、九位數碼。
在HS中,"類"基本上是按經濟部門劃分的,如食品、飲料和菸酒在第四類,化學工業及其相關工業產品在第六,紡織原料及製品在第十一類,機電裝置在第十六類。運輸裝置在第十七類,武器、彈藥在第十九類等。HS"章"分類基本採取兩種辦法:一是按商品原材料的屬性分類,相同原料的產品一般歸入同一章。章內按產品的加工程度從原料到成品順序排列。如52章棉花,按原棉--已梳棉--棉紗--棉布順序排列。二是按商品的用途或效能分類。製造業的許多產品很難按其原料分類,尤其是可用多種材料製作的產品或由混合材料製成的產品***如第64章鞋、第65章帽、第95章玩具等***及機電儀產品等,HS按其功能或用途分為不同的章,而不考慮其使用何種原料,章內再按原料或加工程式排列出目或子目。HS的各章均列有一個起"兜底"作用,名為"其他"的子目,使任何進出口商品都能在這個分類體系中找到自己適當的位置。
我國目前使用的HS編碼,一共10位,其中前面8位稱為主碼,後兩位稱為附加碼。