沈度送李願歸盤谷序軸

[拼音]:Hanzi shuru bianma

[英文]:input coding for Chinese character

為便於將漢字送入中文處理終端或系統,用預先設計好的方法,將漢字音、形、義有關要素變成數字、字母或鍵位名稱的轉換方法。漢字輸入編碼是人到機(計算機)交換漢字特徵資訊的介面。

世界上使用漢字的人口約佔世界總人口的 1/4,因此研究和發展漢字輸入編碼是一項非常急迫的任務。中國是漢字的發源國,漢字應用已有數千年曆史。1987年中國研究漢字輸入編碼的人員已近 400人,不論在深度和廣度上,都走在世界前列。

1981年,中國國家標準局公佈的國標GB2312-80《漢字資訊交換用編碼字符集》,收漢字6763個,到80年代中期除專業用字符集外,都以國標字符集所收漢字作為輸入編碼範圍。

漢字輸入編碼入手的方法,是在漢字中尋找統一的有規律的特徵資訊,將漢字二維平面圖形資訊轉換成一維線性程式碼。根據所取特徵資訊的不同,漢字輸入編碼分從音編碼和從形編碼兩大類。其他型別是相互結合型,或與字義結合,或與檢字法結合,或與片語結合。因設計的目的、思想不同,用以編碼的元素、所用碼元的數量、取碼方法和規則,避開同碼字和佔用鍵盤鍵位的方法等,都因設計者而異,因此產生了數百種漢字輸入編碼方案。

從音編碼是以1958年2月11日中國全國人民代表大會批准公佈的《漢語拼音方案》為基本編碼元素。漢語拼音是以北京語音為標準音,以北方語為基礎方言,以典範的白話文著作為語法規範的普通話。自推廣普通話以來,已有相當數量的人掌握了漢語拼音,以此為基礎作漢字輸入編碼,為這部分人所樂於接受。但中國各地方言複雜,不少人還難以做到準確認讀漢字,因此容易出現差錯。此外,北京語系只有21個聲母,39個韻母,1332個音節,不能區別成千上萬個漢字,同音字很多,所以需要增加定字編碼。這就要從形、從義去找,或藉助計算機將同音字全顯示出來,再去選擇定字,可見從音編碼方式輸入繁瑣,輸入速度低。但日常漢語口語中有詞、語句的限定,同音字不會被人誤解。利用這一漢語特徵,拼音編碼已向拼音片語編碼發展來解決部分欠缺。

從形編碼是以筆畫和字根(字元、部件)為編碼元素。現代漢字是從甲骨文、金文演變而來,經過篆書、隸書、楷書等演變而形成的。在形體上逐漸由圖形變為筆畫,象形變為象徵,複雜變為簡單。造字原則從表形、表義到形聲,漢字數量增多主要是形聲字數量多。漢字從形編碼是充分利用現代漢字這些特徵,把漢字平面圖形編成線性程式碼。

漢字從形編碼利用人們已有的漢字書寫知識,在鍵盤上象寫字一樣打入筆畫和字根,從計算機內選出漢字,既直接又方便。這樣就要把上千個字根和上百個筆畫儘可能歸納,減少它們的數量,以便於記憶字根所在鍵位。到1987年已能將字根歸納為100個左右,筆畫為5個。字根少了會造成分解漢字圖形的難度,字根多了又會增加記憶量,所以設計者需從中選取最佳的取捨方案,做到易學易記,因此形碼方案數量很多。為達到高速輸入,從形編碼也向片語編碼發展。

漢字輸入編碼將會隨著計算機應用的普及,通過學術評議和使用者實踐,由數百種優選成數種實用方案。