人權宣言
[拼音]:Zhongwen xinxi chuli
[英文]:Chinese information processing
在語言學、電腦科學、數學、心理學和自動化技術等學科的基礎上形成的一門邊緣學科,研究電子計算機對中文書面和口語資訊進行各種加工的問題。
中文資訊處理不等同於漢字資訊處理。漢字資訊處理系統是中文資訊處理系統中非常關鍵的一部分,可以說是中文資訊處理系統藉以建立的工具。但是漢字資訊處理系統的研製成功,一般只解決了漢字的編碼、輸入、儲存、編輯和輸出問題,至於加工或處理什麼,如何加工,那是中文資訊處理的內容。中文資訊處理系統(純口語的系統和拼音文字的系統除外)以漢字資訊處理系統作為自己的必備部件,同時還帶有為不同目的服務的各種應用軟體。中文資訊處理系統的另一特點是以詞而不是以單個漢字作為加工的基本單位。中文資訊處理和中國少數民族語言文字的資訊處理都是自然語言處理的一部分(見應用語言學)。
在中文資訊處理領域內,計算語言學工作者所研究的只是它的一般理論和方法,以及與語文資訊加工有關的基礎性工作。例如,漢字如何編碼才能輸入計算機,如何切分詞,哪些是常用詞和常用片語,如何進行語音識別與合成,等等。
中文資訊處理研究專案
目前已經開展的有以下10項:
(1)漢字資訊處理:這是一項最關鍵的語言工程,漢字如不能進入計算機,圖書情報工作自動化、印刷出版現代化 、辦公室事務自動化都將化為空談。 近10年來,漢字資訊處理研究得到很大發展。曾設計了 400多種漢字編碼方案(見漢字編碼),其中上機通過試驗或已被採用作為輸入方式的,已達數十種之多。研製了上百種漢字資訊處理系統和裝置。這些系統主要採用兩種型別的鍵盤:一是筆觸式大鍵盤,另一是小鍵盤。前一種除整體輸入外,一般還有利用部件組合漢字的能力;後一種有的可相容多種編碼方案,有的還帶有計算機引導的智慧。
漢字資訊處理除了在漢字編碼方面進行研究外,還製成了若干種漢字輸入輸出專用裝置,其中有各種型別的漢字輸入鍵盤、漢字字型檔、漢字顯示終端、漢字圖形相容終端、漢字印字機。成套的漢字資訊處理系統(包括漢字編碼法、通用中外文鍵盤、通用中外文顯示器、漢字列印裝置、漢字型檔和系統軟體等)已研製成功,並安排批量生產。一種最新式的編輯排版系統──計算機鐳射漢字照排系統也已研製成功。中國的字模生產有良好的基礎,1985年5月國家標準局公佈了《資訊交換用漢字15×16點陣字模集及資料集》和《資訊交換用漢字24×24點陣字模集及資料集》兩項標準,為各種裝置的設計和推廣提供了有利條件。
為了使人們擺脫繁重的編碼輸入工作,漢字的光電自動識別研究提上了日程。近年來有越來越多的單位從事手寫體和印刷體的識別研究。郵電部資料所和北京郵電學院提出了象限端點和轉動慣量特徵識別法,瀋陽自動化研究所提出了文字線長度識別法,上海公用事業研究所研製出數字條形識別系統,電子工業部第52研究所設計了提取漢字筆劃特徵的劃分對映法,清華大學研製了有限制性手寫體漢字識別系統。
為了使各種系統之間的資訊交換有共同性,也為了使各種輸入輸出裝置的設計有統一的根據,1981年國家標準局公佈了《資訊交換用漢字編碼字符集基本集》(簡稱《漢字標準交換碼》)。這個標準是根據漢字使用頻度制定的,共分兩級,一級3755個字,二級3008個字,共6763個字。為了滿足少數用字量超過基本集的使用者和臺灣、香港等地的需要,正在制定《資訊交換用漢字編碼字符集輔助集》,輔助集將根據使用頻度高低分作第一輔助集和第二輔助集,各收8000餘字。
(2)機器翻譯:計算機和語言的最早結合開始於機器翻譯。1956年,機器翻譯被列入中國科學工作的發展規劃。1957年,機器翻譯研究工作正式開始進行。這可以說是中文資訊處理的第一項工程。首先研究的是俄漢機器翻譯,並於1959年成功地進行了試驗,譯文輸出是程式碼,而不是漢字,因為當時沒有漢字輸出裝置。1958年底至1960年初,又研製了一套英漢機器翻譯規則系統。1966~1975年工作處於停頓狀態。近年來,先後上機試驗了英漢、俄漢、法漢、日漢和漢外(英、法、德、俄、日)機器翻譯系統十餘個。有的輸出漢字譯文。有的輸出拼音譯文。
語言的對比研究是機器翻譯的語言學基礎。在外漢機器翻譯系統中調整詞序是一箇中心任務。詞序的調整,首先必須分清層次和確定軸心。為了調整詞序,有的系統還建立了一套特殊的成分體系,即中介成分體系。介詞、連詞和標點是機器翻譯研究中的難點,對它們的正確分析是解決詞序調整問題的關鍵。當結構分析發生困難時,需要進行語義分析。
(3)中文情報檢索:為了提供標引和檢索藍本,1979年中國科學技術情報研究所編輯出版了10卷本的《漢語主題詞表》。目前,中國已有上百個單位開展電子計算機情報檢索的試驗研究,其中十幾個單位已進入定題情報服務 (SDI)的應用階段。不少單位正在建立各種漢字文獻資料庫,同時還在考慮聯機網路問題。
情報檢索系統中的關鍵問題是情報檢索語言的建立(見計算機情報檢索)。除一般的詞彙語法問題外,中文情報檢索系統中還有一個特殊問題,就是詞的切分,因為檢索是以詞(關鍵詞)為基礎的。
(4)言語統計:中國利用電子計算機進行言語統計是機器翻譯工作者開始的。1978年語言研究所和計算技術研究所在合作研究 ECMT-78英漢機器翻譯系統的過程中曾編制一個排序統計程式,加工過一些外文資料和漢語拼音資料。1981年北京語言學院等單位開始對人工調查統計的詞彙進行計算機處理。1985年完成了《漢語詞彙的統計與分析》,在52萬多字的漢字語料中統計出18177個不同的詞, 這些詞出現的總和是374654次,出現最多的單音節詞是“的”, 出現最多的雙音節詞是“我們”。1986年6月又完成了《現代漢語頻率詞典》。1982年北京航空學院等單位開始更大規模的漢語統計工作,要在2000萬字的語料中進行字頻和詞頻統計。部分字頻統計結果已經得出,從1977~1982年的1200多萬字的語料中統計出8969個不同的漢字,並提供了這些漢字根據不同學科分類的26種使用頻度表。
由於詞的自動切分問題尚未解決,因而現在的詞頻統計都是在人工調查統計或人工分詞的基礎上進行的。
另外,中國文字改革委員會 和武漢大學利用計算機對《辭海》1.6 萬多個漢字的部件進行了統計分析,以研究漢字的結構特點。為了研究人名用字的使用情況,中國文字改革委員會和山西大學根據人口調查材料對人的姓名分別進行了統計。很多省份“王”為大姓,而福建省“陳”、“林”為大姓。
(5)漢語理解系統:最近幾年,隨著人工智慧的進展,語言研究所、心理研究所、自動化研究所和一些大學開展了漢語理解系統(人機對話)的研究。目前只限於書面語言理解,而且主要是問答型的。輸入方式採用漢語拼音。上機試驗結果表明,有的系統已有識別30多種句型的能力(見漢語書面理解系統)。漢語語音理解系統的研製正在醞釀之中。
(6)計算機輔助語言教學:近年來很多人關心這一課題。華東師範大學現代化教育技術研究所、哈爾濱工業大學、上海交通大學等單位已研製出語言教學軟體多種(見計算機輔助語言教學)。
(7)語音識別和言語合成:語音打字的任務早在1958年便已提出。1964年實現了“母音識別機”,1970年前後又實現了10個口呼漢語數字的識別機。但利用電子計算機進行識別研究,則始於 1972年。 聲學研究所利用語音圖樣匹配方法在一定範圍內實現了單呼語言的識別,正確率達99.5%以上。哈爾濱工業大學利用音素分析法進行漢語識別,正確率達90%以上。
漢語合成的研究已在一些單位進行,一般尚處於研究實驗階段。清華大學自動化系最近試製成功一種會說話的中文計算機,機器裡存有漢語聲韻母等語言資料,計算機會自動根據拼音規則實現拼接,合成語音。
(8)方言研究:國外有人曾將漢語方言資料輸入計算機,讓計算機提供各個方言聲母、韻母、聲調的出現頻率,以及鼻化、顎化現象分佈的百分比。這些資料不僅有利於方言的共時描寫和比較,而且還有利於檢驗各種歷史構擬假說的正確性。目前,中國已開始利用計算機進行方言研究和繪製方言地圖。
(9)索引、詞表和詞典的編制:1980年武漢大學開始語言自動處理工作,主要是編制逐字索引,同時提供漢字統計資料。他們計劃編輯《現代漢語語言資料索引》23輯,收錄現代著名作家9人的作品共33部,總字數500多萬。前 5部作品(《駱駝祥子》、《倪煥之》、《雷雨》、《日出》和《北京人》)的逐字索引和統計資料已相繼印出。最近,他們又與山東省社會科學院合作,完成了《論衡》的語詞索引和統計資料。其他一些書籍的索引工作也在進行之中。
(10)修辭學研究:武漢大學等單位利用現有的語料庫開始進行風格學研究,隨著語料的擴充和統計方法的改進,將會提供不同作家的風格特點和各種風格對比研究的成果。
利用計算機編制詞表、詞典也已提上日程。語言研究所正在編制《多語對照語言學詞彙(英、法、德、俄、中)》。機編詞典除能加快辭書的編輯出版過程外,還可以隨時擴充、修改,保持詞典的先進性。
中文資訊處理研究方興未艾。隨著研究手段的改善和研究工作的深入,還將有更多更新的專案湧現。
參考書目
張壽萱 、徐建毅 、張建生:《中文資訊的計算機處理》,宇航出版社,上海,1984。
劉湧泉:《中國的語言工程》,載《中文資訊》,1985,第1期。