米特洛維奇,▊.
[拼音]:ziran yuyan lijie
[英文]:natural language understanding
俗稱人機對話。人工智慧的分支學科。研究用電子計算機模擬人的語言交際過程,使計算機能理解和運用人類社會的自然語言如漢語、英語等,實現人機之間的自然語言通訊,以代替人的部分腦力勞動,包括查詢資料、解答問題、摘錄文獻、彙編資料以及一切有關自然語言資訊的加工處理。這在當前新技術革命的浪潮中佔有十分重要的地位。研製第 5代計算機的主要目標之一,就是要使計算機具有理解和運用自然語言的功能。
自然語言理解是一門新興的邊緣學科,內容涉及語言學、心理學、邏輯學、聲學、數學和電腦科學,而以語言學為基礎。自然語言理解的研究,綜合應用了現代語音學、音系學語法學、語義學、語用學的知識,同時也向現代語言學提出了一系列的問題和要求。本學科需要解決的中心問題是:語言究竟是怎樣組織起來傳輸資訊的?人又是怎樣從一連串的語言符號中獲取資訊的?
自然語言理解從 20世紀 60年代初開始研究,由於N.喬姆斯基在語言學理論上的突破和此後各家理論的發展,以及計算機功能的不斷提高,目前已經取得了一定的成果,分為語音理解和書面理解兩個方面。
語音理解
用口語語音輸入,使計算機“聽懂”語音訊號,用文字或語音合成輸出應答。方法是先在計算機裡貯存某些單詞的聲學模式,用它來匹配輸入的語音訊號,稱為語音識別。這只是一個初步的基礎,還不能達到語音理解的目的。因為單憑聲學模式無法辨認人和人之間、同一個人先後發音之間的語音差別,也無法辯認連續語流中的語音變化;必須綜合應用語言學知識,以切分音節和單詞,分析句法和語義,才能理解內容,獲取資訊。60年代至70年代初期,研究工作一直停留在單詞的語音識別上,進展不大。直到70年代中期才有所突破,建立了一些實驗系統,能夠理解連續語音的內容,但是還限於少數簡單的語句(見自然語言語音理解系統)。
書面理解
用文字輸入,使計算機“看懂”文字元號,也用文字輸出應答。這方面的進展較快,70年代初期取得突破,中期以後又有所發展。目前已能在一定的詞彙、句型和主題範圍內查詢資料,解答問題,閱讀故事,解釋語句等,有的系統已付諸應用。由於絕大多數語種使用的是拼音文字,計算機識別拼音字母已無問題,而輸入又是按單詞分別拼寫,因此書面理解一般沒有切分音節和單詞的問題,只需直接分析詞彙、句法和語義。但是漢語用的是漢字,無論是用漢字編碼輸入還是將來計算機能直接認識漢字,都要首先解決切分單詞的問題,因為輸入就是一連串漢字,詞和詞之間沒有空隔。
書面理解的基本方法是:在計算機裡貯存一定的詞彙、句法規則、語義規則、推理規則和主題知識。語句輸入後,計算機自左至右逐詞掃描,根據詞典辨認每個單詞的詞義和用法;根據句法規則確定短語和句子的組合;根據語義規則和推理規則獲取輸入句的含義;查詢知識庫,根據主題知識和語句生成規則組織應答輸出。目前已建成的書面理解系統應用了各種不同的語法理論和分析方法,如生成語法、系統語法、格語法、語義語法等等,都取得了一定的成效。
目前存在的問題有兩個方面:一方面,迄今為止的語法都限於分析一個孤立的句子,上下文關係和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機裡。因此一個書面理解系統只能建立在有限的詞彙、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴大範圍(見自然語言書面理解系統)。
參考書目
範繼淹,徐志敏:《人工智慧和語言學》,載《中國語文》1980,第4期。
A. Barr and E. A. Feigenbaum, The Hɑndbook ofArtificiɑl Intelliɡence, Pitman, London, 1981.