組合音響

[拼音]:xinxi tiqu

[英文]:information extraction

從觀測資料中獲得有用資訊的過程,主要可分為檢測和估計,但在系統辨識和模式識別中也含有資訊提取過程。按照資訊理論和控制論觀點,在通訊和控制系統中傳送的本質是資訊,系統中實際流通的則是可測量的訊號。資訊包含在訊號之中,訊號是資訊的載體。電訊號到了接收端,經過處理可最終變換成語聲、文字或影象。收信人從語聲、文字或影象中可以得到各種資訊。一般地說,在接收端將帶有噪聲的訊號經過多次變換,以取得有用資訊的過程就是資訊提取。

帶有資訊的各種形式的可觀測、可傳輸、可儲存的訊號均可稱為資料。這種資料在傳輸、儲存和變換過程中不可避免地會受到噪聲或其他無用資料的干擾。要可靠地高效率地從資料中提取資訊必須研究這些噪聲和干擾的性質。它們往往具有按某種統計規律變化的隨機特性。因此,資訊理論、概率論、隨機過程論和數理統計學,就成為資訊提取的基礎和工具。

檢測

在接到的有噪聲的資料中判斷是否有某種資訊存在,例如要在雷達的輸出資料中判斷是否帶有在警戒空域中存在敵方飛機的資訊,就是訊號檢測問題。經典統計推斷理論中的假設檢驗理論是處理這一類問題的理論基礎。資訊提取的過程如圖。如果資訊源發出的原始資料只有兩種可能:H1(表示有)或H0(表示沒有),統計判決過程只是在H0和H1中選擇一種,這稱為二元檢測或雙擇檢測(兩者擇一),是較簡單的一種情況。如果原始資料中有多種可能,H1,H2,…,Hn,統計判定過程要在n種假設中決擇一種,稱為多元檢測。如果在資料處理過程中對噪聲的統計特性具有先驗知識,稱為參量檢測,經典的檢測理論屬於這一類。如果對噪聲的特性缺乏先驗知識或知之甚少,則是一種非參量檢測理論。這是20世紀60年代初發展起來的理論。70年代初,把60年代中期提出的堅韌統計學移植到檢測領域,堅韌檢測遂得到發展(見檢測理論)。

估計

如果有用的資訊包含在資料的某些參量中,例如雷達回波訊號的頻率參量就含有目標徑向速度的資訊,回波訊號的相移或時延就含有目標位置的資訊等,則資訊提取的任務就是從有干擾的觀測資料中估計出有用的參量。這是參量估計問題,以統計推斷理論中的估計理論作為處理這類問題的基礎。如果所要提取的資訊隨著時間連續變化,例如要測定在發射過程中一個空間飛行體的狀態資訊,則要測定它在不斷變化中的三個空間位置向量和三個速度向量,這是狀態估計問題。類似於檢測問題中的情況,根據對噪聲統計特性的先驗知識的多少,估計理論也分為參量估計、非參量估計和堅韌估計三類。常用的參量估計方法有最小二乘法估計,極大似然法估計和貝葉斯估計。所有的估計方法都是力求使按照某一準則定義的誤差趨於最小。不同的誤差準則就引匯出不同的估計方法。著名的維納濾波理論是最小均方誤差準則下的線性濾波理論。這一理論以及F.E.卡爾曼用狀態變數法在時域處理的遞推濾波理論都屬於重要的狀態估計方法。

辨識

對於很大一類問題,要提取的資訊是包含在一個簡單的或複雜的系統中。例如,對一個新設計的控制系統,需要獲得這一系統某種效能的資訊,這屬於系統辨識問題。一般情況下,系統性能的資訊與系統參量有關。系統辨識問題往往是系統參量估計問題。通常的方法是,首先精確測量系統的輸入和輸出資料,然後估計系統模型中(即數學方程中)的未知參量。由於實際的輸入、輸出資料要受到噪聲影響,系統本身也會有隨機干擾,所以系統參量估計也是一個統計問題。估計方法中的最小二乘法(最小均方誤差法)、極大似然法等都可用來估計系統參量。

識別

有一類資訊隱含在語聲、文字或圖形影象中。例如用遙感技術獲得的地形地物影象中可能有農作物的資訊、地質構造的資訊等。這些資訊不是用人眼觀看所能識別的,往往要經過複雜的影象處理才能把資訊提取出來。這一類問題統稱為模式識別,用計算機進行識模是正在發展中的技術領域。通常要經過這樣幾個典型步驟:影象數值化;將各類影象的重要特性用數字刻劃出來(特性提取);在某一類影象的許多特性中,找出某些綜合性指標(特徵選擇);設計識別方案,使得任一個未知類別的影象在數字化以後,根據識別方案就可以判決它屬於哪一類。這是最常用的統計模式識別。此外,語言結構法(句法)識別也正在發展中(見資訊處理)。