淺談語音識別技術論文

　　語音識別技術研究讓人更加方便地享受到更多的社會資訊資源和現代化服務，對任何事都能夠通過語音互動的方式。小編整理了，歡迎閱讀!

　　篇一

　　語音識別技術概述

　　作者：劉鈺馬豔麗董蓓蓓

　　摘要：本文簡要介紹了語音識別技術理論基礎及分類方式，所採用的關鍵技術以及所面臨的困難與挑戰，最後討論了語音識別技術的發展前景和應用。

　　關鍵詞：語音識別;特徵提取;模式匹配;模型訓練

　　 text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

　　 identification;Character Pick-up;Mode matching;Model training

　　一、語音識別技術的理論基礎

　　語音識別技術：是讓機器通過識別和理解過程把語音訊號轉變為相應的文字或命令的高階技術。語音識別以語音為研究物件，它是語音訊號處理的一個重要研究方向，是模式識別的一個分支，涉及到生理學、心理學、語言學、計算機科學以及訊號處理等諸多領域，甚至還涉及到人的體態語言***如人在說話時的表情、手勢等行為動作可幫助對方理解***，其最終目標是實現人與機器進行自然語言通訊。

　　不同的語音識別系統，雖然具體實現細節有所不同，但所採用的基本技術相似，一個典型語音識別系統主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。此外，還涉及到語音識別單元的選取。

　　***一*** 語音識別單元的選取

　　選擇識別單元是語音識別研究的第一步。語音識別單元有單詞***句***、音節和音素三種，具體選擇哪一種，由具體的研究任務決定。

　　單詞***句***單元廣泛應用於中小詞彙語音識別系統，但不適合大詞彙系統，原因在於模型庫太龐大，訓練模型任務繁重，模型匹配演算法複雜，難以滿足實時性要求。

　　音節單元多見於漢語語音識別，主要因為漢語是單音節結構的語言，而英語是多音節，並且漢語雖然有大約1300個音節，但若不考慮聲調，約有408個無調音節，數量相對較少。因此，對於中、大詞彙量漢語語音識別系統來說，以音節為識別單元基本是可行的。

　　音素單元以前多見於英語語音識別的研究中，但目前中、大詞彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母***包括零聲母有22個***和韻母***共有28個***構成，且聲韻母聲學特性相差很大。實際應用中常把聲母依後續韻母的不同而構成細化聲母，這樣雖然增加了模型數目，但提高了易混淆音節的區分能力。由於協同發音的影響，音素單元不穩定，所以如何獲得穩定的音素單元，還有待研究。

　　***二*** 特徵引數提取技術

　　語音訊號中含有豐富的資訊，但如何從中提取出對語音識別有用的資訊呢?特徵提取就是完成這項工作，它對語音訊號進行分析處理，去除對語音識別無關緊要的冗餘資訊，獲得影響語音識別的重要資訊。對於非特定人語音識別來講，希望特徵引數儘可能多的反映語義資訊，儘量減少說話人的個人資訊***對特定人語音識別來講，則相反***。從資訊理論角度講，這是資訊壓縮的過程。

　　線性預測***LP***分析技術是目前應用廣泛的特徵引數提取技術，許多成功的應用系統都採用基於LP技術提取的倒譜引數。但線性預測模型是純數學模型，沒有考慮人類聽覺系統對語音的處理特點。

　　Mel引數和基於感知線性預測***PLP***分析提取的感知線性預測倒譜，在一定程度上模擬了人耳對語音的處理特點，應用了人耳聽覺感知方面的一些研究成果。實驗證明，採用這種技術，語音識別系統的效能有一定提高。

　　也有研究者嘗試把小波分析技術應用於特徵提取，但目前效能難以與上述技術相比，有待進一步研究。

　　***三***模式匹配及模型訓練技術

　　模型訓練是指按照一定的準則，從大量已知模式中獲取表徵該模式本質特徵的模型引數，而模式匹配則是根據一定準則，使未知模式與模型庫中的某一個模型獲得最佳匹配。

　　語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術***DTW***、隱馬爾可夫模型***HMM***和人工神經元網路 ***ANN***。

　　DTW是較早的一種模式匹配和模型訓練技術，它應用動態規劃方法成功解決了語音訊號特徵引數序列比較時時長不等的難題，在孤立詞語音識別中獲得了良好效能。但因其不適合連續語音大詞彙量語音識別系統，目前已被HMM模型和ANN替代。

　　HMM模型是語音訊號時變特徵的有參表示法。它由相互關聯的兩個隨機過程共同描述訊號的統計特性，其中一個是隱蔽的***不可觀測的***具有有限狀態的Markor鏈，另一個是與Markor鏈的每一狀態相關聯的觀察向量的隨機過程***可觀測的***。隱蔽Markor鏈的特徵要靠可觀測到的訊號特徵揭示。這樣，語音等時變訊號某一段的特徵就由對應狀態觀察符號的隨機過程描述，而訊號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型引數包括HMM拓撲結構、狀態轉移概率及描述觀察符號統計特性的一組隨機函式。按照隨機函式的特點，HMM模型可分為離散隱馬爾可夫模型***採用離散概率密度函式，簡稱DHMM***和連續隱馬爾可夫模型***採用連續概率密度函式，簡稱CHMM***以及半連續隱馬爾可夫模型***SCHMM，集DHMM和CHMM特點***。一般來講，在訓練資料足夠的，CHMM優於DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的演算法，並不斷被完善，以增強HMM模型的魯棒性。

　　人工神經元網路在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統，模擬了人類神經元活動的原理，具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的，但ANN又不個有HMM模型的動態時間歸正效能。因此，現在已有人研究如何把二者的優點有機結合起來，從而提高整個模型的魯棒性。

　　二、語音識別的困難與對策

　　目前，語音識別方面的困難主要表現在：

　　***一***語音識別系統的適應性差，主要體現在對環境依賴性強，即在某種環境下采集到的語音訓練系統只能在這種環境下應用，否則系統性能將急劇下降;另外一個問題是對使用者的錯誤輸入不能正確響應，使用不方便。

　　***二***高噪聲環境下語音識別進展困難，因為此時人的發音變化很大，像聲音變高，語速變慢，音調及共振峰變化等等，這就是所謂Lombard效應，必須尋找新的訊號分析處理方法。

　　***三***語言學、生理學、心理學方面的研究成果已有不少，但如何把這些知識量化、建模並用於語音識別，還需研究。而語言模型、語法及詞法模型在中、大詞彙量連續語音識別中是非常重要的。

　　***四***我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次，把這方面的現有成果用於語音識別，還有一個艱難的過程。

　　***五***語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決，識別速度、拒識問題以及關鍵詞***句***檢測技術等等技術細節要解決。

　　三、語音識別技術的前景和應用

　　語音識別技術發展到今天，特別是中小詞彙量非特定人語音識別系統識別精度已經大於98%，對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由於大規模積體電路技術的發展，這些複雜的語音識別系統也已經完全可以製成專用晶片，大量生產。在西方經濟發達國家，大量的語音識別產品已經進入市場和服務領域。一些使用者交機、電話機、手機已經包含了語音識別撥號功能，還有語音記事本、語音智慧玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網路用語音識別口語對話系統查詢有關的機票、旅遊、銀行資訊，並且取得很好的結果。

　　語音識別是一門交叉學科，語音識別正逐步成為資訊科技中人機介面的關鍵技術，語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤，通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。

　　參考文獻：

　　[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展. 企業專欄.通訊世界,2007.2:***總l12期***

　　[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20

　　[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 ***總122期***

　　[4]陳尚勤等.近代語音識別.西安: 電子科技大學出版社,1991

　　[5]王炳錫等.實用語音識別基礎.Practical Fundamentals of Speech Recognition.北京:國防工業出版社,2005

　　[6]***美***L.羅賓納.語音識別基本原理.北京:清華大學出版社,1999

點選下頁還有更多>>>