壓力容器
[拼音]:yuyin shibie
[英文]:Speech recognition
用模式識別方法提取語音訊號特徵並加以分類的技術。比語音識別更進一步的技術是語音理解,它在語音識別的基礎上還應用語音學、句法和語義等有關知識,是人工智慧的研究領域。語音識別按複雜程度的不同可分為孤立單詞(或單字)識別和連續語音識別。有時把說話者識別也歸入語音識別的範圍。
現代語音識別的主要過程是:語音訊號經傳聲器轉換為電訊號,經過取樣和量化轉換為數字訊號,輸入計算機中進行識別。計算機識別過程包括特徵抽取和分類判別。
數字語音訊號資料量大,不利於直接進行分類判別,需要先提取有代表性的主要特徵。常用的有兩種方法。
(1)線性預測係數法:取樣後的語音訊號是一個時間序列,可以用一定階次的引數模型來表示,常用的是自迴歸模型,並用這一模型的係數組成特徵向量。
(2)功率譜法:用一組不同通帶的濾波器抽取一些頻段的功率譜值,作為特徵量。
分類判別主要採用模板匹配法,即在計算機中存入一組已知類別的標準語音的特徵向量,稱為樣板。未知語音輸入經特徵抽取後,求它同各樣板間的距離。同未知語音距離最小的樣板所對應的類別就是識別結果。
句法模式識別方法(見結構模式識別)也可用於語音識別,特別是連續語音的識別和分析。這樣就可用形式語言的理論來分析單詞或句子的結構關係。
語音識別系統的效能指標主要有四項。
(1)詞彙表範圍:這是指機器能識別的單詞或片語的範圍,如不作任何限制,則可認為詞彙表範圍是無限的。
(2)說話人限制:是僅能識別指定發話者的語音,還是對任何發話人的語音都能識別。
(3)訓練要求:使用前要不要訓練,即是否讓機器先“聽”一下給定的語音,以及訓練次數的多少。
(4)正確識別率:平均正確識別的百分數,它與前面三個指標有關。
不同人講同一詞或單字時,或同一人在不同條件下講同一詞或單字時,語音訊號有很大差異,而某些不同的字或詞的語音訊號又很相似,因而機器很難像人一樣對不同詞有很高的分辨能力。此外,連續語音的字與字之間存在混疊,字在不同位置又有音調的變化,一個字或詞的起點和終點也很難分清,這都給語音識別帶來困難。
語音識別的應用很廣泛,如音控自動電話、產品檢驗、郵件自動分類、語音數控機床、自動排版、說話者識別、倉庫貨場登記、語音打字、飛行管理、航天員演習、辦公室自動化和家務機器人等。