什麼是語音識別語音識別的方法

  語音識別技術所涉及的領域包括訊號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。那麼你對語音識別瞭解多少呢?以下是由小編整理關於什麼是語音識別的內容,希望大家喜歡!

  語音識別的簡介

  與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。中國物聯網校企聯盟形象得把語音識別比做為“機器的聽覺系統”。語音識別技術就是讓機器通過識別和理解過程把語音訊號轉變為相應的文字或命令的高技術。 語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車聯網也得到了充分的引用,例如在翼卡車聯網中,只需按一鍵通客服人員口述即可設定目的地直接導航,安全、便捷。

  語音識別的方法

  語音識別方法主要是模式匹配法。

  在訓練階段,使用者將詞彙表中的每一詞依次說一遍,並且將其特徵向量作為模板存入模板庫。

  在識別階段,將輸入語音的特徵向量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。

  語音識別的主要問題

  ⒈對自然語言的識別和理解。首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理解語義的規則。

  ⒉語音資訊量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音資訊是不同的。一個人的說話方式隨著時間變化。

  ⒊語音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。

  ⒋單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調、音量和發音速度等。

  ⒌環境噪聲和干擾對語音識別有嚴重影響,致使識別率低。

  語音識別系統的實現

  語音識別系統選擇識別基元的要求是,有準確的定義,能得到足夠資料進行訓練,具有一般性。英語通常採用上下文相關的音素建模,漢語的協同發音不如英語嚴重,可以採用音節建模。系統所需的訓練資料大小與模型複雜度有關。模型設計得過於複雜以至於超出了所提供的訓練資料的能力,會使得效能急劇下降。

  聽寫機:大詞彙量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向後向演算法獲得模型引數,識別時,將基元串接成詞,詞間加上靜音模型並引入語言模型作為詞間轉移概率,形成迴圈結構,用Viterbi演算法進行解碼。針對漢語易於分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。

  對話系統:用於實現人機口語對話的系統稱為對話系統。受目前技術所限,對話系統往往是面向一個狹窄領域、詞彙量有限的系統,其題材有旅遊查詢、訂票、資料庫檢索等等。其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義資訊,再由對話管理器確定應答資訊,由語音合成器輸出。由於目前的系統往往詞彙量有限,也可以用提取關鍵詞的方法來獲取語義資訊。

語音識別的方法