我們來看一個簡單的例子,假設詞典包含:jin1tian1語音識別過程則"jin天"的詞HMM由"j"、"in1"、"t"和"ian1"四個音素HMM串接而成,形成一個完整的模型以進行解碼識別。這個解碼過程可以找出每個音素的邊界信息,即每個音素(包括狀態)對應哪些觀察值(特征向量),均可以匹配出來。音素狀態與觀察值之間的匹配關系用概率值衡量,可以用高斯分布或DNN來描述。從句子到狀態序列的分解過程語音識別任務有簡單的孤立詞識別,也有復雜的連續語音識別,工業應用普遍要求大詞匯量連續語音識別(LVCSR)。主流的語音識別系統框架。對輸入的語音提取聲學特征后,得到一序列的觀察值向量,再將它們送到解碼器識別,后得到識別結果。解碼器一般是基于聲學模型、語言模型和發音詞典等知識源來識別的,這些知識源可以在識別過程中動態加載,也可以預先編譯成統一的靜態網絡,在識別前一次性加載。發音詞典要事先設計好,而聲學模型需要由大批量的語音數據(涉及各地口音、不同年齡、性別、語速等方面)訓練而成,語言模型則由各種文本語料訓練而成。為保證識別效果,每個部分都需要精細的調優,因此對系統研發人員的專業背景有較高的要求。在語音識別中,豐富的樣本數據是推動系統性能快速提升的重要前提。山東谷歌語音識別
并能產生興趣投身于這個行業。語音識別的技術歷程現代語音識別可以追溯到1952年,Davis等人研制了能識別10個英文數字發音的實驗系統,從此正式開啟了語音識別的進程。語音識別發展已經有70多年,但從技術方向上可以大體分為三個階段。從1993年到2017年在Switchboard上語音識別率的進展情況,從圖中也可以看出1993年到2009年,語音識別一直處于GMM-HMM時代,語音識別率提升緩慢,尤其是2000年到2009年語音識別率基本處于停滯狀態;2009年隨著深度學習技術,特別是DNN的興起,語音識別框架變為DNN-HMM,語音識別進入了DNN時代,語音識別準率得到了提升;2015年以后,由于“端到端”技術興起,語音識別進入了百花齊放時代,語音界都在訓練更深、更復雜的網絡,同時利用端到端技術進一步大幅提升了語音識別的性能,直到2017年微軟在Swichboard上達到詞錯誤率,從而讓語音識別的準確性超越了人類,當然這是在一定限定條件下的實驗結果,還不具有普遍性。GMM-HMM時代70年代,語音識別主要集中在小詞匯量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特征構建參數模板,然后將測試語音與參考模板參數進行一一比較和匹配。山東谷歌語音識別大數據與深度神經網絡時代的到來,語音識別技術取得了突飛猛進的進步。
業界大部分都是按照靜態解碼的方式進行,即將聲學模型和語言模型構造成WFST網絡,該網絡包含了所有可能路徑,解碼就是在該空間進行搜索的過程。由于該理論相對成熟,更多的是工程優化的問題,所以不論是學術還是產業目前關注的較少。語音識別的技術趨勢語音識別主要趨于遠場化和融合化的方向發展,但在遠場可靠性還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術。新的技術應該徹底解決這些問題,讓機器聽覺遠超人類的感知能力。這不能只是算法的進步,需要整個產業鏈的共同技術升級,包括更為先進的傳感器和算力更強的芯片。單從遠場語音識別技術來看,仍然存在很多挑戰,包括:(1)回聲消除技術。由于喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除干凈,這也阻礙了語音交互系統的推廣,現有的基于深度學習的回聲消除技術都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學習將非線性失真進行擬合,同時結合信號處理手段可能是一個好的方向。(2)噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學習擅長處理非線性問題,而實際問題一定是線性和非線性的疊加。
需要及時同步更新本地語法詞典,以保證離線語音識別的準度;(3)音頻數據在離線引擎中的解析占用CPU資源,因此音頻采集模塊在數據采集時,需要開啟靜音檢測功能,將首端的靜音切除,不僅可以為語音識別排除干擾,同時能有效降低離線引擎對處理器的占用率;(4)為保證功能的實用性和語音識別的準度,需要在語音采集過程中增加異常處理操作。首先在離線引擎中需要開啟后端靜音檢測功能,若在規定時間內,未收到有效語音數據,則自動停止本次語音識別;其次,需要在離線引擎中開啟識別門限控制,如果識別結果未能達到所設定的門限,則本次語音識別失敗;(5)通過語音識別接口,向引擎系統獲取語音識別結果時,需要反復調用以取得引擎系統的識別狀態,在這個過程中,應適當降低接口的調用頻率,以防止CPU資源的浪費。2語音呼叫軟件的實現語音呼叫軟件廣泛應用于電話通信領域,是一款典型的在特定領域內,實現非特定人連續語音識別功能的應用軟件。由于其部署場景較多,部分場景處于離線的網絡環境中,適合采用本方案進行軟件設計。,語音識別準確率的高低是影響方案可行性的關鍵要素,離線引擎作為語音識別,它的工作性能直接關系到軟件的可用性。本軟件在實現過程中。語音識別技術在個人助理、智能家居等很多領域都有運用到。
CNN本質上也可以看作是從語音信號中不斷抽取特征的一個過程。CNN相比于傳統的DNN模型,在相同性能情況下,前者的參數量更少。綜上所述,對于建模能力來說,DNN適合特征映射到空間,LSTM具有長短時記憶能力,CNN擅長減少語音信號的多樣性,因此一個好的語音識別系統是這些網絡的組合。端到端時代語音識別的端到端方法主要是代價函數發生了變化,但神經網絡的模型結構并沒有太大變化。總體來說,端到端技術解決了輸入序列的長度遠大于輸出序列長度的問題。端到端技術主要分成兩類:一類是CTC方法,另一類是Sequence-to-Sequence方法。傳統語音識別DNN-HMM架構里的聲學模型,每一幀輸入都對應一個標簽類別,標簽需要反復的迭代來確保對齊更準確。采用CTC作為損失函數的聲學模型序列,不需要預先對數據對齊,只需要一個輸入序列和一個輸出序列就可以進行訓練。CTC關心的是預測輸出的序列是否和真實的序列相近,而不關心預測輸出序列中每個結果在時間點上是否和輸入的序列正好對齊。CTC建模單元是音素或者字,因此它引入了Blank。對于一段語音,CTC**后輸出的是尖峰的序列,尖峰的位置對應建模單元的Label,其他位置都是Blank。語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。貴州語音識別模塊
語音識別是項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智能等基礎學科。山東谷歌語音識別
主流的語音識別系統框架03語音識別發展歷史羅馬城不是***建成的,語音識別近些年的爆發也并非一朝一夕可以做到的,而是經過了一段漫長的發展歷程。從初的語音識別雛形,到高達90%以上準確率的現在,經過了大約100年的時間。在電子計算機被發明之前的20世紀20年dai,sheng產的一種叫作"RadioRex"的玩具狗被認為是世界上早的語音識別器。每當有人喊出"Rex"這個詞時,這只狗就從底座上彈出來,以此回應人類的"呼喚"。但是實際上,它使用的技術并不是真正意義上的語音識別技術,而是使用了一個特殊的彈簧,每當該彈簧接收到頻率為500Hz的聲音時,它就會被自動釋放,而500Hz恰好就是人們喊出"Rex"時的***個共振峰的頻率。"RadioRex"玩具狗被視為語音識別的雛形。真正意義上的語音識別研究起源于20世紀50年代。先是美國的AT&TBell實驗室的Davis等人成功開發出了世界上di一個孤立詞語音識別系統——Audry系統,該系統能夠識別10個英文數字的發音,正確率高達98%。1956年,美國普林斯頓大學的實驗室使用模擬濾波器組提取出元音的頻譜后,通過模板匹配。建立了針對特定說話人的包括10個單音節詞的語音識別系統。1959年。山東谷歌語音識別