它相對于GMM-HMM系統并沒有什么優勢可言,研究人員還是更傾向于基于統計模型的方法。在20世紀80年代還有一個值得一提的事件,美國3eec6ee2-7378-4724-83b5-9b技術署(NIST)在1987年di一次舉辦了NIST評測,這項評測在后來成為了全球語音評測。20世紀90年代,語音識別進入了一個技術相對成熟的時期,主流的GMM-HMM框架得到了更廣的應用,在領域中的地位越發穩固。聲學模型的說話人自適應(SpeakerAdaptation)方法和區分性訓練(DiscriminativeTraining)準則的提出,進一步提升了語音識別系統的性能。1994年提出的大后驗概率估計(MaximumAPosterioriEstimation,MAP)和1995年提出的*大似然線性回歸(MaximumLikelihoodLinearRegression,MLLR),幫助HMM實現了說話人自適應。*大互信息量(MaximumMutualInformation,MMI)和*小分類錯誤(MinimumClassificationError,MCE)等聲學模型的區分性訓練準則相繼被提出,使用這些區分性準則去更新GMM-HMM的模型參數,可以讓模型的性能得到提升。此外,人們開始使用以音素字詞單元作為基本單元。一些支持大詞匯量的語音識別系統被陸續開發出來,這些系統不但可以做到支持大詞匯量非特定人連續語音識別。一些語音識別系統需要“訓練”(也稱為“注冊”),其中個體說話者將文本或孤立的詞匯讀入系統。廣東云語音識別
該芯片集成了語音識別處理器和一些外部電路,包括A/D、D/A轉換器、麥克風接口、聲音輸出接口等,而且可以播放MP3。不需要外接任何的輔助芯片如FLASH,RAM等,直接集成到產品中即可以實現語音識別、聲控、人機對話功能。MCU通信采用SPI總線方式,時鐘不能超過1.5MHz。麥克風工作電路,音頻輸出只需將揚聲器連接到SPOP和SPON即可。使用SPI總線方式時,LD3320的MD要設為高電平,SPIS設為低電平。SPI總線的引腳有SDI,SDO,SDCK以及SCS。INTB為中斷端口,當有識別結果或MP3數據不足時,會觸發中斷,通知MCU處理。RSTB引腳是LD3320復位端,低電平有效。LED1,LED2作為上電指示燈。3軟件系統設計軟件設計主要有兩部分,分別為移植LD3320官方代碼和編寫語音識別應用程序。3.1移植LD3320源代碼LD3320源代碼是基于51單片機實現的,SPI部分采用的是軟件模擬方式,但在播放MP3數據時會有停頓現象,原因是51單片機主頻較低,導致SPI速率很慢,不能及時更新MP3數據。移植到ATMEGA128需要修改底層寄存器讀寫函數、中斷函數等。底層驅動在Reg_RW.c文件中,首先在Reg_RW.h使用HARD_PARA_PORT宏定義,以支持硬件SPI。湖南c語音識別大規模的語音識別研究始于70年代,并在單個詞的識別方面取得了實質性的進展。
包括語法詞典的構建、語音識別引擎的初始化配置、音頻數據的采集控制和基本語義的解析等;應用數據庫是用戶的數據中心,作為語音識別數據的源頭,語音控制模塊從中提取用戶關鍵數據,并以此為基礎構建本地語法詞典;語音識別離線引擎是語音轉換為文字的關鍵模塊,支持在離線的情況下,根據本地構建的語法網絡,完成非特定人連續語音識別功能,同時具備語音數據前、后端點檢測、聲音除噪處理、識別門限設置等基本功能;音頻采集在本方案中屬于輔助模塊,具備靈活、便捷的語音控制接口,支持在不同采樣要求和采樣環境中,對實時音頻數據的采集。(2)關鍵要素分析本方案工作于離線的網絡環境中,語音數據的采集、識別和語義的解析等功能都在終端完成,因此設備性能的優化和語音識別的準度尤為重要。在具體的實現過程中,存在以下要素需要重點關注。(1)用戶構建的語法文檔在引擎系統初始化時,編譯成語法網絡送往語音識別器,語音識別器根據語音數據的特征信息,在識別網絡上進行路徑匹配,識別并提取用戶語音數據的真實信息,因此語法文檔的語法結構是否合理,直接關系到識別準確率的高低;(2)應用數據庫是作為語音識別數據的源頭,其中的關鍵數據如果有變化。
取距離近的樣本所對應的詞標注為該語音信號的發音。該方法對解決孤立詞識別是有效的,但對于大詞匯量、非特定人連續語音識別就無能為力。因此,進入80年代后,研究思路發生了重大變化,從傳統的基于模板匹配的技術思路開始轉向基于統計模型(HMM)的技術思路。HMM的理論基礎在1970年前后就已經由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人將其應用到語音識別當中。HMM模型假定一個音素含有3到5個狀態,同一狀態的發音相對穩定,不同狀態間是可以按照一定概率進行跳轉;某一狀態的特征分布可以用概率模型來描述,使用***的模型是GMM。因此GMM-HMM框架中,HMM描述的是語音的短時平穩的動態性,GMM用來描述HMM每一狀態內部的發音特征。基于GMM-HMM框架,研究者提出各種改進方法,如結合上下文信息的動態貝葉斯方法、區分性訓練方法、自適應訓練方法、HMM/NN混合模型方法等。這些方法都對語音識別研究產生了深遠影響,并為下一代語音識別技術的產生做好了準備。自上世紀90年代語音識別聲學模型的區分性訓練準則和模型自適應方法被提出以后,在很長一段內語音識別的發展比較緩慢,語音識別錯誤率那條線一直沒有明顯下降。DNN-HMM時代2006年。實時語音識別就是對音頻流進行實時識別。
用來描述雙重隨機過程。HMM有算法成熟、效率高、易于訓練等優點,被***應用于語音識別、手寫字識別和天氣預報等多個領域,目前仍然是語音識別中的主流技術。HMM包含S1、S2、S3、S4和S55個狀態,每個狀態對應多幀觀察值,這些觀察值是特征序列(o1、o2、o3、o4,...,oT),沿時刻t遞增,多樣化而且不局限取值范圍,因此其概率分布不是離散的,而是連續的。自然界中的很多信號可用高斯分布表示,包括語音信號。由于不同人發音會存在較大差異,具體表現是,每個狀態對應的觀察值序列呈現多樣化,單純用一個高斯函數來刻畫其分布往往不夠,因此更多的是采用多高斯組合的GMM來表征更復雜的分布。這種用GMM作為HMM狀態產生觀察值的概率密度函數(pdf)的模型就是GMM-HMM,每個狀態對應的GMM由2個高斯函數組合而成。其能夠對復雜的語音變化情況進行建模。把GMM-HMM的GMM用DNN替代,HMM的轉移概率和初始狀態概率保持不變。把GMM-HMM的GMM用DNN替代DNN的輸出節點與所有HMM(包括"a"、"o"等音素)的發射狀態一一對應,因此可通過DNN的輸出得到每個狀態的觀察值概率。DNN-HMM4.端到端從2015年,端到端模型開始流行,并被應用于語音識別領域。近年來,該領域受益于深度學習和大數據技術的進步。湖南c語音識別
語言建模也用于許多其他自然語言處理應用,如文檔分類或統計機器翻譯。廣東云語音識別
主流方向是更深更復雜的神經網絡技術融合端到端技術。2018年,科大訊飛提出深度全序列卷積神經網絡(DFCNN),DFCNN使用大量的卷積直接對整句語音信號進行建模,主要借鑒了圖像識別的網絡配置,每個卷積層使用小卷積核,并在多個卷積層之后再加上池化層,通過累積非常多卷積池化層對,從而可以看到更多的歷史信息。2018年,阿里提出LFR-DFSMN(LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks)。該模型將低幀率算法和DFSMN算法進行融合,語音識別錯誤率相比上一代技術降低20%,解碼速度提升3倍。FSMN通過在FNN的隱層添加一些可學習的記憶模塊,從而可以有效的對語音的長時相關性進行建模。而DFSMN是通過跳轉避免深層網絡的梯度消失問題,可以訓練出更深層的網絡結構。2019年,百度提出了流式多級的截斷注意力模型SMLTA,該模型是在LSTM和CTC的基礎上引入了注意力機制來獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對語音進行一個小片段一個小片段的增量解碼;多級表示堆疊多層注意力模型;截斷則表示利用CTC模型的尖峰信息,把語音切割成一個一個小片段,注意力模型和解碼可以在這些小片段上展開。在線語音識別率上。廣東云語音識別