深圳數字語音識別介紹

來源: 發布時間:2023-12-30

    人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。聲學模型是語音識別系統中為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。搜索是在指定的空間當中,按照一定的優化準則,尋找優詞序列的過程。搜索的本質是問題求解,應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到優的狀態序列。終的詞序列是對輸入的語音信號在一定準則下的一個優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較。特別是遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用為成功的技術之一。深圳數字語音識別介紹

    即在解碼端通過搜索技術尋找優詞串的方法。連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,并設置一個長詞懲罰分數。語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,佳匹配的參考模式被作為識別結果。當今語音識別技術的主流算法,主要有基于動態時間規整(DTW)算法、基于非參數模型的矢量量化(VQ)方法、基于參數模型的隱馬爾可夫模型(HMM)的方法、以及近年來基于深度學習和支持向量機等語音識別方法。站在巨人的肩膀上:開源框架目前開源世界里提供了多種不同的語音識別工具包,為開發者構建應用提供了很大幫助。但這些工具各有優劣,需要根據具體情況選擇使用。下表為目前相對流行的工具包間的對比,大多基于傳統的HMM和N-Gram語言模型的開源工具包。對于普通用戶而言,大多數人都會知道Siri或Cortana這樣的產品。而對于研發工程師來說,更靈活、更具專注性的解決方案更符合需求,很多公司都會研發自己的語音識別工具。(1)CMUSphinix是卡內基梅隆大學的研究成果。深圳數字語音識別介紹怎么構建語音識別系統?語音識別系統構建總體包括兩個部分:訓練和識別。

    它相對于GMM-HMM系統并沒有什么優勢可言,研究人員還是更傾向于基于統計模型的方法。在20世紀80年代還有一個值得一提的事件,美國3eec6ee2-7378-4724-83b5-9b技術署(NIST)在1987年di一次舉辦了NIST評測,這項評測在后來成為了全球語音評測。20世紀90年代,語音識別進入了一個技術相對成熟的時期,主流的GMM-HMM框架得到了更廣的應用,在領域中的地位越發穩固。聲學模型的說話人自適應(SpeakerAdaptation)方法和區分性訓練(DiscriminativeTraining)準則的提出,進一步提升了語音識別系統的性能。1994年提出的大后驗概率估計(MaximumAPosterioriEstimation,MAP)和1995年提出的*大似然線性回歸(MaximumLikelihoodLinearRegression,MLLR),幫助HMM實現了說話人自適應。*大互信息量(MaximumMutualInformation,MMI)和*小分類錯誤(MinimumClassificationError,MCE)等聲學模型的區分性訓練準則相繼被提出,使用這些區分性準則去更新GMM-HMM的模型參數,可以讓模型的性能得到提升。此外,人們開始使用以音素字詞單元作為基本單元。一些支持大詞匯量的語音識別系統被陸續開發出來,這些系統不但可以做到支持大詞匯量非特定人連續語音識別。

    什么是語音識別?語音識別(AutomaticSpeechRecognition,ASR):通俗地講語音識別就是將人類的聲音信號轉化為文字或者指令的過程。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域。語音識別基本原理語音識別系統基本原理:其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間假設。更重要的是體現在世界范圍內的各行各業在設計和部署語音識別系統時均采用了各種深度學習方法。

    并能產生興趣投身于這個行業。語音識別的技術歷程現代語音識別可以追溯到1952年,Davis等人研制了能識別10個英文數字發音的實驗系統,從此正式開啟了語音識別的進程。語音識別發展已經有70多年,但從技術方向上可以大體分為三個階段。從1993年到2017年在Switchboard上語音識別率的進展情況,從圖中也可以看出1993年到2009年,語音識別一直處于GMM-HMM時代,語音識別率提升緩慢,尤其是2000年到2009年語音識別率基本處于停滯狀態;2009年隨著深度學習技術,特別是DNN的興起,語音識別框架變為DNN-HMM,語音識別進入了DNN時代,語音識別準率得到了提升;2015年以后,由于“端到端”技術興起,語音識別進入了百花齊放時代,語音界都在訓練更深、更復雜的網絡,同時利用端到端技術進一步大幅提升了語音識別的性能,直到2017年微軟在Swichboard上達到詞錯誤率,從而讓語音識別的準確性超越了人類,當然這是在一定限定條件下的實驗結果,還不具有普遍性。GMM-HMM時代70年代,語音識別主要集中在小詞匯量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特征構建參數模板,然后將測試語音與參考模板參數進行一一比較和匹配。信號處理和特征提取可以視作音頻數據的預處理部分,一般來說,一段高保真、無噪聲的語言是非常難得的。廣西長語音識別

隨著語音識別技術在未來的不斷發展,語音識別芯片的不敢提高,給我們的生活帶來了更大的便利和智能化。深圳數字語音識別介紹

    LSTM)的循環神經網絡RNN,能夠通過遺忘門和輸出門忘記部分信息來解決梯度消失的問題。由LSTM也衍生出了許多變體,較為常用的是門控循環單元(GatedRecurrentUnit,GRU),在訓練數據很大的情況下GRU相比LSTM參數更少,因此更容易收斂,從而能節省很多時間。LSTM及其變體使得識別效果再次得到提升,尤其是在近場的語音識別任務上達到了可以滿足人們日常生活的標準。另外,時延神經網絡(TimeDelayNeuralNetwork,TDNN)也獲得了不錯的識別效果,它可以適應語音的動態時域變化,能夠學習到特征之間的時序依賴。深度學習技術在近十幾年中,一直保持著飛速發展的狀態,它也推動語音識別技術不斷取得突破。尤其是近幾年,基于端到端的語音識別方案逐漸成了行業中的關注重點,CTC(ConnectionistTemporalClassification)算法就是其中一個較為經典的算法。在LSTM-CTC的框架中,后一層往往會連接一個CTC模型,用它來替換HMM。CTC的作用是將Softmax層的輸出向量直接輸出成序列標簽,這樣就實現了輸入語音和輸出結果的直接映射,也實現了對整個語音的序列建模。2012年,Graves等人又提出了循環神經網絡變換器RNNTransducer,它是CTC的一個擴展,能夠整合聲學模型與語言模型,同時進行優化。深圳數字語音識別介紹

欧美乱妇精品无乱码亚洲欧美,日本按摩高潮a级中文片三,久久男人电影天堂92,好吊妞在线视频免费观看综合网
一本一本久久a久久精品66 | 中文字幕永久在线网站 | 亚洲综合一区二区国产精品 | 亚洲好AV中文在线 | 亚洲国产午夜精品不卡 | 午夜福利在线视频网址 |