福建語音識別模塊

來源: 發布時間:2024-03-25

    MarkGales和SteveYoung在2007年對HMM在語音識別中的應用做了詳細闡述。隨著統計模型的成功應用,HMM開始了對語音識別數十年的統治,直到現今仍被看作是領域內的主流技術。在DARPA的語音研究計劃的資助下,又誕生了一批的語音識別系統,其中包括李開復()在卡耐基梅隆大學攻讀博士學位時開發的SPHINX系統。該系統也是基于統計模型的非特定說話人連續語音識別系統,其采用了如下技術:①用HMM對語音狀態的轉移概率建模;②用高斯混合模型(GaussianMixtureModel,GMM)對語音狀態的觀察值概率建模。這種把上述二者相結合的方法,稱為高斯混合模型-隱馬爾可夫模型(GaussianMixtureModel-HiddenMarkovModel,GMM-HMM)[9]。在深度學習熱潮出現之前,GMM-HMM一直是語音識別主流的技術。值得注意的是,在20世紀80年代末,隨著分布式知識表達和反向傳播算法(Backpropagation,BP)的提出,解決了非線性學習問題,于是關于神經網絡的研究興起,人工神經網絡(ArtificialNeuralNetwork,ANN)被應用到語音領域并且掀起了一定的熱潮。這是具有里程碑意義的事件。它為若干年后深度學習在語音識別中的崛起奠定了一定的基礎。但是由于人工神經網絡其自身的缺陷還未得到完全解決。它融合了語言學、計算機科學和電氣工程領域的知識和研究。福建語音識別模塊

    英國倫敦大學的科學家Fry和Denes等人di一次利用統計學的原理構建出了一個可以識別出4個元音和9個輔音的音素識別器。在同一年,美國麻省理工學院林肯實驗室的研究人員則shou次實現了可以針對非特定人的可識別10個元音音素的識別器。語音識別技術的發展歷史,主要包括模板匹配、統計模型和深度學習三個階段。di一階段:模板匹配(DTW)20世紀60年代,一些重要的語音識別的經典理論先后被提出和發表出來。1964年,Martin為了解決語音時長不一致的問題,提出了一種時間歸一化的方法,該方法可以可靠地檢測出語音的端點,這可以有效地降低語音時長對識別結果的影響,使語音識別結果的可變性減小了。1966年,卡耐基梅隆大學的Reddy利用動態音素的方法進行了連續語音識別,這是一項開創性的工作。1968年,前蘇聯科學家Vintsyukshou次提出將動態規劃算法應用于對語音信號的時間規整。雖然在他的工作中,動態時間規整的概念和算法原型都有體現,但在當時并沒有引起足夠的重視。這三項研究工作,為此后幾十年語音識別的發展奠定了堅實的基礎。雖然在這10年中語音識別理論取得了明顯的進步。但是這距離實現真正實用且可靠的語音識別系統的目標依舊十分遙遠。20世紀70年代。寧夏語音識別云語音識別應用包括語音用戶界面,例如語音撥號、呼叫路由、多用戶設備控制、搜索、簡單的數據輸入等。

    語音識別自半個世紀前誕生以來,一直處于不溫不火的狀態,直到2009年深度學習技術的長足發展才使得語音識別的精度提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,并分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,并能產生興趣投身于這個行業。語音識別,通常稱為自動語音識別,英文是AutomaticSpeechRecognition,縮寫為ASR,主要是將人類語音中的詞匯內容轉換為計算機可讀的輸入,一般都是可以理解的文本內容,也有可能是二進制編碼或者字符序列。但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別(SpeechToText,STT)更合適,這樣就能與語音合成(TextToSpeech,TTS)對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智能等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。但是,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,一方面這與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求。

    

    美國**部下屬的一個名為美國**高級研究計劃局(DefenseAdvancedResearchProjectsAgency,DARPA)的行政機構,在20世紀70年代介入語音領域,開始資助一項旨在支持語言理解系統的研究開發工作的10年戰略計劃。在該計劃推動下,誕生了一系列不錯的研究成果,如卡耐基梅隆大學推出了Harpy系統,其能識別1000多個單詞且有不錯的識別率。第二階段:統計模型(GMM-HMM)到了20世紀80年代,更多的研究人員開始從對孤立詞識別系統的研究轉向對大詞匯量連續語音識別系統的研究,并且大量的連續語音識別算法應運而生,例如分層構造(LevelBuilding)算法等。同時,20世紀80年代的語音識別研究相較于20世紀70年代,另一個變化是基于統計模型的技術逐漸替代了基于模板匹配的技術。統計模型兩項很重要的成果是聲學模型和語言模型,語言模型以n元語言模型(n-gram),聲學模型以HMM。HMM的理論基礎在1970年前后由Baum等人建立,隨后由卡耐基梅隆大學(CMU)的Baker和IBM的Jelinek等人應用到語音識別中。在20世紀80年代中期,Bell實驗室的.Rabiner等人對HMM進行了深入淺出的介紹。并出版了語音識別專著FundamentalsofSpeechRecognition,有力地推動了HMM在語音識別中的應用。得益于深度學習研究的突破以及大量語音數據的積累,語音識別技術得到了突飛猛進的發展。

    而且有的產品在可用性方面達到了很好的性能,例如微軟公司的Whisper、貝爾實驗室的***TO、麻省理工學院的SUMMIT系統、IBM的ViaVioce系統。英國劍橋大學SteveYoung開創的語音識別工具包HTK(HiddenMarkovToolKit),是一套開源的基于HMM的語音識別軟件工具包,它采用模塊化設計,而且配套了非常詳細的HTKBook文檔,這既方便了初學者的學習、實驗(HTKBook文檔做得很好),也為語音識別的研究人員提供了專業且便于搭建的開發平臺。HTK自1995年發布以來,被采用。即便如今,大部分人在接受語音專業啟蒙教育時,依然還是要通過HTK輔助將理論知識串聯到工程實踐中??梢哉f,HTK對語音識別行業的發展意義重大。進入21世紀頭幾年,基于GMM-HMM的框架日臻成熟完善,人們對語音識別的要求已經不再滿足于簡單的朗讀和對話,開始將目光著眼于生活中的普通場景,因此研究的重點轉向了具有一定識別難度的日常流利對話、電話通話、會議對話、新聞廣播等一些貼近人類實際應用需求的場景。但是在這些任務上,基于GMM-HMM框架的語音識別系統的表現并不能令人滿意。識別率達到80%左右后,就無法再取得突破。人們發現一直占據主流的GMM-HMM框架也不是wan能的。語音識別還無法做到無限制領域、無限制人群的應用,但是至少從應用實踐中我們看到了一些希望。廣州量子語音識別內容

語音識別(Speech Recognition)是以語音為研究對象。福建語音識別模塊

    CNN本質上也可以看作是從語音信號中不斷抽取特征的一個過程。CNN相比于傳統的DNN模型,在相同性能情況下,前者的參數量更少。綜上所述,對于建模能力來說,DNN適合特征映射到空間,LSTM具有長短時記憶能力,CNN擅長減少語音信號的多樣性,因此一個好的語音識別系統是這些網絡的組合。端到端時代語音識別的端到端方法主要是代價函數發生了變化,但神經網絡的模型結構并沒有太大變化。總體來說,端到端技術解決了輸入序列的長度遠大于輸出序列長度的問題。端到端技術主要分成兩類:一類是CTC方法,另一類是Sequence-to-Sequence方法。傳統語音識別DNN-HMM架構里的聲學模型,每一幀輸入都對應一個標簽類別,標簽需要反復的迭代來確保對齊更準確。采用CTC作為損失函數的聲學模型序列,不需要預先對數據對齊,只需要一個輸入序列和一個輸出序列就可以進行訓練。CTC關心的是預測輸出的序列是否和真實的序列相近,而不關心預測輸出序列中每個結果在時間點上是否和輸入的序列正好對齊。CTC建模單元是音素或者字,因此它引入了Blank。對于一段語音,CTC**后輸出的是尖峰的序列,尖峰的位置對應建模單元的Label,其他位置都是Blank。福建語音識別模塊

欧美乱妇精品无乱码亚洲欧美,日本按摩高潮a级中文片三,久久男人电影天堂92,好吊妞在线视频免费观看综合网
亚洲九九视频一区 | 日韩国产欧美综合在线 | 一区二区国产高清视频在线 | 一a在线视频插进去了 | 亚洲欧美在线第一 | 综合久久综合久久 |