河北語(yǔ)音識(shí)別代碼

來(lái)源: 發(fā)布時(shí)間:2024-03-20

    LSTM通過(guò)輸入門、輸出門和遺忘門可以更好的控制信息的流動(dòng)和傳遞,具有長(zhǎng)短時(shí)記憶能力。雖然LSTM的計(jì)算復(fù)雜度會(huì)比DNN增加,但其整體性能比DNN有相對(duì)20%左右穩(wěn)定提升。BLSTM是在LSTM基礎(chǔ)上做的進(jìn)一步改進(jìn),考慮語(yǔ)音信號(hào)的歷史信息對(duì)當(dāng)前幀的影響,還要考慮未來(lái)信息對(duì)當(dāng)前幀的影響,因此其網(wǎng)絡(luò)中沿時(shí)間軸存在正向和反向兩個(gè)信息傳遞過(guò)程,這樣該模型可以更充分考慮上下文對(duì)于當(dāng)前語(yǔ)音幀的影響,能夠極大提高語(yǔ)音狀態(tài)分類的準(zhǔn)確率。BLSTM考慮未來(lái)信息的代價(jià)是需要進(jìn)行句子級(jí)更新,模型訓(xùn)練的收斂速度比較慢,同時(shí)也會(huì)帶來(lái)解碼的延遲,對(duì)于這些問(wèn)題,業(yè)屆都進(jìn)行了工程優(yōu)化與改進(jìn),即使現(xiàn)在仍然有很多大公司使用的都是該模型結(jié)構(gòu)。圖像識(shí)別中主流的模型就是CNN,而語(yǔ)音信號(hào)的時(shí)頻圖也可以看作是一幅圖像,因此CNN也被引入到語(yǔ)音識(shí)別中。要想提高語(yǔ)音識(shí)別率,就需要克服語(yǔ)音信號(hào)所面臨的多樣性,包括說(shuō)話人自身、說(shuō)話人所處的環(huán)境、采集設(shè)備等,這些多樣性都可以等價(jià)為各種濾波器與語(yǔ)音信號(hào)的卷積。而CNN相當(dāng)于設(shè)計(jì)了一系列具有局部關(guān)注特性的濾波器,并通過(guò)訓(xùn)練學(xué)習(xí)得到濾波器的參數(shù),從而從多樣性的語(yǔ)音信號(hào)中抽取出不變的部分。目前的主流語(yǔ)音識(shí)別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。河北語(yǔ)音識(shí)別代碼

    該模型比百度上一代DeepPeak2模型提升相對(duì)15%的性能。開源語(yǔ)音識(shí)別Kaldi是業(yè)界語(yǔ)音識(shí)別框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。該模型是一種類似于CTC的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是CDPhone,另一個(gè)是CDPhone的空白,訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有提升。遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是2015年以后開始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居、智能汽車、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的N-Gram方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的指標(biāo)是速度。江蘇語(yǔ)音識(shí)別率語(yǔ)音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語(yǔ)翻譯。

    因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。(3)上述兩個(gè)問(wèn)題的共性是目前的深度學(xué)習(xí)用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來(lái)的一個(gè)方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過(guò)遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離目標(biāo)還有一定差距。(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是終的目的。如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的LSTM已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。(6)讓機(jī)器聽懂人類語(yǔ)言,靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且。

    Hinton提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。2009年,Hinton將DNN應(yīng)用于語(yǔ)音的聲學(xué)建模,在TIMIT上獲得了當(dāng)時(shí)好的結(jié)果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,降低了語(yǔ)音識(shí)別錯(cuò)誤率。從此語(yǔ)音識(shí)別進(jìn)入DNN-HMM時(shí)代。DNN-HMM主要是用DNN模型代替原來(lái)的GMM模型,對(duì)每一個(gè)狀態(tài)進(jìn)行建模,DNN帶來(lái)的好處是不再需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè),將相鄰的語(yǔ)音幀拼接又包含了語(yǔ)音的時(shí)序結(jié)構(gòu)信息,使得對(duì)于狀態(tài)的分類概率有了明顯提升,同時(shí)DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力,可以提升對(duì)噪聲和口音的魯棒性。簡(jiǎn)單來(lái)說(shuō),DNN就是給出輸入的一串特征所對(duì)應(yīng)的狀態(tài)概率。由于語(yǔ)音信號(hào)是連續(xù)的,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位還會(huì)受到上下文的影響。雖然拼幀可以增加上下文信息,但對(duì)于語(yǔ)音來(lái)說(shuō)還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對(duì)語(yǔ)音信號(hào)的上下文信息進(jìn)行建模。由于簡(jiǎn)單的RNN存在梯度炸和梯度消散問(wèn)題,難以訓(xùn)練,無(wú)法直接應(yīng)用于語(yǔ)音信號(hào)建模上,因此學(xué)者進(jìn)一步探索,開發(fā)出了很多適合語(yǔ)音建模的RNN結(jié)構(gòu),其中有名的就是LSTM。語(yǔ)音識(shí)別(Speech Recognition)是以語(yǔ)音為研究對(duì)象。

    用來(lái)描述雙重隨機(jī)過(guò)程。HMM有算法成熟、效率高、易于訓(xùn)練等優(yōu)點(diǎn),被***應(yīng)用于語(yǔ)音識(shí)別、手寫字識(shí)別和天氣預(yù)報(bào)等多個(gè)領(lǐng)域,目前仍然是語(yǔ)音識(shí)別中的主流技術(shù)。HMM包含S1、S2、S3、S4和S55個(gè)狀態(tài),每個(gè)狀態(tài)對(duì)應(yīng)多幀觀察值,這些觀察值是特征序列(o1、o2、o3、o4,...,oT),沿時(shí)刻t遞增,多樣化而且不局限取值范圍,因此其概率分布不是離散的,而是連續(xù)的。自然界中的很多信號(hào)可用高斯分布表示,包括語(yǔ)音信號(hào)。由于不同人發(fā)音會(huì)存在較大差異,具體表現(xiàn)是,每個(gè)狀態(tài)對(duì)應(yīng)的觀察值序列呈現(xiàn)多樣化,單純用一個(gè)高斯函數(shù)來(lái)刻畫其分布往往不夠,因此更多的是采用多高斯組合的GMM來(lái)表征更復(fù)雜的分布。這種用GMM作為HMM狀態(tài)產(chǎn)生觀察值的概率密度函數(shù)(pdf)的模型就是GMM-HMM,每個(gè)狀態(tài)對(duì)應(yīng)的GMM由2個(gè)高斯函數(shù)組合而成。其能夠?qū)?fù)雜的語(yǔ)音變化情況進(jìn)行建模。把GMM-HMM的GMM用DNN替代,HMM的轉(zhuǎn)移概率和初始狀態(tài)概率保持不變。把GMM-HMM的GMM用DNN替代DNN的輸出節(jié)點(diǎn)與所有HMM(包括"a"、"o"等音素)的發(fā)射狀態(tài)一一對(duì)應(yīng),因此可通過(guò)DNN的輸出得到每個(gè)狀態(tài)的觀察值概率。DNN-HMM4.端到端從2015年,端到端模型開始流行,并被應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。聲音從本質(zhì)是一種波,也就是聲波,這種波可以作為一種信號(hào)來(lái)進(jìn)行處理。廣州光纖數(shù)據(jù)語(yǔ)音識(shí)別介紹

在語(yǔ)音對(duì)話場(chǎng)景采買一句話識(shí)別(短語(yǔ)音)接口或者實(shí)時(shí)語(yǔ)音識(shí)別(長(zhǎng)語(yǔ)音流)接口,都屬于流式語(yǔ)音識(shí)別。河北語(yǔ)音識(shí)別代碼

    提升用戶體驗(yàn),仍然是要重點(diǎn)解決的問(wèn)題。口語(yǔ)化。每個(gè)說(shuō)話人的口音、語(yǔ)速和發(fā)聲習(xí)慣都是不一樣的,尤其是一些地區(qū)的口音(如南方口音、山東重口音),會(huì)導(dǎo)致準(zhǔn)確率急劇下降。還有電話場(chǎng)景和會(huì)議場(chǎng)景的語(yǔ)音識(shí)別,其中包含很多口語(yǔ)化表達(dá),如閑聊式的對(duì)話,在這種情況下的識(shí)別效果也很不理想。因此語(yǔ)音識(shí)別系統(tǒng)需要提升自適應(yīng)能力,以便更好地匹配個(gè)性化、口語(yǔ)化表達(dá),排除這些因素對(duì)識(shí)別結(jié)果的影響,達(dá)到準(zhǔn)確穩(wěn)定的識(shí)別效果。低資源。特定場(chǎng)景、方言識(shí)別還存在低資源問(wèn)題。手機(jī)APP采集的是16kHz寬帶語(yǔ)音。有大量的數(shù)據(jù)可以訓(xùn)練,因此識(shí)別效果很好,但特定場(chǎng)景如銀行/證券柜臺(tái)很多采用專門設(shè)備采集語(yǔ)音,保存的采樣格式壓縮比很高,跟一般的16kHz或8kHz語(yǔ)音不同,而相關(guān)的訓(xùn)練數(shù)據(jù)又很缺乏,因此識(shí)別效果會(huì)變得很差。低資源問(wèn)題同樣存在于方言識(shí)別,中國(guó)有七大方言區(qū),包括官話方言(又稱北方方言)、吳語(yǔ)、湘語(yǔ)、贛語(yǔ)、客家話、粵語(yǔ)、閩語(yǔ)(閩南語(yǔ)),還有晉語(yǔ)、湘語(yǔ)等分支,要搜集各地?cái)?shù)據(jù)(包括文本語(yǔ)料)相當(dāng)困難。因此如何從高資源的聲學(xué)模型和語(yǔ)言模型遷移到低資源的場(chǎng)景,減少數(shù)據(jù)搜集的代價(jià),是很值得研究的方向。語(yǔ)種混雜(code-switch)。在日常交流中。河北語(yǔ)音識(shí)別代碼

欧美乱妇精品无乱码亚洲欧美,日本按摩高潮a级中文片三,久久男人电影天堂92,好吊妞在线视频免费观看综合网
最新日本一区二区三区高清 | 中文字幕在线播放素人 | 亚洲国产性爱第一页 | 日本韩欧色色色色色色 | 亚洲国产精品久久久天堂麻豆 | 制服丝袜亚洲精品中文字幕 |