LSTM通過輸入門、輸出門和遺忘門可以更好的控制信息的流動(dòng)和傳遞,具有長(zhǎng)短時(shí)記憶能力。雖然LSTM的計(jì)算復(fù)雜度會(huì)比DNN增加,但其整體性能比DNN有相對(duì)20%左右穩(wěn)定提升。BLSTM是在LSTM基礎(chǔ)上做的進(jìn)一步改進(jìn),考慮語音信號(hào)的歷史信息對(duì)當(dāng)前幀的影響,還要考慮未來信息對(duì)當(dāng)前幀的影響,因此其網(wǎng)絡(luò)中沿時(shí)間軸存在正向和反向兩個(gè)信息傳遞過程,這樣該模型可以更充分考慮上下文對(duì)于當(dāng)前語音幀的影響,能夠極大提高語音狀態(tài)分類的準(zhǔn)確率。BLSTM考慮未來信息的代價(jià)是需要進(jìn)行句子級(jí)更新,模型訓(xùn)練的收斂速度比較慢,同時(shí)也會(huì)帶來解碼的延遲,對(duì)于這些問題,業(yè)屆都進(jìn)行了工程優(yōu)化與改進(jìn),即使現(xiàn)在仍然有很多大公司使用的都是該模型結(jié)構(gòu)。圖像識(shí)別中主流的模型就是CNN,而語音信號(hào)的時(shí)頻圖也可以看作是一幅圖像,因此CNN也被引入到語音識(shí)別中。要想提高語音識(shí)別率,就需要克服語音信號(hào)所面臨的多樣性,包括說話人自身、說話人所處的環(huán)境、采集設(shè)備等,這些多樣性都可以等價(jià)為各種濾波器與語音信號(hào)的卷積。而CNN相當(dāng)于設(shè)計(jì)了一系列具有局部關(guān)注特性的濾波器,并通過訓(xùn)練學(xué)習(xí)得到濾波器的參數(shù),從而從多樣性的語音信號(hào)中抽取出不變的部分。語音識(shí)別的基本原理是現(xiàn)有的識(shí)別技術(shù)按照識(shí)別對(duì)象可以分為特定人識(shí)別和非特定人識(shí)別。廣西語音識(shí)別設(shè)置
選用業(yè)界口碑較好的訊飛離線語音識(shí)別庫(kù),該庫(kù)采用巴科斯范式語言描述語音識(shí)別的語法,可以支持的離線命令詞的合,滿足語音撥號(hào)軟件的工作需求。其中,編寫的語法文檔主要部分如下:!start;:[];:我想|我要|請(qǐng)|幫我;:[];:給!id(10001)|打給!id(10001)|打電話給!id(10001)|撥打!id(10001)|呼叫!id(10001);:打電話!id(10001)|打個(gè)電話!id(10001)|撥打電話!id(10001)|撥電話!id(10001)|撥個(gè)電話!id(10001)|的電話!id(10001);:丁偉|李平;本文件覆蓋了電話呼叫過程中的基本語法,其中中的數(shù)據(jù),需要根據(jù)用戶數(shù)據(jù)庫(kù)進(jìn)行補(bǔ)充,其它、、中的內(nèi)容,用戶根據(jù)自己的生活習(xí)慣和工作需要進(jìn)行完善。另外,語音撥號(hào)軟件的應(yīng)用數(shù)據(jù)庫(kù)為電話薄數(shù)據(jù)庫(kù),電話薄中的用戶姓名是構(gòu)建語法文檔的關(guān)鍵數(shù)據(jù);音頻采集模塊采用增強(qiáng)型Linux聲音架構(gòu)ALSA庫(kù)實(shí)現(xiàn)。語音撥號(hào)軟件工作流程語音撥號(hào)軟件的工作流程如圖2所示,電話薄數(shù)據(jù)庫(kù)、語音識(shí)別控制模塊、訊飛離線識(shí)別引擎和ALSA庫(kù)相互配合,共同完成語音識(shí)別的啟動(dòng)、識(shí)別和結(jié)束。具體流程如下:(1)構(gòu)建BNF文檔:控制模塊搜索本地電話薄數(shù)據(jù)庫(kù),導(dǎo)出用戶數(shù)據(jù)信息,按照巴科斯范式語法,生成基于本地?cái)?shù)據(jù)庫(kù)的語法文檔;。廣西遠(yuǎn)場(chǎng)語音識(shí)別語音識(shí)別,通常稱為自動(dòng)語音識(shí)別。
傳統(tǒng)的人機(jī)交互依靠復(fù)雜的鍵盤或按鈕來實(shí)現(xiàn),隨著科技的發(fā)展,一些新型的人機(jī)交互方式也隨之誕生,帶給人們?nèi)碌捏w驗(yàn)。基于語音識(shí)別的人機(jī)交互方式是目前熱門的技術(shù)之一。但是語音識(shí)別功能算法復(fù)雜、計(jì)算量大,一般在計(jì)算機(jī)上實(shí)現(xiàn),即使是嵌入式方面,多數(shù)方案也需要運(yùn)算能力強(qiáng)的ARM或DSP,并且外擴(kuò)RAM、FLASH等資源,增加了硬件成本,這些特點(diǎn)無疑限制了語音識(shí)別技術(shù)的應(yīng)用,尤其是嵌入式領(lǐng)域。本系統(tǒng)采用的主控MCU為Atmel公司的ATMEGA128,語音識(shí)別功能則采用ICRoute公司的單芯片LD3320。LD3320內(nèi)部集成優(yōu)化過的語音識(shí)別算法,無需外部FLASH,RAM資源,可以很好地完成非特定人的語音識(shí)別任務(wù)。1整體方案設(shè)計(jì)1.1語音識(shí)別原理在計(jì)算機(jī)系統(tǒng)中,語音信號(hào)本身的不確定性、動(dòng)態(tài)性和連續(xù)性是語音識(shí)別的難點(diǎn)。主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。2.1控制器電路控制器選用Atmel公司生產(chǎn)的ATMEGA128芯片,采用先進(jìn)的RISC結(jié)構(gòu),內(nèi)置128KBFLASH,4KBSRAM,4KBE2PROM等豐富資源。該芯片是業(yè)界高性能、低功耗的8位微處理器,并在8位單片機(jī)市場(chǎng)有著廣泛應(yīng)用。2.2LD3320語音識(shí)別電路LD3320芯片是一款“語音識(shí)別”芯片。
英國(guó)倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計(jì)學(xué)的原理構(gòu)建出了一個(gè)可以識(shí)別出4個(gè)元音和9個(gè)輔音的音素識(shí)別器。在同一年,美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室的研究人員則shou次實(shí)現(xiàn)了可以針對(duì)非特定人的可識(shí)別10個(gè)元音音素的識(shí)別器。語音識(shí)別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)三個(gè)階段。di一階段:模板匹配(DTW)20世紀(jì)60年代,一些重要的語音識(shí)別的經(jīng)典理論先后被提出和發(fā)表出來。1964年,Martin為了解決語音時(shí)長(zhǎng)不一致的問題,提出了一種時(shí)間歸一化的方法,該方法可以可靠地檢測(cè)出語音的端點(diǎn),這可以有效地降低語音時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果的影響,使語音識(shí)別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的Reddy利用動(dòng)態(tài)音素的方法進(jìn)行了連續(xù)語音識(shí)別,這是一項(xiàng)開創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動(dòng)態(tài)規(guī)劃算法應(yīng)用于對(duì)語音信號(hào)的時(shí)間規(guī)整。雖然在他的工作中,動(dòng)態(tài)時(shí)間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時(shí)并沒有引起足夠的重視。這三項(xiàng)研究工作,為此后幾十年語音識(shí)別的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。雖然在這10年中語音識(shí)別理論取得了明顯的進(jìn)步。但是這距離實(shí)現(xiàn)真正實(shí)用且可靠的語音識(shí)別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn)。20世紀(jì)70年代。智能玩具語音識(shí)別技術(shù)的智能化也讓玩具行業(yè)進(jìn)行了變革,比如智能語音娃娃、智能語音兒童機(jī)器人。
DTW)技術(shù)基本成熟,特別提出了矢量量化(Vec?torQuantization,VQ)和隱馬爾可夫模型(HiddenMar?kovModel,HMM)理論。20世紀(jì)80年代,語音識(shí)別任務(wù)開始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時(shí)變性和平穩(wěn)性,開始被應(yīng)用于大詞匯量連續(xù)語音識(shí)別(LargeVocabularyContinousSpeechRecognition,LVCSR)的聲學(xué)建模;在語言模型方面,以N元文法的統(tǒng)計(jì)語言模型開始應(yīng)用于語音識(shí)別系統(tǒng)。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始應(yīng)用于LVCSR系統(tǒng),語音識(shí)別技術(shù)取得新突破。20世紀(jì)90年代以后,伴隨著語音識(shí)別系統(tǒng)走向?qū)嵱没Z音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識(shí)別算法以及進(jìn)一步的語言模型的研究等課題。此外,語音識(shí)別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識(shí)別技術(shù)的產(chǎn)品化。怎么構(gòu)建語音識(shí)別系統(tǒng)?語音識(shí)別系統(tǒng)構(gòu)建總體包括兩個(gè)部分:訓(xùn)練和識(shí)別。語料的標(biāo)注需要長(zhǎng)期的積累和沉淀,大規(guī)模語料資源的積累需要被提高到戰(zhàn)略高度。內(nèi)蒙古實(shí)時(shí)語音識(shí)別
信號(hào)處理和特征提取可以視作音頻數(shù)據(jù)的預(yù)處理部分,一般來說,一段高保真、無噪聲的語言是非常難得的。廣西語音識(shí)別設(shè)置
但依然流暢、準(zhǔn)確。整體使用下來,直觀感受是在語音輸入的大前提下、結(jié)合了谷歌翻譯等類似的翻譯軟件,實(shí)時(shí)翻譯、準(zhǔn)翻譯。在這兩種模式下,完成輸入后,同樣可以像普通話模式一樣,輕點(diǎn)VOICEM380語音識(shí)別鍵,對(duì)內(nèi)容進(jìn)行終的整合調(diào)整。同樣,準(zhǔn)確度相當(dāng)ok。我挑戰(zhàn)了一下,普通話模式在輸入長(zhǎng)度上的極限。快速讀了一段文字,單次普通話模式的輸入極限是一分零三秒、316個(gè)字符。時(shí)長(zhǎng)上完全實(shí)現(xiàn)了官方的宣傳,字符長(zhǎng)度上,目測(cè)是因?yàn)閭€(gè)人語速不夠,而受到了限制。類似的,我測(cè)試了一下,VOICEM380語音識(shí)別功能在距離上的極限。在相同語速、相同音量下,打開語音識(shí)別功能,不斷后退,在聲源與電腦中間不存在障礙的情況下,方圓三米的距離是完全不會(huì)影響這個(gè)功能實(shí)現(xiàn)的。由此可以看到,在一個(gè)小型會(huì)議室,羅技VOICEM380的語音識(shí)別功能,是完全可以很好的輔助會(huì)議記錄的。有關(guān)M380語音識(shí)別功能三大模式之間的轉(zhuǎn)換,也是非常便捷。單擊VOICEM380語音識(shí)別鍵,如出現(xiàn)的一模式并非我們所需要的模式,只需輕輕雙擊VOICEM380語音識(shí)別鍵,即可瞬間切換至下一模式;再次啟動(dòng)輸入功能時(shí),會(huì)自動(dòng)優(yōu)先彈出上次結(jié)束的功能。有關(guān)M380后要強(qiáng)調(diào)的一點(diǎn),便是它的離在線融合模式。廣西語音識(shí)別設(shè)置