直接調(diào)用即可開(kāi)啟語(yǔ)音識(shí)別功能。RunASR函數(shù)代碼如下:用戶(hù)說(shuō)完話(huà)后,LD3320通過(guò)打分的方式,將關(guān)鍵詞列表中特征**相似的一個(gè)作為輸出。然后LD3320會(huì)產(chǎn)生一個(gè)中斷信號(hào),此時(shí)MCU跳入中斷函數(shù)讀取C5寄存器的值,該值即為識(shí)別結(jié)果,得到結(jié)果后,用戶(hù)可以根據(jù)數(shù)值來(lái)實(shí)現(xiàn)一些功能,比如讀取到1,說(shuō)明是“播放音樂(lè)”,那么可以調(diào)用前面的PlaySound函數(shù)來(lái)播放音樂(lè)。語(yǔ)音識(shí)別控制的關(guān)鍵點(diǎn)在于語(yǔ)音識(shí)別的準(zhǔn)確率。表1給出了測(cè)試結(jié)果,當(dāng)然也可以在識(shí)別列表中加入更多的關(guān)鍵詞來(lái)做測(cè)試。通過(guò)測(cè)試結(jié)果可以看出,LD3320的識(shí)別率在95%上,能夠滿(mǎn)足用戶(hù)需求。4結(jié)語(yǔ)本文討論了基于AVR單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的可行性,并給出了設(shè)計(jì)方案。通過(guò)多次測(cè)試結(jié)果表明,本系統(tǒng)具有電路運(yùn)行穩(wěn)定,語(yǔ)音識(shí)別率高,成本低等優(yōu)點(diǎn)。同時(shí)借助于LD3320的MP3播放功能,該系統(tǒng)具有一定的交互性和娛樂(lè)性。移植性方面,系統(tǒng)通過(guò)簡(jiǎn)單的修改,可以很方便地將LD3320驅(qū)動(dòng)程序移植到各種嵌入式系統(tǒng)中。隨著人們對(duì)人工智能功能的需求,語(yǔ)音識(shí)別技術(shù)將越來(lái)越受到人們的關(guān)注,相信不久的將來(lái),語(yǔ)音識(shí)別將會(huì)擁有更廣闊的應(yīng)用。更重要的是體現(xiàn)在世界范圍內(nèi)的各行各業(yè)在設(shè)計(jì)和部署語(yǔ)音識(shí)別系統(tǒng)時(shí)均采用了各種深度學(xué)習(xí)方法。甘肅汽車(chē)語(yǔ)音識(shí)別
它將執(zhí)行以下操作:進(jìn)行聲音輸入:“嘿Siri,現(xiàn)在幾點(diǎn)了?”通過(guò)聲學(xué)模型運(yùn)行語(yǔ)音數(shù)據(jù),將其分解為語(yǔ)音部分。·通過(guò)語(yǔ)言模型運(yùn)行該數(shù)據(jù)。輸出文本數(shù)據(jù):“嘿Siri,現(xiàn)在幾點(diǎn)了?”在這里,值得一提的是,如果自動(dòng)語(yǔ)音識(shí)別系統(tǒng)是語(yǔ)音用戶(hù)界面的一部分,則ASR模型將不是***在運(yùn)行的機(jī)器學(xué)習(xí)模型。許多自動(dòng)語(yǔ)音識(shí)別系統(tǒng)都與自然語(yǔ)言處理(NLP)和文本語(yǔ)音轉(zhuǎn)換(TTS)系統(tǒng)配合使用,以執(zhí)行其給定的角色。也就是說(shuō),深入研究語(yǔ)音用戶(hù)界面本身就是個(gè)完整的話(huà)題。要了解更多信息,請(qǐng)查看此文章。那么,現(xiàn)在知道了ASR系統(tǒng)如何運(yùn)作,但需要構(gòu)建什么?建立ASR系統(tǒng):數(shù)據(jù)的重要性ASR系統(tǒng)應(yīng)該具有靈活性。它需要識(shí)別各種各樣的音頻輸入(語(yǔ)音樣本),并根據(jù)該數(shù)據(jù)做出準(zhǔn)確的文本輸出,以便做出相應(yīng)的反應(yīng)。為實(shí)現(xiàn)這一點(diǎn),ASR系統(tǒng)需要的數(shù)據(jù)是標(biāo)記的語(yǔ)音樣本和轉(zhuǎn)錄形式。比這要復(fù)雜一些(例如,數(shù)據(jù)標(biāo)記過(guò)程非常重要且經(jīng)常被忽略),但為了讓大家明白,在此將其簡(jiǎn)化。ASR系統(tǒng)需要大量的音頻數(shù)據(jù)。為什么?因?yàn)檎Z(yǔ)言很復(fù)雜。對(duì)同一件事有很多種講述方式,句子的意思會(huì)隨著單詞的位置和重點(diǎn)而改變。還考慮到世界上有很多不同的語(yǔ)言,在這些語(yǔ)言中。 河南語(yǔ)音識(shí)別教程隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場(chǎng)景下的語(yǔ)音識(shí)別也達(dá)到了可用狀態(tài)。
CNN本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN相比于傳統(tǒng)的DNN模型,在相同性能情況下,前者的參數(shù)量更少。綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN適合特征映射到空間,LSTM具有長(zhǎng)短時(shí)記憶能力,CNN擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。端到端時(shí)代語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化。總體來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類(lèi):一類(lèi)是CTC方法,另一類(lèi)是Sequence-to-Sequence方法。傳統(tǒng)語(yǔ)音識(shí)別DNN-HMM架構(gòu)里的聲學(xué)模型,每一幀輸入都對(duì)應(yīng)一個(gè)標(biāo)簽類(lèi)別,標(biāo)簽需要反復(fù)的迭代來(lái)確保對(duì)齊更準(zhǔn)確。采用CTC作為損失函數(shù)的聲學(xué)模型序列,不需要預(yù)先對(duì)數(shù)據(jù)對(duì)齊,只需要一個(gè)輸入序列和一個(gè)輸出序列就可以進(jìn)行訓(xùn)練。CTC關(guān)心的是預(yù)測(cè)輸出的序列是否和真實(shí)的序列相近,而不關(guān)心預(yù)測(cè)輸出序列中每個(gè)結(jié)果在時(shí)間點(diǎn)上是否和輸入的序列正好對(duì)齊。CTC建模單元是音素或者字,因此它引入了Blank。對(duì)于一段語(yǔ)音,CTC**后輸出的是尖峰的序列,尖峰的位置對(duì)應(yīng)建模單元的Label,其他位置都是Blank。
它相對(duì)于GMM-HMM系統(tǒng)并沒(méi)有什么優(yōu)勢(shì)可言,研究人員還是更傾向于基于統(tǒng)計(jì)模型的方法。在20世紀(jì)80年代還有一個(gè)值得一提的事件,美國(guó)3eec6ee2-7378-4724-83b5-9b技術(shù)署(NIST)在1987年di一次舉辦了NIST評(píng)測(cè),這項(xiàng)評(píng)測(cè)在后來(lái)成為了全球語(yǔ)音評(píng)測(cè)。20世紀(jì)90年代,語(yǔ)音識(shí)別進(jìn)入了一個(gè)技術(shù)相對(duì)成熟的時(shí)期,主流的GMM-HMM框架得到了更廣的應(yīng)用,在領(lǐng)域中的地位越發(fā)穩(wěn)固。聲學(xué)模型的說(shuō)話(huà)人自適應(yīng)(SpeakerAdaptation)方法和區(qū)分性訓(xùn)練(DiscriminativeTraining)準(zhǔn)則的提出,進(jìn)一步提升了語(yǔ)音識(shí)別系統(tǒng)的性能。1994年提出的大后驗(yàn)概率估計(jì)(MaximumAPosterioriEstimation,MAP)和1995年提出的*大似然線性回歸(MaximumLikelihoodLinearRegression,MLLR),幫助HMM實(shí)現(xiàn)了說(shuō)話(huà)人自適應(yīng)。*大互信息量(MaximumMutualInformation,MMI)和*小分類(lèi)錯(cuò)誤(MinimumClassificationError,MCE)等聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則相繼被提出,使用這些區(qū)分性準(zhǔn)則去更新GMM-HMM的模型參數(shù),可以讓模型的性能得到提升。此外,人們開(kāi)始使用以音素字詞單元作為基本單元。一些支持大詞匯量的語(yǔ)音識(shí)別系統(tǒng)被陸續(xù)開(kāi)發(fā)出來(lái),這些系統(tǒng)不但可以做到支持大詞匯量非特定人連續(xù)語(yǔ)音識(shí)別。該領(lǐng)域的大部分進(jìn)展歸功于計(jì)算機(jī)能力的迅速提高。
另一方面,與業(yè)界對(duì)語(yǔ)音識(shí)別的期望過(guò)高有關(guān),實(shí)際上語(yǔ)音識(shí)別與鍵盤(pán)、鼠標(biāo)或觸摸屏等應(yīng)是融合關(guān)系,而非替代關(guān)系。深度學(xué)習(xí)技術(shù)自2009年興起之后,已經(jīng)取得了長(zhǎng)足進(jìn)步。語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境,但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見(jiàn)詞匯場(chǎng)景下的語(yǔ)音識(shí)別率已經(jīng)超過(guò)95%,意味著具備了與人類(lèi)相仿的語(yǔ)言識(shí)別能力,而這也是語(yǔ)音識(shí)別技術(shù)當(dāng)前發(fā)展比較火熱的原因。隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場(chǎng)景下的語(yǔ)音識(shí)別也達(dá)到了可用狀態(tài),特別是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,語(yǔ)音必定將成為未來(lái)主要的人機(jī)互動(dòng)接口之一。當(dāng)然,當(dāng)前技術(shù)還存在很多不足,如對(duì)于強(qiáng)噪聲、超遠(yuǎn)場(chǎng)、強(qiáng)干擾、多語(yǔ)種、大詞匯等場(chǎng)景下的語(yǔ)音識(shí)別還需要很大的提升;另外,多人語(yǔ)音識(shí)別和離線語(yǔ)音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問(wèn)題。雖然語(yǔ)音識(shí)別還無(wú)法做到無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但是至少?gòu)膽?yīng)用實(shí)踐中我們看到了一些希望。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè)。在語(yǔ)音對(duì)話(huà)場(chǎng)景采買(mǎi)一句話(huà)識(shí)別(短語(yǔ)音)接口或者實(shí)時(shí)語(yǔ)音識(shí)別(長(zhǎng)語(yǔ)音流)接口,都屬于流式語(yǔ)音識(shí)別。遼寧c語(yǔ)音識(shí)別
由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,語(yǔ)音識(shí)別必定將成為未來(lái)主要的人機(jī)互動(dòng)接口之一。甘肅汽車(chē)語(yǔ)音識(shí)別
在我們的生活中,語(yǔ)言是傳遞信息重要的方式,它能夠讓人們之間互相了解。人和機(jī)器之間的交互也是相同的道理,讓機(jī)器人知道人類(lèi)要做什么、怎么做。交互的方式有動(dòng)作、文本或語(yǔ)音等等,其中語(yǔ)音交互越來(lái)越被重視,因?yàn)殡S著互聯(lián)網(wǎng)上智能硬件的普及,產(chǎn)生了各種互聯(lián)網(wǎng)的入口方式,而語(yǔ)音是簡(jiǎn)單、直接的交互方式,是通用的輸入模式。在1952年,貝爾研究所研制了世界上能識(shí)別10個(gè)英文數(shù)字發(fā)音的系統(tǒng)。1960年英國(guó)的Denes等人研制了世界上語(yǔ)音識(shí)別(ASR)系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別研究始于70年代,并在單個(gè)詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向更通用的大詞匯量、非特定人的連續(xù)語(yǔ)音識(shí)別。90年代以來(lái),語(yǔ)音識(shí)別的研究一直沒(méi)有太大進(jìn)步。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面取得了較大的進(jìn)展。自2009年以來(lái),得益于深度學(xué)習(xí)研究的突破以及大量語(yǔ)音數(shù)據(jù)的積累,語(yǔ)音識(shí)別技術(shù)得到了突飛猛進(jìn)的發(fā)展。深度學(xué)習(xí)研究使用預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。微軟的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型后,語(yǔ)音識(shí)別錯(cuò)誤率降低了三分之一,成為近20年來(lái)語(yǔ)音識(shí)別技術(shù)方面快的進(jìn)步。另外,隨著手機(jī)等移動(dòng)終端的普及。甘肅汽車(chē)語(yǔ)音識(shí)別