然后在Reg_RW.c文件中找到HARD_PARA_PORT對(duì)應(yīng)條件宏的代碼段,保留AVR的SPI接口代碼。3.2應(yīng)用程序?qū)崿F(xiàn)在代碼中預(yù)先設(shè)定幾個(gè)單詞:“你好”,“播放音樂”,“打開”。當(dāng)用戶說“播放音樂”時(shí),MCU控制LD3320播放一段音樂,如果是其他詞語(yǔ),則在串口中打印識(shí)別結(jié)果,然后再次轉(zhuǎn)換到語(yǔ)音識(shí)別狀態(tài)。3.2.1MP3播放代碼LD3320支持MP3數(shù)據(jù)播放,播放聲音的操作順序?yàn)椋和ㄓ贸跏蓟鶰P3播放用初始化→調(diào)節(jié)播放音量→開始播放。將MP3數(shù)據(jù)順序放入數(shù)據(jù)寄存器,芯片播放完一定數(shù)量的數(shù)據(jù)時(shí)會(huì)發(fā)出中斷請(qǐng)求,在中斷函數(shù)中連續(xù)送入聲音數(shù)據(jù),直到聲音數(shù)據(jù)結(jié)束。MP3播放函數(shù)實(shí)現(xiàn)代碼如下:由于MCU容量限制,選取測(cè)試的MP3文件不能太大。首先在計(jì)算機(jī)上將MP3文件的二進(jìn)制數(shù)據(jù)轉(zhuǎn)為標(biāo)準(zhǔn)C數(shù)組格式文件,然后將該文件加入工程中。源代碼中MP3文件存儲(chǔ)在外擴(kuò)的SPIFLASH中,工程中需要注釋和移除全部相關(guān)代碼。MP3數(shù)據(jù)讀取函數(shù)是LD_ReloadMp3Data,只需將讀取的SPIFLASH數(shù)據(jù)部分改成以數(shù)組數(shù)據(jù)讀取的方式即可。3.2.2語(yǔ)音識(shí)別程序LD3320語(yǔ)音識(shí)別芯片完成的操作順序?yàn)椋和ㄓ贸跏蓟鶤SR初始化→添加關(guān)鍵詞→開啟語(yǔ)音識(shí)別。在源代碼中的RunASR函數(shù)已經(jīng)實(shí)現(xiàn)了上面的過程。語(yǔ)音識(shí)別主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。海南云語(yǔ)音識(shí)別
數(shù)據(jù)化的“文字”更容易觸發(fā)個(gè)人對(duì)信息的重視程度,有效避免信息的遺漏。會(huì)議紀(jì)要更準(zhǔn)確。系統(tǒng)能夠提供對(duì)與會(huì)人員發(fā)言內(nèi)容的高保真記錄,且可以通過文字定位并回聽語(yǔ)音,達(dá)到聲文對(duì)應(yīng),輔助記錄人員更好的理解會(huì)議思想、提升紀(jì)要結(jié)論或紀(jì)要決議的準(zhǔn)確度。數(shù)據(jù)安全性強(qiáng)。系統(tǒng)應(yīng)用后能夠降低對(duì)記錄人員的要求,一名普通的人員在會(huì)后簡(jiǎn)單編輯即可出稿,不需要外聘速錄人員,內(nèi)部參與的員工也可控制到少,故只需做好設(shè)備的安全管控,就能有效保障會(huì)議信息安全。實(shí)現(xiàn)價(jià)值提高工作效率。系統(tǒng)的實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫、歷史語(yǔ)音轉(zhuǎn)寫等功能,能夠輔助秘書及文員快速完成會(huì)議記錄的整理、編制、校對(duì)、歸檔等工作,減少會(huì)議紀(jì)要的誤差率,提升工作人員的工作質(zhì)量和工作效率。會(huì)議安全性增強(qiáng)。系統(tǒng)采用本地化部署加語(yǔ)音轉(zhuǎn)寫引擎加密,確保會(huì)議數(shù)據(jù)安全,改變了傳統(tǒng)會(huì)議模式的會(huì)議內(nèi)容保密隱患問題。節(jié)約企業(yè)成本。系統(tǒng)的功能是實(shí)現(xiàn)語(yǔ)音實(shí)時(shí)轉(zhuǎn)寫、會(huì)議信息管理。可根據(jù)轉(zhuǎn)寫內(nèi)容快速檢索錄音內(nèi)容,提取會(huì)議紀(jì)要,實(shí)現(xiàn)便捷的會(huì)議錄音管理,此技術(shù)可節(jié)約會(huì)議人力成本約50%。開啟會(huì)議工作智能化。系統(tǒng)實(shí)現(xiàn)了會(huì)議管理與人工智能的接軌,為后續(xù)推動(dòng)辦公業(yè)務(wù)與人工智能、大數(shù)據(jù)的融合奠定了基礎(chǔ)。江西谷歌語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)槲谋荆M(jìn)而通過理解轉(zhuǎn)變?yōu)橹噶畹募夹g(shù)。
在識(shí)別時(shí)可以將待識(shí)別的語(yǔ)音的特征參數(shù)與聲學(xué)模型進(jìn)行匹配,得到識(shí)別結(jié)果。目前的主流語(yǔ)音識(shí)別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。(4)語(yǔ)言模型訓(xùn)練語(yǔ)言模型是用來計(jì)算一個(gè)句子出現(xiàn)概率的模型,簡(jiǎn)單地說,就是計(jì)算一個(gè)句子在語(yǔ)法上是否正確的概率。因?yàn)榫渥拥臉?gòu)造往往是規(guī)律的,前面出現(xiàn)的詞經(jīng)常預(yù)示了后方可能出現(xiàn)的詞語(yǔ)。它主要用于決定哪個(gè)詞序列的可能性更大,或者在出現(xiàn)了幾個(gè)詞的時(shí)候預(yù)測(cè)下一個(gè)即將出現(xiàn)的詞語(yǔ)。它定義了哪些詞能跟在上一個(gè)已經(jīng)識(shí)別的詞的后面(匹配是一個(gè)順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。語(yǔ)言建模能夠有效的結(jié)合漢語(yǔ)語(yǔ)法和語(yǔ)義的知識(shí),描述詞之間的內(nèi)在關(guān)系,從而提高識(shí)別率,減少搜索范圍。對(duì)訓(xùn)練文本數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)法、語(yǔ)義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練得到語(yǔ)言模型。(5)語(yǔ)音解碼和搜索算法解碼器是指語(yǔ)音技術(shù)中的識(shí)別過程。針對(duì)輸入的語(yǔ)音信號(hào),根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語(yǔ)言模型及字典建立一個(gè)識(shí)別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找一條路徑,這個(gè)路徑就是能夠以概率輸出該語(yǔ)音信號(hào)的詞串,這樣就確定這個(gè)語(yǔ)音樣本所包含的文字了。所以,解碼操作即指搜索算法。
因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問題。(3)上述兩個(gè)問題的共性是目前的深度學(xué)習(xí)用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個(gè)方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離目標(biāo)還有一定差距。(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是終的目的。如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來可能是未來更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的LSTM已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。(6)讓機(jī)器聽懂人類語(yǔ)言,靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且。語(yǔ)音識(shí)別應(yīng)用包括語(yǔ)音用戶界面,例如語(yǔ)音撥號(hào)、呼叫路由、多用戶設(shè)備控制、搜索、簡(jiǎn)單的數(shù)據(jù)輸入等。
使用語(yǔ)音識(shí)別功能之前,先按照說明書安裝百度語(yǔ)音輸入軟件。在瀏覽器中輸入VOICEM380底部的軟件下載鏈接,就可以直接進(jìn)入軟件下載界面了,清晰簡(jiǎn)單,自行選擇win版/Mac版,跟著界面提示一部一部操作就ok。中間綁定手機(jī)/郵箱賬號(hào),接收驗(yàn)證碼,輸入VOICEM380底部的***碼。安裝流程就結(jié)束了,讓我們來試試神奇的語(yǔ)音識(shí)別~先試了一下普通話模式,據(jù)官方說,每分鐘可聽寫約400字,準(zhǔn)確率高達(dá)98%。特意找了一段聽起來十分晦澀、拗口的話來測(cè)試,先清點(diǎn)VOICEM380的語(yǔ)音識(shí)別鍵。此時(shí)電腦右下角出現(xiàn)小彈框,進(jìn)入語(yǔ)音接收階段。以正常語(yǔ)速隨便讀了一下,轉(zhuǎn)化效果非常好,實(shí)現(xiàn)零誤差;而且對(duì)于智能語(yǔ)音識(shí)別中的“智能”也有了很好的詮釋,如動(dòng)圖,有些人名、專有名詞不能在一時(shí)間正確輸出,但會(huì)隨著語(yǔ)音的不斷輸入,不斷修正、調(diào)整前面的內(nèi)容;輸入結(jié)束后,可以再次輕點(diǎn)VOICEM380的語(yǔ)音識(shí)別鍵,進(jìn)入“識(shí)別”階段,個(gè)人感覺,更像是對(duì)于剛剛輸出的內(nèi)容進(jìn)行后的整合;如果剛剛的輸出有出現(xiàn)標(biāo)點(diǎn)錯(cuò)亂、錯(cuò)別字的現(xiàn)象,會(huì)在這個(gè)識(shí)別階段,統(tǒng)一調(diào)整,終整合后輸出的內(nèi)容,正確率十分ok。接著試了一下中譯英模式和英譯中模式,整體操作和普通話模式一致。雖然涉及了不同語(yǔ)種之間的翻譯轉(zhuǎn)化。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR),也可以簡(jiǎn)稱為語(yǔ)音識(shí)別。河北語(yǔ)音識(shí)別工具
通過語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類的語(yǔ)音。海南云語(yǔ)音識(shí)別
漢語(yǔ)的音節(jié)由聲母、韻母和音調(diào)構(gòu)成,其中音調(diào)信息包含在韻母中。所以,漢語(yǔ)音節(jié)結(jié)構(gòu)可以簡(jiǎn)化為:聲母+韻母。漢語(yǔ)中有409個(gè)無(wú)調(diào)音節(jié),約1300個(gè)有調(diào)音節(jié)。漢字與漢語(yǔ)音節(jié)并不是一一對(duì)應(yīng)的。一個(gè)漢字可以對(duì)應(yīng)多個(gè)音節(jié),一個(gè)音節(jié)可對(duì)應(yīng)多個(gè)漢字,例如:和——héhèhuóhuòhútián——填甜語(yǔ)音識(shí)別過程是個(gè)復(fù)雜的過程,但其終任務(wù)歸結(jié)為,找到對(duì)應(yīng)觀察值序列O的可能的詞序列W^。按貝葉斯準(zhǔn)則轉(zhuǎn)化為:其中,P(O)與P(W)沒有關(guān)系,可認(rèn)為是常量,因此P(W|O)的*大值可轉(zhuǎn)換為P(O|W)和P(W)兩項(xiàng)乘積的*大值,di一項(xiàng)P(O|W)由聲學(xué)模型決定,第二項(xiàng)P(W)由語(yǔ)言模型決定。為了讓機(jī)器識(shí)別語(yǔ)音,首先提取聲學(xué)特征,然后通過解碼器得到狀態(tài)序列,并轉(zhuǎn)換為對(duì)應(yīng)的識(shí)別單元。一般是通過詞典將音素序列(如普通話的聲母和韻母),轉(zhuǎn)換為詞序列,然后用語(yǔ)言模型規(guī)整約束,后得到句子識(shí)別結(jié)果。例如,對(duì)"天氣很好"進(jìn)行詞序列、音素序列、狀態(tài)序列的分解,并和觀察值序列對(duì)應(yīng)。其中每個(gè)音素對(duì)應(yīng)一個(gè)HMM,并且其發(fā)射狀態(tài)(深色)對(duì)應(yīng)多幀觀察值。人的發(fā)音包含雙重隨機(jī)過程,即說什么不確定。怎么說也不確定,很難用簡(jiǎn)單的模板匹配技術(shù)來識(shí)別。更合適的方法是用HMM這種統(tǒng)計(jì)模型來刻畫雙重隨機(jī)過程。海南云語(yǔ)音識(shí)別