浙江谷歌語音識(shí)別

來源：發(fā)布時(shí)間：2023-11-26

一直推崇的是Chain模型。該模型是一種類似于CTC的技術(shù)，建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些，只有兩個(gè)狀態(tài)，一個(gè)狀態(tài)是CDPhone，另一個(gè)是CDPhone的空白，訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼，解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一，而準(zhǔn)確率相比于傳統(tǒng)模型有非常的提升。遠(yuǎn)場(chǎng)語音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問題，是2015年以后開始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問題，在智能家居、智能汽車、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了廣泛應(yīng)用。目前國內(nèi)遠(yuǎn)場(chǎng)語音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語音識(shí)別為主，前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理，以讓語音更清晰，然后送入后端的語音識(shí)別引擎進(jìn)行識(shí)別。語音識(shí)別另外兩個(gè)技術(shù)部分：語言模型和解碼器，目前來看并沒有太大的技術(shù)變化。語言模型主流還是基于傳統(tǒng)的N-Gram方法，雖然目前也有神經(jīng)網(wǎng)絡(luò)的語言模型的研究，但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的指標(biāo)是速度，業(yè)界大部分都是按照靜態(tài)解碼的方式進(jìn)行，即將聲學(xué)模型和語言模型構(gòu)造成WFST網(wǎng)絡(luò)。該網(wǎng)絡(luò)包含了所有可能路徑。

意味著具備了與人類相仿的語言識(shí)別能力。浙江谷歌語音識(shí)別

語音識(shí)別包括兩個(gè)階段:訓(xùn)練和識(shí)別。不管是訓(xùn)練還是識(shí)別，都必須對(duì)輸入語音預(yù)處理和特征提取。訓(xùn)練階段所做的具體工作是收集大量的語音語料，經(jīng)過預(yù)處理和特征提取后得到特征矢量參數(shù)，通過特征建模達(dá)到建立訓(xùn)練語音的參考模型庫的目的。而識(shí)別階段所做的主要工作是將輸入語音的特征矢量參數(shù)和參考模型庫中的參考模型進(jìn)行相似性度量比較，然后把相似性高的輸入特征矢量作為識(shí)別結(jié)果輸出。這樣，終就達(dá)到了語音識(shí)別的目的。語音識(shí)別的基本原理是現(xiàn)有的識(shí)別技術(shù)按照識(shí)別對(duì)象可以分為特定人識(shí)別和非特定人識(shí)別。特定人識(shí)別是指識(shí)別對(duì)象為專門的人，非特定人識(shí)別是指識(shí)別對(duì)象是針對(duì)大多數(shù)用戶，一般需要采集多個(gè)人的語音進(jìn)行錄音和訓(xùn)練，經(jīng)過學(xué)習(xí)，達(dá)到較高的識(shí)別率。基于現(xiàn)有技術(shù)開發(fā)嵌入式語音交互系統(tǒng)，目前主要有兩種方式:一種是直接在嵌入式處理器中調(diào)用語音開發(fā)包;另一種是嵌入式處理器外擴(kuò)展語音芯片。第一種方法程序量大，計(jì)算復(fù)雜，需要占用大量的處理器資源，開發(fā)周期長(zhǎng);第二種方法相對(duì)簡(jiǎn)單，只需要關(guān)注語音芯片的接口部分與微處理器相連，結(jié)構(gòu)簡(jiǎn)單，搭建方便，微處理器的計(jì)算負(fù)擔(dān)降低，增強(qiáng)了可靠性，縮短了開發(fā)周期。本文的語音識(shí)別模塊是以嵌入式微處理器為說明。湖南實(shí)時(shí)語音識(shí)別特別是遠(yuǎn)場(chǎng)語音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。

使用語音識(shí)別功能之前，先按照說明書安裝百度語音輸入軟件。在瀏覽器中輸入VOICEM380底部的軟件下載鏈接，就可以直接進(jìn)入軟件下載界面了，清晰簡(jiǎn)單，自行選擇win版/Mac版，跟著界面提示一部一部操作就ok。中間綁定手機(jī)/郵箱賬號(hào)，接收驗(yàn)證碼，輸入VOICEM380底部的***碼。安裝流程就結(jié)束了，讓我們來試試神奇的語音識(shí)別~先試了一下普通話模式，據(jù)官方說，每分鐘可聽寫約400字，準(zhǔn)確率高達(dá)98%。特意找了一段聽起來十分晦澀、拗口的話來測(cè)試，先清點(diǎn)VOICEM380的語音識(shí)別鍵。此時(shí)電腦右下角出現(xiàn)小彈框，進(jìn)入語音接收階段。以正常語速隨便讀了一下，轉(zhuǎn)化效果非常好，實(shí)現(xiàn)零誤差；而且對(duì)于智能語音識(shí)別中的“智能”也有了很好的詮釋，如動(dòng)圖，有些人名、專有名詞不能在一時(shí)間正確輸出，但會(huì)隨著語音的不斷輸入，不斷修正、調(diào)整前面的內(nèi)容；輸入結(jié)束后，可以再次輕點(diǎn)VOICEM380的語音識(shí)別鍵，進(jìn)入“識(shí)別”階段，個(gè)人感覺，更像是對(duì)于剛剛輸出的內(nèi)容進(jìn)行后的整合；如果剛剛的輸出有出現(xiàn)標(biāo)點(diǎn)錯(cuò)亂、錯(cuò)別字的現(xiàn)象，會(huì)在這個(gè)識(shí)別階段，統(tǒng)一調(diào)整，終整合后輸出的內(nèi)容，正確率十分ok。接著試了一下中譯英模式和英譯中模式，整體操作和普通話模式一致。雖然涉及了不同語種之間的翻譯轉(zhuǎn)化。

因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來、有特色的基礎(chǔ)服務(wù)，比如兼容性方面新興公司做的會(huì)更加徹底，這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國內(nèi)國外市場(chǎng)是相當(dāng)有利的。類比過去的Android，語音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn)，發(fā)展過程可能會(huì)更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語音交互背景下事實(shí)上正被賦予新的內(nèi)涵，它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。過去的Linux以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色，而以Alexa的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理，后者則讓這些硬件以及資源得到具體的應(yīng)用，兩者相結(jié)合才能輸出終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系，不同的AIoT硬件產(chǎn)品在傳感器（深度攝像頭、雷達(dá)等）、顯示器上（有屏、無屏、小屏、大屏等）具有巨大差異，這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化（可以和Linux的分化相對(duì)應(yīng)）。這反過來也就意味著一套智能型系統(tǒng)，必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。這兩邊在操作上，屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去。大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)時(shí)代的到來，語音識(shí)別技術(shù)取得了突飛猛進(jìn)的進(jìn)步。

但依然流暢、準(zhǔn)確。整體使用下來，直觀感受是在語音輸入的大前提下、結(jié)合了谷歌翻譯等類似的翻譯軟件，實(shí)時(shí)翻譯、準(zhǔn)翻譯。在這兩種模式下，完成輸入后，同樣可以像普通話模式一樣，輕點(diǎn)VOICEM380語音識(shí)別鍵，對(duì)內(nèi)容進(jìn)行終的整合調(diào)整。同樣，準(zhǔn)確度相當(dāng)ok。我挑戰(zhàn)了一下，普通話模式在輸入長(zhǎng)度上的極限。快速讀了一段文字，單次普通話模式的輸入極限是一分零三秒、316個(gè)字符。時(shí)長(zhǎng)上完全實(shí)現(xiàn)了官方的宣傳，字符長(zhǎng)度上，目測(cè)是因?yàn)閭€(gè)人語速不夠，而受到了限制。類似的，我測(cè)試了一下，VOICEM380語音識(shí)別功能在距離上的極限。在相同語速、相同音量下，打開語音識(shí)別功能，不斷后退，在聲源與電腦中間不存在障礙的情況下，方圓三米的距離是完全不會(huì)影響這個(gè)功能實(shí)現(xiàn)的。由此可以看到，在一個(gè)小型會(huì)議室，羅技VOICEM380的語音識(shí)別功能，是完全可以很好的輔助會(huì)議記錄的。有關(guān)M380語音識(shí)別功能三大模式之間的轉(zhuǎn)換，也是非常便捷。單擊VOICEM380語音識(shí)別鍵，如出現(xiàn)的一模式并非我們所需要的模式，只需輕輕雙擊VOICEM380語音識(shí)別鍵，即可瞬間切換至下一模式；再次啟動(dòng)輸入功能時(shí)，會(huì)自動(dòng)優(yōu)先彈出上次結(jié)束的功能。有關(guān)M380后要強(qiáng)調(diào)的一點(diǎn)，便是它的離在線融合模式。遠(yuǎn)場(chǎng)語音識(shí)別技術(shù)以前端信號(hào)處理和后端語音識(shí)別為主，以讓語音更清晰，后送入后端的語音識(shí)別引擎進(jìn)行識(shí)別。天津語音識(shí)別工具

語音識(shí)別與鍵盤、鼠標(biāo)或觸摸屏等應(yīng)是融合關(guān)系，而非替代關(guān)系。浙江谷歌語音識(shí)別

Sequence-to-Sequence方法原來主要應(yīng)用于機(jī)器翻譯領(lǐng)域。2017年，Google將其應(yīng)用于語音識(shí)別領(lǐng)域，取得了非常好的效果，將詞錯(cuò)誤率降低至。Google提出新系統(tǒng)的框架由三個(gè)部分組成：Encoder編碼器組件，它和標(biāo)準(zhǔn)的聲學(xué)模型相似，輸入的是語音信號(hào)的時(shí)頻特征；經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)，映射成高級(jí)特征henc，然后傳遞給Attention組件，其使用henc特征學(xué)習(xí)輸入x和預(yù)測(cè)子單元之間的對(duì)齊方式，子單元可以是一個(gè)音素或一個(gè)字。**后，attention模塊的輸出傳遞給Decoder，生成一系列假設(shè)詞的概率分布，類似于傳統(tǒng)的語言模型。端到端技術(shù)的突破，不再需要HMM來描述音素內(nèi)部狀態(tài)的變化，而是將語音識(shí)別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型，使語音識(shí)別朝著更簡(jiǎn)單、更高效、更準(zhǔn)確的方向發(fā)展。語音識(shí)別的技術(shù)現(xiàn)狀目前，主流語音識(shí)別框架還是由3個(gè)部分組成：聲學(xué)模型、語言模型和解碼器，有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起，聲學(xué)模型是近幾年非常熱門的方向，業(yè)界都紛紛發(fā)布自己新的聲學(xué)模型結(jié)構(gòu)，刷新各個(gè)數(shù)據(jù)庫的識(shí)別記錄。由于中文語音識(shí)別的復(fù)雜性，國內(nèi)在聲學(xué)模型的研究進(jìn)展相對(duì)更快一些。浙江谷歌語音識(shí)別

標(biāo)簽：語音服務(wù) 聲學(xué)回聲 USB聲卡語音識(shí)別降噪

上一篇 浙江量子語音關(guān)鍵事件檢測(cè)供應(yīng)

下一篇： 新一代語音服務(wù)特征

浙江谷歌語音識(shí)別

可能感興趣的產(chǎn)品:

可能感興趣的廠家:

可能感興趣的關(guān)鍵詞: