聽到人類聽不到的世界。語音識別的產(chǎn)業(yè)歷程語音識別這半個多世紀(jì)的產(chǎn)業(yè)歷程中,其有三個關(guān)鍵節(jié)點,兩個和技術(shù)有關(guān),一個和應(yīng)用有關(guān)。,開發(fā)了個基于模型的語音識別系統(tǒng),當(dāng)時實現(xiàn)這一系統(tǒng)。雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語音識別中,并且確實提升了語音識別的效果,但實際上語音識別已經(jīng)遭遇了技術(shù)天花板,識別的準(zhǔn)確率很難超過90%。很多人可能還記得,都曾經(jīng)推出和語音識別相關(guān)的軟件,但終并未取得成功。第二個關(guān)鍵節(jié)點是深度學(xué)習(xí)被系統(tǒng)應(yīng)用到語音識別領(lǐng)域中。這導(dǎo)致識別的精度再次大幅提升,終突破90%,并且在標(biāo)準(zhǔn)環(huán)境下逼近98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,但與其引起的關(guān)注度相比,這些產(chǎn)品實際取得的成績則要遜色得多。剛一面世的時候,這會對搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實上直到的面世,這種根本性威脅才真的有了具體的載體。第三個關(guān)鍵點正是出現(xiàn)。
語音命令可用于發(fā)起電話呼叫、選擇無線電臺或從兼容的智能手機、MP3播放器或音樂加載閃存驅(qū)動器播放音樂。深圳光纖數(shù)據(jù)語音識別內(nèi)容
feed-forwardsequentialmemorynetwork,F(xiàn)SMN),在DNN的隱層旁增加了一個“記憶模塊”,這個記憶模塊用來存儲對判斷當(dāng)前語音幀有用的語音信號的歷史信息和未來信息,并且只需等待有限長度的未來語音幀。隨后,科大訊飛進一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)。2018年,阿里巴巴改良并開源了語音識別模型DFSMN(DeepFSMN)。2018年,中科院自動化所率先把Transformer應(yīng)用到語音識別任務(wù),并進一步拓展到中文語音識別。不管是在研究成果還是在產(chǎn)品性能體驗上,國內(nèi)的語音行業(yè)整體水平已經(jīng)達到甚至超越了國際水平。2016年10月,時任百度首席科學(xué)家的吳恩達在對微軟的語音識別技術(shù)與人類水平持平的消息表示祝賀的同時聲稱,百度的漢語語音識別在2015年就已經(jīng)超越了人類的平均水平,也就是說百度比微軟提前一年實現(xiàn)了這一成績。當(dāng)前語音識別系統(tǒng)依然面臨著不少應(yīng)用挑戰(zhàn),其中包括以下主要問題:魯棒性。目前語音識別準(zhǔn)確率超過人類水平主要還是在受限的場景下,比如在安靜環(huán)境的情況下,而一旦加入干擾信號,尤其是環(huán)境噪聲和人聲干擾,性能往往會明顯下降。因此,如何在復(fù)雜場景(包括非平穩(wěn)噪聲、混響、遠(yuǎn)場)下,提高語音識別的魯棒性,研發(fā)"能用=>好用"的語音識別產(chǎn)品。湖北語音識別翻譯大多數(shù)人會認(rèn)為研發(fā)語音識別技術(shù)是一條艱難的道路,投入會巨大,道路會很漫長。
行業(yè)的發(fā)展速度反過來會受限于平臺服務(wù)商的供給能力。跳出具體案例來看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個點的投入產(chǎn)出是否達到一個普遍接受的界限。離這個界限越近,行業(yè)就越會接近滾雪球式發(fā)展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入并且長周期的事情,那對此承擔(dān)成本的一方就會猶豫,這相當(dāng)于試錯成本過高。如果投入后,沒有可感知的新體驗或者銷量促進,那對此承擔(dān)成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結(jié)底都必須由平臺方解決,產(chǎn)品方或者解決方案方對此無能為力,這是由智能語音交互的基礎(chǔ)技術(shù)特征所決定。從技術(shù)來看,整個語音交互鏈條有五項單點技術(shù):喚醒、麥克風(fēng)陣列、語音識別、自然語言處理、語音合成,其它技術(shù)點比如聲紋識別、哭聲檢測等數(shù)十項技術(shù)通用性略弱,但分別出現(xiàn)在不同的場景下,并會在特定場景下成為關(guān)鍵。看起來關(guān)聯(lián)的技術(shù)已經(jīng)相對龐雜,但切換到商業(yè)視角我們就會發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗上佳的產(chǎn)品仍然有絕大距離。所有語音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來打造產(chǎn)品。
取距離近的樣本所對應(yīng)的詞標(biāo)注為該語音信號的發(fā)音。該方法對解決孤立詞識別是有效的,但對于大詞匯量、非特定人連續(xù)語音識別就無能為力。因此,進入80年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型(HMM)的技術(shù)思路。HMM的理論基礎(chǔ)在1970年前后就已經(jīng)由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語音識別當(dāng)中。HMM模型假定一個音素含有3到5個狀態(tài),同一狀態(tài)的發(fā)音相對穩(wěn)定,不同狀態(tài)間是可以按照一定概率進行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來描述,使用***的模型是GMM。因此GMM-HMM框架中,HMM描述的是語音的短時平穩(wěn)的動態(tài)性,GMM用來描述HMM每一狀態(tài)內(nèi)部的發(fā)音特征。基于GMM-HMM框架,研究者提出各種改進方法,如結(jié)合上下文信息的動態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN混合模型方法等。這些方法都對語音識別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語音識別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì)90年代語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長一段內(nèi)語音識別的發(fā)展比較緩慢,語音識別錯誤率那條線一直沒有明顯下降。DNN-HMM時代2006年。為了能夠更加清晰的定義語音識別的任務(wù),先來看一下語音識別的輸入和輸出都是什么。
2)初始化離線引擎:初始化訊飛離線語音庫,根據(jù)本地生成的語法文檔,構(gòu)建語法網(wǎng)絡(luò),輸入語音識別器中;(3)初始化聲音驅(qū)動:根據(jù)離線引擎的要求,初始化ALSA庫;(4)啟動數(shù)據(jù)采集:如果有用戶有語音識別請求,語音控制模塊啟動實時語音采集程序;(5)靜音切除:在語音數(shù)據(jù)的前端,可能存在部分靜音數(shù)據(jù),ALSA庫開啟靜音檢測功能,將靜音數(shù)據(jù)切除后傳送至語音識別引擎;(6)語音識別狀態(tài)檢測:語音控制模塊定時檢測引擎系統(tǒng)的語音識別狀態(tài),當(dāng)離線引擎有結(jié)果輸出時,提取語音識別結(jié)果;(7)結(jié)束語音采集:語音控制模塊通知ALSA,終止實時語音數(shù)據(jù)的采集;(8)語義解析:語音控制模塊根據(jù)語音識別的結(jié)果,完成語義解析,根據(jù)和的內(nèi)容,確定用戶需求,根據(jù)的內(nèi)容,確認(rèn)用戶信息;(9)語音識別結(jié)束:語音控制模塊將語義解析的結(jié)果上傳至用戶模塊,同時結(jié)束本次語音識別。根據(jù)項目需求,分別在中等、低等噪音的辦公室環(huán)境中,對語音撥號軟件功能進行科學(xué)的測試驗證。 設(shè)計有效的算法來重新劃分表示為加權(quán)有限狀態(tài)換能器的格子,其中編輯距離為驗證某些假設(shè)的有限狀態(tài)換能器。江西錄音語音識別
得益于深度學(xué)習(xí)研究的突破以及大量語音數(shù)據(jù)的積累,語音識別技術(shù)得到了突飛猛進的發(fā)展。深圳光纖數(shù)據(jù)語音識別內(nèi)容
該模型比百度上一代DeepPeak2模型提升相對15%的性能。開源語音識別Kaldi是業(yè)界語音識別框架的基石。Kaldi的作者DanielPovey一直推崇的是Chain模型。該模型是一種類似于CTC的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個狀態(tài),一個狀態(tài)是CDPhone,另一個是CDPhone的空白,訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有提升。遠(yuǎn)場語音識別技術(shù)主要解決真實場景下舒適距離內(nèi)人機任務(wù)對話和服務(wù)的問題,是2015年以后開始興起的技術(shù)。由于遠(yuǎn)場語音識別解決了復(fù)雜環(huán)境下的識別問題,在智能家居、智能汽車、智能會議、智能安防等實際場景中獲得了應(yīng)用。目前國內(nèi)遠(yuǎn)場語音識別的技術(shù)框架以前端信號處理和后端語音識別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號處理,以讓語音更清晰,然后送入后端的語音識別引擎進行識別。語音識別另外兩個技術(shù)部分:語言模型和解碼器,目前來看并沒有太大的技術(shù)變化。語言模型主流還是基于傳統(tǒng)的N-Gram方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語言模型的研究,但在實用中主要還是更多用于后處理糾錯。解碼器的指標(biāo)是速度。深圳光纖數(shù)據(jù)語音識別內(nèi)容