3)上述兩個問題的共性是目前的深度學(xué)習(xí)用到了語音信號各個頻帶的能量信息,而忽略了語音信號的相位信息,尤其是對于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個好的聲學(xué)模型也是研究的熱點方向。例如方言識別,若有一個比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個好的方言聲學(xué)模型,如果做到這點將極大擴展語音識別的應(yīng)用范疇。這方面已經(jīng)取得了一些進展,但更多的是一些訓(xùn)練技巧,距離目標還有一定差距。(5)語音識別的目的是讓機器可以理解人類,因此轉(zhuǎn)換成文字并不是終的目的。如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的LSTM已經(jīng)考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。(6)讓機器聽懂人類語言,靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠?qū)W習(xí)人類知識的前提條件。而且,機器必然要超越人類的五官,能夠看到人類看不到的世界。
語音識別應(yīng)用包括語音用戶界面,例如語音撥號、呼叫路由、多用戶設(shè)備控制、搜索、簡單的數(shù)據(jù)輸入等。江西英語語音識別
作為人機交互領(lǐng)域重要的研究對象,語音識別技術(shù)已經(jīng)成為信息社會不可或缺的組成部分。目前基于在線引擎和語音芯片實現(xiàn)的語音技術(shù)方案,其適用性和使用成本均限制了技術(shù)的應(yīng)用和推廣。通過對離線語音識別引擎的研究,結(jié)合特定領(lǐng)域內(nèi)的應(yīng)用特點,提出一套適用性強,成本較低的語音識別解決方案,可以在離線的網(wǎng)絡(luò)環(huán)境中,實現(xiàn)非特定人的連續(xù)語音識別功能。根據(jù)本方案設(shè)計語音撥號軟件,并對語音撥號軟件的功能進行科學(xué)的測試驗證。語音識別技術(shù),又稱為自動語音識別(AutomaticSpeechRecognition,ASR),它是以語音為研究對象,通過語音信號處理和模式識別讓機器理解人類語言,并將其轉(zhuǎn)換為計算機可輸入的數(shù)字信號的一門技術(shù)。語音識別技術(shù)將繁瑣的輸入勞動交給機器處理,在解放人類雙手的同時,還可以有效提高人機交互效率,信息化高度發(fā)達,已經(jīng)成為信息社會不可或缺的組成部分。語音識別引擎是ASR技術(shù)的**模塊,它可以工作在識別模式和命令模式。在識別模式下,引擎系統(tǒng)在后臺提供詞庫和識別模板,用戶無需對識別語法進行改動,根據(jù)引擎提供的語法模式即可完成既定的人機交互操作;但在命令模式下,用戶需要構(gòu)建自己的語法詞典,引擎系統(tǒng)根據(jù)用戶構(gòu)建的語法詞典。浙江長語音識別語音識別(Speech Recognition)是以語音為研究對象。
英國倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計學(xué)的原理構(gòu)建出了一個可以識別出4個元音和9個輔音的音素識別器。在同一年,美國麻省理工學(xué)院林肯實驗室的研究人員則shou次實現(xiàn)了可以針對非特定人的可識別10個元音音素的識別器。語音識別技術(shù)的發(fā)展歷史,主要包括模板匹配、統(tǒng)計模型和深度學(xué)習(xí)三個階段。di一階段:模板匹配(DTW)20世紀60年代,一些重要的語音識別的經(jīng)典理論先后被提出和發(fā)表出來。1964年,Martin為了解決語音時長不一致的問題,提出了一種時間歸一化的方法,該方法可以可靠地檢測出語音的端點,這可以有效地降低語音時長對識別結(jié)果的影響,使語音識別結(jié)果的可變性減小了。1966年,卡耐基梅隆大學(xué)的Reddy利用動態(tài)音素的方法進行了連續(xù)語音識別,這是一項開創(chuàng)性的工作。1968年,前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動態(tài)規(guī)劃算法應(yīng)用于對語音信號的時間規(guī)整。雖然在他的工作中,動態(tài)時間規(guī)整的概念和算法原型都有體現(xiàn),但在當(dāng)時并沒有引起足夠的重視。這三項研究工作,為此后幾十年語音識別的發(fā)展奠定了堅實的基礎(chǔ)。雖然在這10年中語音識別理論取得了明顯的進步。但是這距離實現(xiàn)真正實用且可靠的語音識別系統(tǒng)的目標依舊十分遙遠。20世紀70年代。
語音識別技術(shù)飛速發(fā)展,又取得了幾個突破性的進展。1970年,來自前蘇聯(lián)的Velichko和Zagoruyko將模式識別的概念引入語音識別中。同年,Itakura提出了線性預(yù)測編碼(LinearPredictiveCoding,LPC)技術(shù),并將該技術(shù)應(yīng)用于語音識別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動態(tài)規(guī)劃算法將兩段不同長度的語音在時間軸上進行了對齊,這就是我們現(xiàn)在經(jīng)常提到的動態(tài)時間規(guī)整(DynamicTimeWarping,DTW)。該算法把時間規(guī)整和距離的計算有機地結(jié)合起來,解決了不同時長語音的匹配問題。在一些要求資源占用率低、識別人比較特定的環(huán)境下,DTW是一種很經(jīng)典很常用的模板匹配算法。這些技術(shù)的提出完善了語音識別的理論研究,并且使得孤立詞語音識別系統(tǒng)達到了一定的實用性。此后,以IBM公司和Bell實驗室為的語音研究團隊開始將研究重點放到大詞匯量連續(xù)語音識別系統(tǒng)(LargeVocabularyContinuousSpeechRecognition,LVCSR),因為這在當(dāng)時看來是更有挑戰(zhàn)性和更有價值的研究方向。20世紀70年代末,Linda的團隊提出了矢量量化(VectorQuantization。VQ)的碼本生成方法,該項工作對于語音編碼技術(shù)具有重大意義。由于語音交互提供了更自然、更便利、更高效的溝通形式,語音識別必定將成為未來主要的人機互動接口之一。
純粹從語音識別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對于等并未有什么本質(zhì)性改變,變化只是把近場語音交互變成了遠場語音交互。正式面世于銷量已經(jīng)超過千萬,同時在扮演類似角色的漸成生態(tài),其后臺的第三方技能已經(jīng)突破10000項。借助落地時從近場到遠場的突破,亞馬遜一舉從這個賽道的落后者變?yōu)樾袠I(yè)。但自從遠場語音技術(shù)規(guī)模落地以后,語音識別領(lǐng)域的產(chǎn)業(yè)競爭已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標準環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗,而一旦比拼真實場景下的體驗,語音識別便失去存在的價值,更多作為產(chǎn)品體驗的一個環(huán)節(jié)而存在。語音識別似乎進入了一個相對平靜期,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。語音賽道里的標志產(chǎn)品——智能音箱,以一種***的姿態(tài)出現(xiàn)在大眾面前。智能音箱玩家們對這款產(chǎn)品的認識還都停留在:亞馬遜出了一款產(chǎn)品,功能類似。
一個眾所周知的應(yīng)用是自動語音識別,以應(yīng)對不同的說話速度。浙江長語音識別
其識別精度和速度都達不到實際應(yīng)用的要求。江西英語語音識別
提升用戶體驗,仍然是要重點解決的問題。口語化。每個說話人的口音、語速和發(fā)聲習(xí)慣都是不一樣的,尤其是一些地區(qū)的口音(如南方口音、山東重口音),會導(dǎo)致準確率急劇下降。還有電話場景和會議場景的語音識別,其中包含很多口語化表達,如閑聊式的對話,在這種情況下的識別效果也很不理想。因此語音識別系統(tǒng)需要提升自適應(yīng)能力,以便更好地匹配個性化、口語化表達,排除這些因素對識別結(jié)果的影響,達到準確穩(wěn)定的識別效果。低資源。特定場景、方言識別還存在低資源問題。手機APP采集的是16kHz寬帶語音。有大量的數(shù)據(jù)可以訓(xùn)練,因此識別效果很好,但特定場景如銀行/證券柜臺很多采用專門設(shè)備采集語音,保存的采樣格式壓縮比很高,跟一般的16kHz或8kHz語音不同,而相關(guān)的訓(xùn)練數(shù)據(jù)又很缺乏,因此識別效果會變得很差。低資源問題同樣存在于方言識別,中國有七大方言區(qū),包括官話方言(又稱北方方言)、吳語、湘語、贛語、客家話、粵語、閩語(閩南語),還有晉語、湘語等分支,要搜集各地數(shù)據(jù)(包括文本語料)相當(dāng)困難。因此如何從高資源的聲學(xué)模型和語言模型遷移到低資源的場景,減少數(shù)據(jù)搜集的代價,是很值得研究的方向。語種混雜(code-switch)。在日常交流中。江西英語語音識別