在我們的生活中,語言是傳遞信息重要的方式,它能夠讓人們之間互相了解。人和機器之間的交互也是相同的道理,讓機器人知道人類要做什么、怎么做。交互的方式有動作、文本或語音等等,其中語音交互越來越被重視,因為隨著互聯(lián)網(wǎng)上智能硬件的普及,產(chǎn)生了各種互聯(lián)網(wǎng)的入口方式,而語音是簡單、直接的交互方式,是通用的輸入模式。在1952年,貝爾研究所研制了世界上能識別10個英文數(shù)字發(fā)音的系統(tǒng)。1960年英國的Denes等人研制了世界上語音識別(ASR)系統(tǒng)。大規(guī)模的語音識別研究始于70年代,并在單個詞的識別方面取得了實質(zhì)性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉(zhuǎn)向更通用的大詞匯量、非特定人的連續(xù)語音識別。90年代以來,語音識別的研究一直沒有太大進步。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面取得了較大的進展。自2009年以來,得益于深度學習研究的突破以及大量語音數(shù)據(jù)的積累,語音識別技術(shù)得到了突飛猛進的發(fā)展。深度學習研究使用預訓練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學模型的準確率。微軟的研究人員率先取得了突破性進展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型后,語音識別錯誤率降低了三分之一,成為近20年來語音識別技術(shù)方面快的進步。另外,隨著手機等移動終端的普及。主流語音識別框架還是由 3 個部分組成:聲學模型、語言模型和解碼器,有些框架也包括前端處理和后處理。甘肅語音識別率
數(shù)據(jù)化的“文字”更容易觸發(fā)個人對信息的重視程度,有效避免信息的遺漏。會議紀要更準確。系統(tǒng)能夠提供對與會人員發(fā)言內(nèi)容的高保真記錄,且可以通過文字定位并回聽語音,達到聲文對應(yīng),輔助記錄人員更好的理解會議思想、提升紀要結(jié)論或紀要決議的準確度。數(shù)據(jù)安全性強。系統(tǒng)應(yīng)用后能夠降低對記錄人員的要求,一名普通的人員在會后簡單編輯即可出稿,不需要外聘速錄人員,內(nèi)部參與的員工也可控制到少,故只需做好設(shè)備的安全管控,就能有效保障會議信息安全。實現(xiàn)價值提高工作效率。系統(tǒng)的實時語音轉(zhuǎn)寫、歷史語音轉(zhuǎn)寫等功能,能夠輔助秘書及文員快速完成會議記錄的整理、編制、校對、歸檔等工作,減少會議紀要的誤差率,提升工作人員的工作質(zhì)量和工作效率。會議安全性增強。系統(tǒng)采用本地化部署加語音轉(zhuǎn)寫引擎加密,確保會議數(shù)據(jù)安全,改變了傳統(tǒng)會議模式的會議內(nèi)容保密隱患問題。節(jié)約企業(yè)成本。系統(tǒng)的功能是實現(xiàn)語音實時轉(zhuǎn)寫、會議信息管理。可根據(jù)轉(zhuǎn)寫內(nèi)容快速檢索錄音內(nèi)容,提取會議紀要,實現(xiàn)便捷的會議錄音管理,此技術(shù)可節(jié)約會議人力成本約50%。開啟會議工作智能化。系統(tǒng)實現(xiàn)了會議管理與人工智能的接軌,為后續(xù)推動辦公業(yè)務(wù)與人工智能、大數(shù)據(jù)的融合奠定了基礎(chǔ)。甘肅語音識別率近年來,該領(lǐng)域受益于深度學習和大數(shù)據(jù)技術(shù)的進步。
DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復蘇。2009年,Hinton將DNN應(yīng)用于語音的聲學建模,在TIMIT上獲得了當時比較好的結(jié)果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語音識別任務(wù)上,降低了語音識別錯誤率。從此語音識別進入DNN-HMM時代。DNN-HMM主要是用DNN模型代替原來的GMM模型,對每一個狀態(tài)進行建模,DNN帶來的好處是不再需要對語音數(shù)據(jù)分布進行假設(shè),將相鄰的語音幀拼接又包含了語音的時序結(jié)構(gòu)信息,使得對于狀態(tài)的分類概率有了明顯提升,同時DNN還具有強大環(huán)境學習能力,可以提升對噪聲和口音的魯棒性。簡單來說,DNN就是給出輸入的一串特征所對應(yīng)的狀態(tài)概率。由于語音信號是連續(xù)的,不僅各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位還會受到上下文的影響。雖然拼幀可以增加上下文信息,但對于語音來說還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對語音信號的上下文信息進行建模。由于簡單的RNN存在梯度和梯度消散問題,難以訓練,無法直接應(yīng)用于語音信號建模上,因此學者進一步探索,開發(fā)出了很多適合語音建模的RNN結(jié)構(gòu),其中有名的就是LSTM。
導致我國的語音識別研究在整個20世紀80年代都沒有取得學術(shù)成果,也沒有開發(fā)出具有優(yōu)良性能的識別系統(tǒng)。20世紀90年代,我國的語音識別研究持續(xù)發(fā)展,開始逐漸地緊追國際水平。在"863"計劃、國家科技攻關(guān)計劃、國家自然科學基金的支持下,我國在中文語音識別技術(shù)方面取得了一系列研究成果。21世紀初期,包括科大訊飛、中科信利、捷通華聲等一批致力于語音應(yīng)用的公司陸續(xù)在我國成立。語音識別企業(yè)科大訊飛早在2010年,就推出了業(yè)界中文語音輸入法,移動互聯(lián)網(wǎng)的語音應(yīng)用。2010年以后,百度、騰訊、阿里巴巴等國內(nèi)各大互聯(lián)網(wǎng)公司相繼組建語音研發(fā)團隊,推出了各自的語音識別服務(wù)和產(chǎn)品。在此之后,國內(nèi)語音識別的研究水平在之前建立的堅實基礎(chǔ)上,取得了突飛猛進的進步。如今,基于云端深度學習算法和大數(shù)據(jù)的在線語音識別系統(tǒng)的識別率可以達到95%以上。科大訊飛、百度、阿里巴巴都提供了達到商業(yè)標準的語音識別服務(wù),如語音輸入法、語音搜索等應(yīng)用,語音云用戶達到了億級規(guī)模。人工智能和物聯(lián)網(wǎng)的迅猛發(fā)展,使得人機交互方式發(fā)生重大變革,語音交互產(chǎn)品也越來越多。國內(nèi)消費者接受語音產(chǎn)品也有一個過程,開始的認知大部分是從蘋果Siri開始。聲學模型是語音識別系統(tǒng)中為重要的部分之一。
另一方面,與業(yè)界對語音識別的期望過高有關(guān),實際上語音識別與鍵盤、鼠標或觸摸屏等應(yīng)是融合關(guān)系,而非替代關(guān)系。深度學習技術(shù)自2009年興起之后,已經(jīng)取得了長足進步。語音識別的精度和速度取決于實際應(yīng)用環(huán)境,但在安靜環(huán)境、標準口音、常見詞匯場景下的語音識別率已經(jīng)超過95%,意味著具備了與人類相仿的語言識別能力,而這也是語音識別技術(shù)當前發(fā)展比較火熱的原因。隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場景下的語音識別也達到了可用狀態(tài),特別是遠場語音識別已經(jīng)隨著智能音箱的興起成為全球消費電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。由于語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來主要的人機互動接口之一。當然,當前技術(shù)還存在很多不足,如對于強噪聲、超遠場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升;另外,多人語音識別和離線語音識別也是當前需要重點解決的問題。雖然語音識別還無法做到無限制領(lǐng)域、無限制人群的應(yīng)用,但是至少從應(yīng)用實踐中我們看到了一些希望。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個角度來回顧一下語音識別發(fā)展的歷程和現(xiàn)狀,并分析一些未來趨勢,希望能幫助更多年輕技術(shù)人員了解語音行業(yè)。識別說話人簡化為已經(jīng)對特定人語音訓練的系統(tǒng)中翻譯語音的任務(wù),作為安全過程的一部分來驗證說話人的身份。甘肅語音識別率
語音識別主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入。甘肅語音識別率
我們可以用語音跟它們做些簡單交流,完成一些簡單的任務(wù)等等。語音識別技術(shù)的應(yīng)用領(lǐng)域:汽車語音控制當我們駕駛汽車在行駛過程中,必須時刻握好方向盤,但是難免有時候遇到急事需要撥打電話這些,這時候運用汽車上的語音撥號功能的免提電話通信方式便可簡單實現(xiàn)。此外,對汽車的衛(wèi)星導航定位系統(tǒng)(GPS)的操作,汽車空調(diào)、照明以及音響等設(shè)備的操作,同樣也可以用語音的方式進行操作。語音識別技術(shù)的應(yīng)用領(lǐng)域:工業(yè)控制及醫(yī)療領(lǐng)域在工業(yè)及醫(yī)療領(lǐng)域上,運用智能語音交互,能夠讓我們解放雙手,只需要對機器發(fā)出命令,就可以讓其操作完成需要的任務(wù)。提升了工作的效率。語音識別技術(shù)在個人助理、智能家居等很多領(lǐng)域都有運用到,隨著語音識別技術(shù)在未來的不斷發(fā)展,語音識別芯片的不敢提高,給我們的生活帶來了更大的便利和智能化。甘肅語音識別率