天津谷歌語(yǔ)音識(shí)別

來(lái)源: 發(fā)布時(shí)間:2023-12-02

    并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別的技術(shù)歷程現(xiàn)代語(yǔ)音識(shí)別可以追溯到1952年,Davis等人研制了能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開(kāi)啟了語(yǔ)音識(shí)別的進(jìn)程。語(yǔ)音識(shí)別發(fā)展已經(jīng)有70多年,但從技術(shù)方向上可以大體分為三個(gè)階段。從1993年到2017年在Switchboard上語(yǔ)音識(shí)別率的進(jìn)展情況,從圖中也可以看出1993年到2009年,語(yǔ)音識(shí)別一直處于GMM-HMM時(shí)代,語(yǔ)音識(shí)別率提升緩慢,尤其是2000年到2009年語(yǔ)音識(shí)別率基本處于停滯狀態(tài);2009年隨著深度學(xué)習(xí)技術(shù),特別是DNN的興起,語(yǔ)音識(shí)別框架變?yōu)镈NN-HMM,語(yǔ)音識(shí)別進(jìn)入了DNN時(shí)代,語(yǔ)音識(shí)別準(zhǔn)率得到了提升;2015年以后,由于“端到端”技術(shù)興起,語(yǔ)音識(shí)別進(jìn)入了百花齊放時(shí)代,語(yǔ)音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語(yǔ)音識(shí)別的性能,直到2017年微軟在Swichboard上達(dá)到詞錯(cuò)誤率,從而讓語(yǔ)音識(shí)別的準(zhǔn)確性超越了人類(lèi),當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍性。GMM-HMM時(shí)代70年代,語(yǔ)音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語(yǔ)音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語(yǔ)音與參考模板參數(shù)進(jìn)行一一比較和匹配。一個(gè)眾所周知的應(yīng)用是自動(dòng)語(yǔ)音識(shí)別,以應(yīng)對(duì)不同的說(shuō)話速度。天津谷歌語(yǔ)音識(shí)別

    MarkGales和SteveYoung在2007年對(duì)HMM在語(yǔ)音識(shí)別中的應(yīng)用做了詳細(xì)闡述。隨著統(tǒng)計(jì)模型的成功應(yīng)用,HMM開(kāi)始了對(duì)語(yǔ)音識(shí)別數(shù)十年的統(tǒng)治,直到現(xiàn)今仍被看作是領(lǐng)域內(nèi)的主流技術(shù)。在DARPA的語(yǔ)音研究計(jì)劃的資助下,又誕生了一批的語(yǔ)音識(shí)別系統(tǒng),其中包括李開(kāi)復(fù)()在卡耐基梅隆大學(xué)攻讀博士學(xué)位時(shí)開(kāi)發(fā)的SPHINX系統(tǒng)。該系統(tǒng)也是基于統(tǒng)計(jì)模型的非特定說(shuō)話人連續(xù)語(yǔ)音識(shí)別系統(tǒng),其采用了如下技術(shù):①用HMM對(duì)語(yǔ)音狀態(tài)的轉(zhuǎn)移概率建模;②用高斯混合模型(GaussianMixtureModel,GMM)對(duì)語(yǔ)音狀態(tài)的觀察值概率建模。這種把上述二者相結(jié)合的方法,稱(chēng)為高斯混合模型-隱馬爾可夫模型(GaussianMixtureModel-HiddenMarkovModel,GMM-HMM)[9]。在深度學(xué)習(xí)熱潮出現(xiàn)之前,GMM-HMM一直是語(yǔ)音識(shí)別主流的技術(shù)。值得注意的是,在20世紀(jì)80年代末,隨著分布式知識(shí)表達(dá)和反向傳播算法(Backpropagation,BP)的提出,解決了非線性學(xué)習(xí)問(wèn)題,于是關(guān)于神經(jīng)網(wǎng)絡(luò)的研究興起,人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)被應(yīng)用到語(yǔ)音領(lǐng)域并且掀起了一定的熱潮。這是具有里程碑意義的事件。它為若干年后深度學(xué)習(xí)在語(yǔ)音識(shí)別中的崛起奠定了一定的基礎(chǔ)。但是由于人工神經(jīng)網(wǎng)絡(luò)其自身的缺陷還未得到完全解決。重慶語(yǔ)音識(shí)別率語(yǔ)音識(shí)別是項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科。

    語(yǔ)音識(shí)別自半個(gè)世紀(jì)前誕生以來(lái),一直處于不溫不火的狀態(tài),直到2009年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語(yǔ)音識(shí)別的精度提高,雖然還無(wú)法進(jìn)行無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。語(yǔ)音識(shí)別,通常稱(chēng)為自動(dòng)語(yǔ)音識(shí)別,英文是AutomaticSpeechRecognition,縮寫(xiě)為ASR,主要是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱(chēng)語(yǔ)音轉(zhuǎn)文本識(shí)別(SpeechToText,STT)更合適,這樣就能與語(yǔ)音合成(TextToSpeech,TTS)對(duì)應(yīng)起來(lái)。語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語(yǔ)音識(shí)別自誕生以來(lái)的半個(gè)多世紀(jì),一直沒(méi)有在實(shí)際應(yīng)用過(guò)程得到普遍認(rèn)可,一方面這與語(yǔ)音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求。

    2)初始化離線引擎:初始化訊飛離線語(yǔ)音庫(kù),根據(jù)本地生成的語(yǔ)法文檔,構(gòu)建語(yǔ)法網(wǎng)絡(luò),輸入語(yǔ)音識(shí)別器中;(3)初始化聲音驅(qū)動(dòng):根據(jù)離線引擎的要求,初始化ALSA庫(kù);(4)啟動(dòng)數(shù)據(jù)采集:如果有用戶(hù)有語(yǔ)音識(shí)別請(qǐng)求,語(yǔ)音控制模塊啟動(dòng)實(shí)時(shí)語(yǔ)音采集程序;(5)靜音切除:在語(yǔ)音數(shù)據(jù)的前端,可能存在部分靜音數(shù)據(jù),ALSA庫(kù)開(kāi)啟靜音檢測(cè)功能,將靜音數(shù)據(jù)切除后傳送至語(yǔ)音識(shí)別引擎;(6)語(yǔ)音識(shí)別狀態(tài)檢測(cè):語(yǔ)音控制模塊定時(shí)檢測(cè)引擎系統(tǒng)的語(yǔ)音識(shí)別狀態(tài),當(dāng)離線引擎有結(jié)果輸出時(shí),提取語(yǔ)音識(shí)別結(jié)果;(7)結(jié)束語(yǔ)音采集:語(yǔ)音控制模塊通知ALSA,終止實(shí)時(shí)語(yǔ)音數(shù)據(jù)的采集;(8)語(yǔ)義解析:語(yǔ)音控制模塊根據(jù)語(yǔ)音識(shí)別的結(jié)果,完成語(yǔ)義解析,根據(jù)和的內(nèi)容,確定用戶(hù)需求,根據(jù)的內(nèi)容,確認(rèn)用戶(hù)信息;(9)語(yǔ)音識(shí)別結(jié)束:語(yǔ)音控制模塊將語(yǔ)義解析的結(jié)果上傳至用戶(hù)模塊,同時(shí)結(jié)束本次語(yǔ)音識(shí)別。根據(jù)項(xiàng)目需求,分別在中等、低等噪音的辦公室環(huán)境中,對(duì)語(yǔ)音撥號(hào)軟件功能進(jìn)行科學(xué)的測(cè)試驗(yàn)證。 舌頭部位不同可以發(fā)出多種音調(diào),組合變化多端的輔音,可產(chǎn)生大量的、相似的發(fā)音,這對(duì)語(yǔ)音識(shí)別提出了挑戰(zhàn)。

    一直推崇的是Chain模型。該模型是一種類(lèi)似于CTC的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是CDPhone,另一個(gè)是CDPhone的空白,訓(xùn)練方法采用的是Lattice-FreeMMI訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有非常的提升。遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是2015年以后開(kāi)始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居、智能汽車(chē)、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了廣泛應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的N-Gram方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的指標(biāo)是速度,業(yè)界大部分都是按照靜態(tài)解碼的方式進(jìn)行,即將聲學(xué)模型和語(yǔ)言模型構(gòu)造成WFST網(wǎng)絡(luò)。該網(wǎng)絡(luò)包含了所有可能路徑。

     語(yǔ)音識(shí)別(Speech Recognition)是以語(yǔ)音為研究對(duì)象。深圳光纖數(shù)據(jù)語(yǔ)音識(shí)別設(shè)計(jì)

語(yǔ)音識(shí)別的基本原理是現(xiàn)有的識(shí)別技術(shù)按照識(shí)別對(duì)象可以分為特定人識(shí)別和非特定人識(shí)別。天津谷歌語(yǔ)音識(shí)別

    直接調(diào)用即可開(kāi)啟語(yǔ)音識(shí)別功能。RunASR函數(shù)代碼如下:用戶(hù)說(shuō)完話后,LD3320通過(guò)打分的方式,將關(guān)鍵詞列表中特征**相似的一個(gè)作為輸出。然后LD3320會(huì)產(chǎn)生一個(gè)中斷信號(hào),此時(shí)MCU跳入中斷函數(shù)讀取C5寄存器的值,該值即為識(shí)別結(jié)果,得到結(jié)果后,用戶(hù)可以根據(jù)數(shù)值來(lái)實(shí)現(xiàn)一些功能,比如讀取到1,說(shuō)明是“播放音樂(lè)”,那么可以調(diào)用前面的PlaySound函數(shù)來(lái)播放音樂(lè)。語(yǔ)音識(shí)別控制的關(guān)鍵點(diǎn)在于語(yǔ)音識(shí)別的準(zhǔn)確率。表1給出了測(cè)試結(jié)果,當(dāng)然也可以在識(shí)別列表中加入更多的關(guān)鍵詞來(lái)做測(cè)試。通過(guò)測(cè)試結(jié)果可以看出,LD3320的識(shí)別率在95%上,能夠滿(mǎn)足用戶(hù)需求。4結(jié)語(yǔ)本文討論了基于AVR單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的可行性,并給出了設(shè)計(jì)方案。通過(guò)多次測(cè)試結(jié)果表明,本系統(tǒng)具有電路運(yùn)行穩(wěn)定,語(yǔ)音識(shí)別率高,成本低等優(yōu)點(diǎn)。同時(shí)借助于LD3320的MP3播放功能,該系統(tǒng)具有一定的交互性和娛樂(lè)性。移植性方面,系統(tǒng)通過(guò)簡(jiǎn)單的修改,可以很方便地將LD3320驅(qū)動(dòng)程序移植到各種嵌入式系統(tǒng)中。隨著人們對(duì)人工智能功能的需求,語(yǔ)音識(shí)別技術(shù)將越來(lái)越受到人們的關(guān)注,相信不久的將來(lái),語(yǔ)音識(shí)別將會(huì)擁有更廣闊的應(yīng)用。天津谷歌語(yǔ)音識(shí)別

欧美乱妇精品无乱码亚洲欧美,日本按摩高潮a级中文片三,久久男人电影天堂92,好吊妞在线视频免费观看综合网
五月婷婷之综合缴情 | 日本欧美亚洲日韩在线视 | 真实国产乱子伦对白视频 | 亚洲欧洲卡通动漫精品 | 夜夜爽太视频精品 | 一区二区三区国产视频 |