即識別準(zhǔn)確率為,相較于2013年的準(zhǔn)確率提升了接近20個百分點(diǎn)。這種水平的準(zhǔn)確率已經(jīng)接近正常人類。2016年10月18日,微軟語音團(tuán)隊(duì)在Switchboard語音識別測試中打破了自己的好成績,將詞錯誤率降低至。次年,微軟語音團(tuán)隊(duì)研究人員通過改進(jìn)語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM(ConvolutionalNeuralNetworkCombinedwithBidirectionalLongShort-TermMemory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò))模型,用于提升語音建模的效果。2017年8月20日,微軟語音團(tuán)隊(duì)再次將這一紀(jì)錄刷新,在Switchboard測試中將詞錯誤率從,即識別準(zhǔn)確率達(dá)到,與谷歌一起成為了行業(yè)。另外,亞馬遜(Amazon)公司在語音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過該音箱搭載的Alexa語音助理,為使用者提供種種應(yīng)用服務(wù)。Echo智能音箱一經(jīng)推出,在消費(fèi)市場上取得了巨大的成功。如今已成為美國使用廣的智能家居產(chǎn)品,至今累計(jì)銷量已超過2000萬臺。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"成功的消費(fèi)電子產(chǎn)品"。國內(nèi)語音識別現(xiàn)狀國內(nèi)早的語音識別研究開始于1958年,中國科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識別10個元音。1973年。遠(yuǎn)場語音識別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。海南谷歌語音識別
因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。(3)上述兩個問題的共性是目前的深度學(xué)習(xí)用到了語音信號各個頻帶的能量信息,而忽略了語音信號的相位信息,尤其是對于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識別,若有一個比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語音識別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離目標(biāo)還有一定差距。(5)語音識別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是終的目的。如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的LSTM已經(jīng)考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。(6)讓機(jī)器聽懂人類語言,靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識的前提條件。而且。北京語音識別翻譯語音識別技術(shù)還可以應(yīng)用于自動口語翻譯。
自2015年以來,谷歌、亞馬遜、百度等公司陸續(xù)開始了對CTC模型的研發(fā)和使用,并且都獲得了不錯的性能提升。2014年,基于Attention(注意力機(jī)制)的端到端技術(shù)在機(jī)器翻譯領(lǐng)域中得到了廣的應(yīng)用并取得了較好的實(shí)驗(yàn)結(jié)果,之后很快被大規(guī)模商用。于是,JanChorowski在2015年將Attention的應(yīng)用擴(kuò)展到了語音識別領(lǐng)域,結(jié)果大放異彩。在近的兩年里,有一種稱為Seq2Seq(SequencetoSequence)的基于Attention的語音識別模型在學(xué)術(shù)界引起了極大的關(guān)注,相關(guān)的研究取得了較大的進(jìn)展。在加拿大召開的國際智能語音領(lǐng)域的會議ICASSP2018上,谷歌公司發(fā)表的研究成果顯示,在英語語音識別任務(wù)上,基于Attention的Seq2Seq模型表現(xiàn)強(qiáng)勁,它的識別結(jié)果已經(jīng)超越了其他語音識別模型。但Attention模型的對齊關(guān)系沒有先后順序的限制,完全靠數(shù)據(jù)驅(qū)動得到,對齊的盲目性會導(dǎo)致訓(xùn)練和解碼時間過長。而CTC的前向后向算法可以引導(dǎo)輸出序列與輸入序列按時間順序?qū)R。因此CTC和Attention模型各有優(yōu)勢,可把兩者結(jié)合起來。構(gòu)建HybridCTC/Attention模型,并采用多任務(wù)學(xué)習(xí),以取得更好的效果。2017年,Google和多倫多大學(xué)提出一種稱為Transformer的全新架構(gòu),這種架構(gòu)在Decoder和Encoder中均采用Attention機(jī)制。
語音識別技術(shù)飛速發(fā)展,又取得了幾個突破性的進(jìn)展。1970年,來自前蘇聯(lián)的Velichko和Zagoruyko將模式識別的概念引入語音識別中。同年,Itakura提出了線性預(yù)測編碼(LinearPredictiveCoding,LPC)技術(shù),并將該技術(shù)應(yīng)用于語音識別。1978年,日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上,成功地使用動態(tài)規(guī)劃算法將兩段不同長度的語音在時間軸上進(jìn)行了對齊,這就是我們現(xiàn)在經(jīng)常提到的動態(tài)時間規(guī)整(DynamicTimeWarping,DTW)。該算法把時間規(guī)整和距離的計(jì)算有機(jī)地結(jié)合起來,解決了不同時長語音的匹配問題。在一些要求資源占用率低、識別人比較特定的環(huán)境下,DTW是一種很經(jīng)典很常用的模板匹配算法。這些技術(shù)的提出完善了語音識別的理論研究,并且使得孤立詞語音識別系統(tǒng)達(dá)到了一定的實(shí)用性。此后,以IBM公司和Bell實(shí)驗(yàn)室為的語音研究團(tuán)隊(duì)開始將研究重點(diǎn)放到大詞匯量連續(xù)語音識別系統(tǒng)(LargeVocabularyContinuousSpeechRecognition,LVCSR),因?yàn)檫@在當(dāng)時看來是更有挑戰(zhàn)性和更有價值的研究方向。20世紀(jì)70年代末,Linda的團(tuán)隊(duì)提出了矢量量化(VectorQuantization。VQ)的碼本生成方法,該項(xiàng)工作對于語音編碼技術(shù)具有重大意義。這些進(jìn)步不僅體現(xiàn)在該領(lǐng)域發(fā)表的學(xué)術(shù)論文激增上。
語音識別的原理?語音識別是將語音轉(zhuǎn)換為文本的技術(shù),是自然語言處理的一個分支。前臺主要步驟分為信號搜集、降噪和特征提取三步,提取的特征在后臺由經(jīng)過語音大數(shù)據(jù)訓(xùn)練得到的語音模型對其進(jìn)行解碼,終把語音轉(zhuǎn)化為文本,實(shí)現(xiàn)達(dá)到讓機(jī)器識別和理解語音的目的。根據(jù)公開資料顯示,目前語音識別的技術(shù)成熟度較高,已達(dá)到95%的準(zhǔn)確度。然而,需要指出的是,從95%到99%的準(zhǔn)確度帶來的改變才是質(zhì)的飛躍,將使人們從偶爾使用語音變到常常使用。以下我們來舉例,當(dāng)我們說“jin天天氣怎么樣”時,機(jī)器是怎么進(jìn)行語音識別的??2語義識別?語義識別是人工智能的重要分支之一,解決的是“聽得懂”的問題。其大的作用是改變?nèi)藱C(jī)交互模式,將人機(jī)交互由原始的鼠標(biāo)、鍵盤交互轉(zhuǎn)變?yōu)檎Z音對話的方式。此外,我們認(rèn)為目前的語義識別行業(yè)還未出現(xiàn)壟斷者,新進(jìn)入的創(chuàng)業(yè)公司仍具備一定機(jī)會。語義識別是自然語言處理(NLP)技術(shù)的重要組成部分。NLP在實(shí)際應(yīng)用中大的困難還是語義的復(fù)雜性,此外,深度學(xué)習(xí)算法也不是語義識別領(lǐng)域的優(yōu)算法。但隨著整個AI行業(yè)發(fā)展進(jìn)程加速,將為NLP帶來長足的進(jìn)步從1996年至今,國內(nèi)至今仍在運(yùn)營的人工智能公司接近400家。除了傳統(tǒng)語音識別技術(shù)之外,基于深度學(xué)習(xí)的語音識別技術(shù)也逐漸發(fā)展起來。深圳信息化語音識別內(nèi)容
語料的標(biāo)注需要長期的積累和沉淀,大規(guī)模語料資源的積累需要被提高到戰(zhàn)略高度。海南谷歌語音識別
第三個關(guān)鍵點(diǎn)正是AmazonEcho的出現(xiàn),純粹從語音識別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對于Siri等并未有什么本質(zhì)性改變,變化只是把近場語音交互變成了遠(yuǎn)場語音交互。Echo正式面世于2015年6月,到2017年銷量已經(jīng)超過千萬,同時在Echo上扮演類似Siri角色的Alexa漸成生態(tài),其后臺的第三方技能已經(jīng)突破10000項(xiàng)。借助落地時從近場到遠(yuǎn)場的突破,亞馬遜一舉從這個賽道的落后者變?yōu)樾袠I(yè)者。但自從遠(yuǎn)場語音技術(shù)規(guī)模落地以后,語音識別領(lǐng)域的產(chǎn)業(yè)競爭已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實(shí)場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場景下的體驗(yàn),語音識別便失去存在的價值,更多作為產(chǎn)品體驗(yàn)的一個環(huán)節(jié)而存在。所以到2019年,語音識別似乎進(jìn)入了一個相對平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。語音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種***的姿態(tài)出現(xiàn)在大眾面前。2016年以前。海南谷歌語音識別
深圳魚亮科技有限公司在同行業(yè)領(lǐng)域中,一直處在一個不斷銳意進(jìn)取,不斷制造創(chuàng)新的市場高度,多年以來致力于發(fā)展富有創(chuàng)新價值理念的產(chǎn)品標(biāo)準(zhǔn),在廣東省等地區(qū)的通信產(chǎn)品中始終保持良好的商業(yè)口碑,成績讓我們喜悅,但不會讓我們止步,殘酷的市場磨煉了我們堅(jiān)強(qiáng)不屈的意志,和諧溫馨的工作環(huán)境,富有營養(yǎng)的公司土壤滋養(yǎng)著我們不斷開拓創(chuàng)新,勇于進(jìn)取的無限潛力,深圳魚亮科技供應(yīng)攜手大家一起走向共同輝煌的未來,回首過去,我們不會因?yàn)槿〉昧艘稽c(diǎn)點(diǎn)成績而沾沾自喜,相反的是面對競爭越來越激烈的市場氛圍,我們更要明確自己的不足,做好迎接新挑戰(zhàn)的準(zhǔn)備,要不畏困難,激流勇進(jìn),以一個更嶄新的精神面貌迎接大家,共同走向輝煌回來!