Google將其應(yīng)用于語音識別領(lǐng)域,取得了非常好的效果,將詞錯(cuò)誤率降低至。如下圖所示,Google提出新系統(tǒng)的框架由三個(gè)部分組成:Encoder編碼器組件,它和標(biāo)準(zhǔn)的聲學(xué)模型相似,輸入的是語音信號的時(shí)頻特征;經(jīng)過一系列神經(jīng)網(wǎng)絡(luò),映射成高級特征henc,然后傳遞給Attention組件,其使用henc特征學(xué)習(xí)輸入x和預(yù)測子單元之間的對齊方式,子單元可以是一個(gè)音素或一個(gè)字。,attention模塊的輸出傳遞給Decoder,生成一系列假設(shè)詞的概率分布,類似于傳統(tǒng)的語言模型。端到端技術(shù)的突破,不再需要HMM來描述音素內(nèi)部狀態(tài)的變化,而是將語音識別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型,使語音識別朝著更簡單、更高效、更準(zhǔn)確的方向發(fā)展。語音識別的技術(shù)現(xiàn)狀目前,主流語音識別框架還是由3個(gè)部分組成:聲學(xué)模型、語言模型和解碼器,有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起,聲學(xué)模型是近幾年非常熱門的方向,業(yè)界都紛紛發(fā)布自己新的聲學(xué)模型結(jié)構(gòu),刷新各個(gè)數(shù)據(jù)庫的識別記錄。由于中文語音識別的復(fù)雜性,國內(nèi)在聲學(xué)模型的研究進(jìn)展相對更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。2018年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)。
語音識別應(yīng)用包括語音用戶界面,例如語音撥號、呼叫路由、多用戶設(shè)備控制、搜索、簡單的數(shù)據(jù)輸入等。天津語音識別器
但是已經(jīng)能夠在各個(gè)真實(shí)場景中普遍應(yīng)用并且得到規(guī)模驗(yàn)證。更進(jìn)一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場景越多,得到的真實(shí)數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語音識別技術(shù)快速進(jìn)步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實(shí)際問題,這也是語音識別相對其他AI技術(shù)為明顯的優(yōu)勢。不過,我們也要看到,語音識別的內(nèi)涵必須不斷擴(kuò)展,狹義語音識別必須走向廣義語音識別,致力于讓機(jī)器聽懂人類語言,這才能將語音識別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來人工智能發(fā)展的主流趨勢。在這種趨勢下,我們還有很多未來的問題需要探討,比如鍵盤、鼠標(biāo)、觸摸屏和語音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?。廣州自主可控語音識別服務(wù)標(biāo)準(zhǔn)語音識別技術(shù)在個(gè)人助理、智能家居等很多領(lǐng)域都有運(yùn)用到。
Bothlent(?亮)是專注于提供AI?程化的平臺,旨在匯聚?批跨?業(yè)的專業(yè)前列?才,為??AI?業(yè)B端客戶、IT從業(yè)者、在校?學(xué)?提供?程化加速?案、教育培訓(xùn)和咨詢等服務(wù)。?亮科技關(guān)注語?識別、??智能、機(jī)器學(xué)習(xí)等前沿科技,致?打造國內(nèi)?流AI技術(shù)服務(wù)商品牌。公司秉承“價(jià)值驅(qū)動連接、連接創(chuàng)造價(jià)值”的理念,重品牌,產(chǎn)品發(fā)布以來迅速在市場上崛起,市場占有率不斷攀升,并快速取得包括科?訊?、國芯、FireFly等平臺及技術(shù)社區(qū)在內(nèi)的渠道合作。未來,我們將進(jìn)一步加大投入智能識別、大數(shù)據(jù)、云計(jì)算、AI工業(yè)4.0前沿技術(shù),融合智慧城市、智慧社區(qū)、養(yǎng)老服務(wù)等應(yīng)用組合模式,締造AI智能機(jī)器人服務(wù)新時(shí)代。
所有語音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺,逐項(xiàng)整合具體的內(nèi)容(比如音樂、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來看是不可接受的。這時(shí)候就會催生相應(yīng)的平臺服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問題,終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。平臺服務(wù)并不需要閉門造車,平臺服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是AI+IOT的特征,也是有所參照的,亞馬遜過去近10年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如Echo,EchoShow等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng)Alexa進(jìn)行平臺化,面向設(shè)備端和技能端同步開放SDK和調(diào)試發(fā)布平臺。雖然GoogleAssistant號稱單點(diǎn)技術(shù),但從各方面的結(jié)果來看Alexa是當(dāng)之無愧的系統(tǒng)平臺,可惜的是Alexa并不支持中文以及相應(yīng)的后臺服務(wù)。國內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺提供商,當(dāng)前的平臺提供商分為兩個(gè)陣營:一類是以百度、阿里、訊飛、小米、騰訊的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕。市面上有哪些語音識別模塊好用呢?
純粹從語音識別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對于等并未有什么本質(zhì)性改變,變化只是把近場語音交互變成了遠(yuǎn)場語音交互。正式面世于銷量已經(jīng)超過千萬,同時(shí)在扮演類似角色的漸成生態(tài),其后臺的第三方技能已經(jīng)突破10000項(xiàng)。借助落地時(shí)從近場到遠(yuǎn)場的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)。但自從遠(yuǎn)場語音技術(shù)規(guī)模落地以后,語音識別領(lǐng)域的產(chǎn)業(yè)競爭已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實(shí)場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場景下的體驗(yàn),語音識別便失去存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。語音識別似乎進(jìn)入了一個(gè)相對平靜期,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。語音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種***的姿態(tài)出現(xiàn)在大眾面前。智能音箱玩家們對這款產(chǎn)品的認(rèn)識還都停留在:亞馬遜出了一款產(chǎn)品,功能類似。
開源框架目前開源世界里提供了多種不同的語音識別工具包,為開發(fā)者構(gòu)建應(yīng)用提供了很大幫助。陜西c語音識別
神經(jīng)網(wǎng)絡(luò)已經(jīng)逐漸用于語音識別,例如音素分類,孤立單詞識別,視聽語音識別、視聽說話者識別和說話者適應(yīng)。天津語音識別器
取距離近的樣本所對應(yīng)的詞標(biāo)注為該語音信號的發(fā)音。該方法對解決孤立詞識別是有效的,但對于大詞匯量、非特定人連續(xù)語音識別就無能為力。因此,進(jìn)入80年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。HMM的理論基礎(chǔ)在1970年前后就已經(jīng)由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語音識別當(dāng)中。HMM模型假定一個(gè)音素含有3到5個(gè)狀態(tài),同一狀態(tài)的發(fā)音相對穩(wěn)定,不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來描述,使用***的模型是GMM。因此GMM-HMM框架中,HMM描述的是語音的短時(shí)平穩(wěn)的動態(tài)性,GMM用來描述HMM每一狀態(tài)內(nèi)部的發(fā)音特征。基于GMM-HMM框架,研究者提出各種改進(jìn)方法,如結(jié)合上下文信息的動態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN混合模型方法等。這些方法都對語音識別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語音識別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì)90年代語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長一段內(nèi)語音識別的發(fā)展比較緩慢,語音識別錯(cuò)誤率那條線一直沒有明顯下降。DNN-HMM時(shí)代2006年。天津語音識別器