河北語(yǔ)音識(shí)別模塊

來(lái)源: 發(fā)布時(shí)間:2024-03-27

    中國(guó)科學(xué)院聲學(xué)所成為國(guó)內(nèi)shou個(gè)開(kāi)始研究計(jì)算機(jī)語(yǔ)音識(shí)別的機(jī)構(gòu)。受限于當(dāng)時(shí)的研究條件,我國(guó)的語(yǔ)音識(shí)別研究在這個(gè)階段一直進(jìn)展緩慢。放開(kāi)以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)和信號(hào)處理技術(shù)在我國(guó)的普及,越來(lái)越多的國(guó)內(nèi)單位和機(jī)構(gòu)具備了語(yǔ)音研究的成熟條件。而就在此時(shí),外國(guó)的語(yǔ)音識(shí)別研究取得了較大的突破性進(jìn)展,語(yǔ)音識(shí)別成為科技浪潮的前沿,得到了迅猛的發(fā)展,這推動(dòng)了包括中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)、中國(guó)科技大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、西北工業(yè)大學(xué)、廈門大學(xué)等許多國(guó)內(nèi)科研機(jī)構(gòu)和高等院校投身到語(yǔ)音識(shí)別的相關(guān)研究當(dāng)中。大多數(shù)的研究者將研究重點(diǎn)聚焦在語(yǔ)音識(shí)別基礎(chǔ)理論研究和模型、算法的研究改進(jìn)上。1986年3月,我國(guó)的"863"計(jì)劃正式啟動(dòng)。"863"計(jì)劃即國(guó)家高技術(shù)研究發(fā)展計(jì)劃,是我國(guó)的一項(xiàng)高科技發(fā)展計(jì)劃。作為計(jì)算機(jī)系統(tǒng)和智能科學(xué)領(lǐng)域的一個(gè)重要分支。語(yǔ)音識(shí)別在該計(jì)劃中被列為一個(gè)專項(xiàng)研究課題。隨后,我國(guó)展開(kāi)了系統(tǒng)性的針對(duì)語(yǔ)音識(shí)別技術(shù)的研究。因此,對(duì)于我國(guó)國(guó)內(nèi)的語(yǔ)音識(shí)別行業(yè)來(lái)說(shuō),"863"計(jì)劃是一個(gè)里程碑,它標(biāo)志著我國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)嶄新的發(fā)展階段。但是由于研究起步晚、基礎(chǔ)薄弱、硬件條件和計(jì)算能力有限。語(yǔ)音必定將成為未來(lái)主要的人機(jī)互動(dòng)接口之一。河北語(yǔ)音識(shí)別模塊

    即識(shí)別準(zhǔn)確率為,相較于2013年的準(zhǔn)確率提升了接近20個(gè)百分點(diǎn)。這種水平的準(zhǔn)確率已經(jīng)接近正常人類。2016年10月18日,微軟語(yǔ)音團(tuán)隊(duì)在Switchboard語(yǔ)音識(shí)別測(cè)試中打破了自己的好成績(jī),將詞錯(cuò)誤率降低至。次年,微軟語(yǔ)音團(tuán)隊(duì)研究人員通過(guò)改進(jìn)語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語(yǔ)言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM(ConvolutionalNeuralNetworkCombinedwithBidirectionalLongShort-TermMemory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò))模型,用于提升語(yǔ)音建模的效果。2017年8月20日,微軟語(yǔ)音團(tuán)隊(duì)再次將這一紀(jì)錄刷新,在Switchboard測(cè)試中將詞錯(cuò)誤率從,即識(shí)別準(zhǔn)確率達(dá)到,與谷歌一起成為了行業(yè)。另外,亞馬遜(Amazon)公司在語(yǔ)音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過(guò)該音箱搭載的Alexa語(yǔ)音助理,為使用者提供種種應(yīng)用服務(wù)。Echo智能音箱一經(jīng)推出,在消費(fèi)市場(chǎng)上取得了巨大的成功。如今已成為美國(guó)使用廣的智能家居產(chǎn)品,至今累計(jì)銷量已超過(guò)2000萬(wàn)臺(tái)。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"成功的消費(fèi)電子產(chǎn)品"。國(guó)內(nèi)語(yǔ)音識(shí)別現(xiàn)狀國(guó)內(nèi)早的語(yǔ)音識(shí)別研究開(kāi)始于1958年,中國(guó)科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識(shí)別10個(gè)元音。1973年。河北語(yǔ)音識(shí)別模塊語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境。

    feed-forwardsequentialmemorynetwork,F(xiàn)SMN),在DNN的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來(lái)存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的語(yǔ)音信號(hào)的歷史信息和未來(lái)信息,并且只需等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀。隨后,科大訊飛進(jìn)一步提出了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)。2018年,阿里巴巴改良并開(kāi)源了語(yǔ)音識(shí)別模型DFSMN(DeepFSMN)。2018年,中科院自動(dòng)化所率先把Transformer應(yīng)用到語(yǔ)音識(shí)別任務(wù),并進(jìn)一步拓展到中文語(yǔ)音識(shí)別。不管是在研究成果還是在產(chǎn)品性能體驗(yàn)上,國(guó)內(nèi)的語(yǔ)音行業(yè)整體水平已經(jīng)達(dá)到甚至超越了國(guó)際水平。2016年10月,時(shí)任百度首席科學(xué)家的吳恩達(dá)在對(duì)微軟的語(yǔ)音識(shí)別技術(shù)與人類水平持平的消息表示祝賀的同時(shí)聲稱,百度的漢語(yǔ)語(yǔ)音識(shí)別在2015年就已經(jīng)超越了人類的平均水平,也就是說(shuō)百度比微軟提前一年實(shí)現(xiàn)了這一成績(jī)。當(dāng)前語(yǔ)音識(shí)別系統(tǒng)依然面臨著不少應(yīng)用挑戰(zhàn),其中包括以下主要問(wèn)題:魯棒性。目前語(yǔ)音識(shí)別準(zhǔn)確率超過(guò)人類水平主要還是在受限的場(chǎng)景下,比如在安靜環(huán)境的情況下,而一旦加入干擾信號(hào),尤其是環(huán)境噪聲和人聲干擾,性能往往會(huì)明顯下降。因此,如何在復(fù)雜場(chǎng)景(包括非平穩(wěn)噪聲、混響、遠(yuǎn)場(chǎng))下,提高語(yǔ)音識(shí)別的魯棒性,研發(fā)"能用=>好用"的語(yǔ)音識(shí)別產(chǎn)品。

    那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺(tái),逐項(xiàng)整合具體的內(nèi)容(比如音樂(lè)、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來(lái)看是不可接受的。這時(shí)候就會(huì)催生相應(yīng)的平臺(tái)服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問(wèn)題,終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。平臺(tái)服務(wù)并不需要閉門造車,平臺(tái)服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是AI+IOT的特征,也是有所參照的,亞馬遜過(guò)去近10年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如Echo,EchoShow等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng)Alexa進(jìn)行平臺(tái)化,面向設(shè)備端和技能端同步開(kāi)放SDK和調(diào)試發(fā)布平臺(tái)。雖然GoogleAssistant號(hào)稱單點(diǎn)技術(shù)更為,但從各方面的結(jié)果來(lái)看Alexa是當(dāng)之無(wú)愧的為的系統(tǒng)平臺(tái),可惜的是Alexa并不支持中文以及相應(yīng)的后臺(tái)服務(wù)。國(guó)內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺(tái)提供商,當(dāng)前的平臺(tái)提供商分為兩個(gè)陣營(yíng):一類是以百度、阿里、訊飛、小米、騰訊為的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來(lái)、有特色的基礎(chǔ)服務(wù)。

     一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)通常包括信息處理和特征提取、聲學(xué)模型、語(yǔ)言模型和解碼搜索四個(gè)模塊。

    所有語(yǔ)音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來(lái)打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺(tái),逐項(xiàng)整合具體的內(nèi)容(比如音樂(lè)、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來(lái)看是不可接受的。這時(shí)候就會(huì)催生相應(yīng)的平臺(tái)服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問(wèn)題,終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。平臺(tái)服務(wù)并不需要閉門造車,平臺(tái)服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是AI+IOT的特征,也是有所參照的,亞馬遜過(guò)去近10年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如Echo,EchoShow等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng)Alexa進(jìn)行平臺(tái)化,面向設(shè)備端和技能端同步開(kāi)放SDK和調(diào)試發(fā)布平臺(tái)。雖然GoogleAssistant號(hào)稱單點(diǎn)技術(shù),但從各方面的結(jié)果來(lái)看Alexa是當(dāng)之無(wú)愧的系統(tǒng)平臺(tái),可惜的是Alexa并不支持中文以及相應(yīng)的后臺(tái)服務(wù)。國(guó)內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺(tái)提供商,當(dāng)前的平臺(tái)提供商分為兩個(gè)陣營(yíng):一類是以百度、阿里、訊飛、小米、騰訊的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕。特別是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。江西語(yǔ)音識(shí)別源碼

語(yǔ)音識(shí)別目前已使用在生活的各個(gè)方面:手機(jī)端的語(yǔ)音識(shí)別技術(shù)。河北語(yǔ)音識(shí)別模塊

    3)上述兩個(gè)問(wèn)題的共性是目前的深度學(xué)習(xí)用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來(lái)的一個(gè)方向。(4)另外,在較少數(shù)據(jù)量的情況下,如何通過(guò)遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離目標(biāo)還有一定差距。(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是終的目的。如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的LSTM已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。(6)讓機(jī)器聽(tīng)懂人類語(yǔ)言,靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界。

     河北語(yǔ)音識(shí)別模塊

欧美乱妇精品无乱码亚洲欧美,日本按摩高潮a级中文片三,久久男人电影天堂92,好吊妞在线视频免费观看综合网
五月天精品一区二区三区 | 亚洲日本精品国产第一区二区 | 日韩综合国产区 | 日本午夜两性视屏 | 日本a级按摩片春药手机在线 | 亚洲午夜福利国产门事件 |