智能音箱玩家們對這款產品的認識還都停留在:亞馬遜出了一款叫Echo的產品,功能和Siri類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉為積極參與的轉折點是逐步曝光的Echo銷量,2016年底,Echo近千萬的美國銷量讓整個世界震驚。這是智能設備從未達到過的高點,在Echo以前除了AppleWatch與手環(huán),像恒溫器、攝像頭這樣的產品突破百萬銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的AI屬性促使2016年下半年,國內各大巨頭幾乎是同時轉變應有的態(tài)度,積極打造自己的智能音箱。未來,回看整個發(fā)展歷程,2019年是一個明確的分界點。在此之前,全行業(yè)是突飛猛進,但2019年之后則開始進入對細節(jié)領域滲透和打磨的階段,人們關注的焦點也不再是單純的技術指標,而是回歸到體驗,回歸到一種“新的交互方式到底能給我們帶來什么價值”這樣更為一般的、純粹的商業(yè)視角。技術到產品再到是否需要與具體的形象進行交互結合,比如人物形象;流程自動化是否要與語音結合;場景應該如何使用這種技術來提升體驗,諸如此類終都會一一呈現(xiàn)在從業(yè)者面前。而此時行業(yè)的主角也會從原來的產品方過渡到平臺提供方,AIoT縱深過大。語音識別(Speech Recognition)是以語音為研究對象。四川語音識別字
聲音的感知qi官正常人耳能感知的頻率范圍為20Hz~20kHz,強度范圍為0dB~120dB。人耳對不同頻率的感知程度是不同的。音調是人耳對不同頻率聲音的一種主觀感覺,單位為mel。mel頻率與在1kHz以下的頻率近似成線性正比關系,與1kHz以上的頻率成對數正比關系。02語音識別過程人耳接收到聲音后,經過神經傳導到大腦分析,判斷聲音類型,并進一步分辨可能的發(fā)音內容。人的大腦從嬰兒出生開始,就不斷在學習外界的聲音,經過長時間的潛移默化,終才聽懂人類的語言。機器跟人一樣,也需要學習語言的共性和發(fā)音的規(guī)律,才能進行語音識別。音素(phone)是構成語音的*小單位。英語中有48個音素(20個元音和28個輔音)。采用元音和輔音來分類,漢語普通話有32個音素,包括元音10個,輔音22個。但普通話的韻母很多是復韻母,不是簡單的元音,因此拼音一般分為聲母(initial)和韻母(final)。漢語中原來有21個聲母和36個韻母,經過擴充(增加aoeywv)和調整后,包含27個聲母和38個韻母(不帶聲調)。普通話的聲母和韻母(不帶聲調)分類表音節(jié)(syllable)是聽覺能感受到的自然的語音單位,由一個或多個音素按一定的規(guī)律組合而成。英語音節(jié)可單獨由一個元音構成。也可由一個元音和一個或多個輔音構成。深圳移動語音識別其識別精度和速度都達不到實際應用的要求。
直接調用即可開啟語音識別功能。RunASR函數代碼如下:用戶說完話后,LD3320通過打分的方式,將關鍵詞列表中特征**相似的一個作為輸出。然后LD3320會產生一個中斷信號,此時MCU跳入中斷函數讀取C5寄存器的值,該值即為識別結果,得到結果后,用戶可以根據數值來實現(xiàn)一些功能,比如讀取到1,說明是“播放音樂”,那么可以調用前面的PlaySound函數來播放音樂。語音識別控制的關鍵點在于語音識別的準確率。表1給出了測試結果,當然也可以在識別列表中加入更多的關鍵詞來做測試。通過測試結果可以看出,LD3320的識別率在95%上,能夠滿足用戶需求。4結語本文討論了基于AVR單片機的語音識別系統(tǒng)設計的可行性,并給出了設計方案。通過多次測試結果表明,本系統(tǒng)具有電路運行穩(wěn)定,語音識別率高,成本低等優(yōu)點。同時借助于LD3320的MP3播放功能,該系統(tǒng)具有一定的交互性和娛樂性。移植性方面,系統(tǒng)通過簡單的修改,可以很方便地將LD3320驅動程序移植到各種嵌入式系統(tǒng)中。隨著人們對人工智能功能的需求,語音識別技術將越來越受到人們的關注,相信不久的將來,語音識別將會擁有更廣闊的應用。
并能產生興趣投身于這個行業(yè)。語音識別的技術歷程現(xiàn)代語音識別可以追溯到1952年,Davis等人研制了世界上個能識別10個英文數字發(fā)音的實驗系統(tǒng),從此正式開啟了語音識別的進程。語音識別發(fā)展到已經有70多年,但從技術方向上可以大體分為三個階段。下圖是從1993年到2017年在Switchboard上語音識別率的進展情況,從圖中也可以看出1993年到2009年,語音識別一直處于GMM-HMM時代,語音識別率提升緩慢,尤其是2000年到2009年語音識別率基本處于停滯狀態(tài);2009年隨著深度學習技術,特別是DNN的興起,語音識別框架變?yōu)镈NN-HMM,語音識別進入了DNN時代,語音識別精細率得到了提升;2015年以后,由于“端到端”技術興起,語音識別進入了百花齊放時代,語音界都在訓練更深、更復雜的網絡,同時利用端到端技術進一步大幅提升了語音識別的性能,直到2017年微軟在Swichboard上達到詞錯誤率,從而讓語音識別的準確性超越了人類,當然這是在一定限定條件下的實驗結果,還不具有普遍代表性。GMM-HMM時代70年代,語音識別主要集中在小詞匯量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特征構建參數模板,然后將測試語音與參考模板參數進行一一比較和匹配。
通過語音信號處理和模式識別讓機器自動識別和理解人類的語音。
Hinton提出深度置信網絡(DBN),促使了深度神經網絡(DNN)研究的復蘇。2009年,Hinton將DNN應用于語音的聲學建模,在TIMIT上獲得了當時好的結果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術應用在了大詞匯量連續(xù)語音識別任務上,降低了語音識別錯誤率。從此語音識別進入DNN-HMM時代。DNN-HMM主要是用DNN模型代替原來的GMM模型,對每一個狀態(tài)進行建模,DNN帶來的好處是不再需要對語音數據分布進行假設,將相鄰的語音幀拼接又包含了語音的時序結構信息,使得對于狀態(tài)的分類概率有了明顯提升,同時DNN還具有強大環(huán)境學習能力,可以提升對噪聲和口音的魯棒性。簡單來說,DNN就是給出輸入的一串特征所對應的狀態(tài)概率。由于語音信號是連續(xù)的,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位還會受到上下文的影響。雖然拼幀可以增加上下文信息,但對于語音來說還是不夠。而遞歸神經網絡(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對語音信號的上下文信息進行建模。由于簡單的RNN存在梯度炸和梯度消散問題,難以訓練,無法直接應用于語音信號建模上,因此學者進一步探索,開發(fā)出了很多適合語音建模的RNN結構,其中有名的就是LSTM。該系統(tǒng)分析該人的特定聲音,并使用它來微調對該人語音的識別,從而提高準確性。內蒙古長語音識別
大數據與深度神經網絡時代的到來,語音識別技術取得了突飛猛進的進步。四川語音識別字
自2015年以來,谷歌、亞馬遜、百度等公司陸續(xù)開始了對CTC模型的研發(fā)和使用,并且都獲得了不錯的性能提升。2014年,基于Attention(注意力機制)的端到端技術在機器翻譯領域中得到了廣的應用并取得了較好的實驗結果,之后很快被大規(guī)模商用。于是,JanChorowski在2015年將Attention的應用擴展到了語音識別領域,結果大放異彩。在近的兩年里,有一種稱為Seq2Seq(SequencetoSequence)的基于Attention的語音識別模型在學術界引起了極大的關注,相關的研究取得了較大的進展。在加拿大召開的國際智能語音領域的會議ICASSP2018上,谷歌公司發(fā)表的研究成果顯示,在英語語音識別任務上,基于Attention的Seq2Seq模型表現(xiàn)強勁,它的識別結果已經超越了其他語音識別模型。但Attention模型的對齊關系沒有先后順序的限制,完全靠數據驅動得到,對齊的盲目性會導致訓練和解碼時間過長。而CTC的前向后向算法可以引導輸出序列與輸入序列按時間順序對齊。因此CTC和Attention模型各有優(yōu)勢,可把兩者結合起來。構建HybridCTC/Attention模型,并采用多任務學習,以取得更好的效果。2017年,Google和多倫多大學提出一種稱為Transformer的全新架構,這種架構在Decoder和Encoder中均采用Attention機制。四川語音識別字