當(dāng)您使用語(yǔ)音的API接口發(fā)送外呼后,可以通過(guò)使用MNS的Queue模型來(lái)接收語(yǔ)音的回執(zhí)消息。語(yǔ)音服務(wù)提供的回執(zhí)消息類型包括:呼叫記錄消息(VoiceReport)訂閱呼叫記錄消息(VoiceReport)可以在呼叫結(jié)束后獲取呼叫的記錄信息,包括通話類型、通話的開(kāi)始及結(jié)束時(shí)間、通話時(shí)長(zhǎng)、結(jié)束原因等。呼叫中間狀態(tài)消息(VoiceCallReport)訂閱呼叫中間狀態(tài)消息(VoiceCallReport),可以獲取呼叫過(guò)程中的通話狀態(tài)的信息,通常包括開(kāi)始、振鈴、接聽(tīng)、掛斷以及狀態(tài)產(chǎn)生的時(shí)間等。錄音記錄消息(VoiceRecordReport)訂閱錄音記錄消息(VoiceRecordReport),可以在通話結(jié)束后獲取通話的錄音記錄。ASR實(shí)時(shí)消息(VoiceRTASRReport)訂閱ASR實(shí)時(shí)消息(VoiceRTASRReport),可以獲取點(diǎn)擊撥號(hào)通話中的實(shí)時(shí)文本轉(zhuǎn)換結(jié)果。點(diǎn)擊呼叫是指通過(guò)調(diào)用語(yǔ)音服務(wù)接口,通過(guò)語(yǔ)音服務(wù)分配的號(hào)碼分別向主叫、被叫發(fā)起呼叫,建立起正常通話。云南無(wú)限語(yǔ)音服務(wù)
可以導(dǎo)航到“測(cè)試模型”選項(xiàng)卡,以直觀地檢查含音頻數(shù)據(jù)的質(zhì)量,或者通過(guò)音頻+人為標(biāo)記的聽(tīng)錄內(nèi)容來(lái)評(píng)估準(zhǔn)確性。音頻+人為標(biāo)記的聽(tīng)錄內(nèi)容音頻+人為標(biāo)記的聽(tīng)錄內(nèi)容可用于訓(xùn)練和測(cè)試目的。若要從輕微口音、說(shuō)話風(fēng)格、背景噪音等方面優(yōu)化聲音,或在處理音頻文件時(shí)度量Microsoft語(yǔ)音轉(zhuǎn)文本的準(zhǔn)確性,則必須提供人為標(biāo)記的聽(tīng)錄內(nèi)容(逐字逐句)進(jìn)行比較。盡管人為標(biāo)記的聽(tīng)錄往往很耗時(shí),但有必要評(píng)估準(zhǔn)確度并根據(jù)用例訓(xùn)練模型。請(qǐng)記住,識(shí)別能力的改善程度以提供的數(shù)據(jù)質(zhì)量為界限。出于此原因,只能上傳質(zhì)量的聽(tīng)錄內(nèi)容,這一點(diǎn)非常重要。音頻文件在錄音開(kāi)始和結(jié)束時(shí)可以保持靜音。如果可能,請(qǐng)?jiān)诿總€(gè)示例文件中的語(yǔ)音前后包含至少半秒的靜音。錄音音量小或具有干擾性背景噪音的音頻沒(méi)什么用,但不應(yīng)損害你的自定義模型。收集音頻示例之前,請(qǐng)務(wù)必考慮升級(jí)麥克風(fēng)和信號(hào)處理硬件。默認(rèn)音頻流格式為WAV(16KHz或8kHz,16位,單聲道PCM)。除了WAV/PCM外,還可使用GStreamer支持下列壓縮輸入格式。MP3、OPUS/OGG、FLAC、wav容器中的ALAW、wav容器中的MULAW、任何(適用于媒體格式未知的情況)。備注上傳訓(xùn)練和測(cè)試數(shù)據(jù)時(shí),.zip文件大小不能超過(guò)2GB。只能從單個(gè)數(shù)據(jù)集進(jìn)行測(cè)試。
內(nèi)蒙古未來(lái)語(yǔ)音服務(wù)如果語(yǔ)音服務(wù)訂閱所在區(qū)域沒(méi)有于訓(xùn)練的硬件,我們建議你完全刪除音頻并留下文本。
什么是語(yǔ)音服務(wù)?語(yǔ)音服務(wù)在單個(gè)Azure訂閱中統(tǒng)合了語(yǔ)音轉(zhuǎn)文本、文本轉(zhuǎn)語(yǔ)音以及語(yǔ)音翻譯功能。使用語(yǔ)音CLI、語(yǔ)音SDK、語(yǔ)音設(shè)備SDK、SpeechStudio或RESTAPI可以輕松在應(yīng)用程序、工具和設(shè)備中啟用語(yǔ)音。以下功能是語(yǔ)音服務(wù)的一部分。請(qǐng)使用下表中的鏈接詳細(xì)了解每項(xiàng)功能的常見(jiàn)用例或?yàn)g覽API參考信息。語(yǔ)音轉(zhuǎn)文本可將音頻流或本地文件實(shí)時(shí)轉(zhuǎn)錄或翻譯為文本,應(yīng)用程序、工具或設(shè)備可以使用或顯示這些文本。結(jié)合語(yǔ)言理解(LUIS)使用語(yǔ)音轉(zhuǎn)文本可以從聽(tīng)錄的語(yǔ)音中派生用戶意向,以及處理語(yǔ)音命令。批量語(yǔ)音轉(zhuǎn)文本支持對(duì)AzureBlob存儲(chǔ)中存儲(chǔ)的大量語(yǔ)音音頻數(shù)據(jù)進(jìn)行異步語(yǔ)音到文本轉(zhuǎn)錄。除了將語(yǔ)音音頻轉(zhuǎn)換為文本,批量語(yǔ)音轉(zhuǎn)文本還允許進(jìn)行分割聚類和情感分析。多設(shè)備對(duì)話-在對(duì)話中連接多個(gè)設(shè)備或客戶端以發(fā)送基于語(yǔ)音或文本的消息,并輕松支持聽(tīng)錄和翻譯。對(duì)話聽(tīng)錄-啟用實(shí)時(shí)語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和分割聚類。它非常適合用于聽(tīng)錄能夠區(qū)分說(shuō)話人的面對(duì)面會(huì)談場(chǎng)景。創(chuàng)建自定義語(yǔ)音識(shí)別模型-如果使用語(yǔ)音轉(zhuǎn)文本在獨(dú)特的環(huán)境中進(jìn)行識(shí)別和聽(tīng)錄,則可以創(chuàng)建并訓(xùn)練自定義的聲學(xué)、語(yǔ)言和發(fā)音模型,以解決環(huán)境干擾或行業(yè)特定的詞匯。文本轉(zhuǎn)語(yǔ)音可使用語(yǔ)音合成標(biāo)記語(yǔ)言。
本發(fā)明屬于物聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種物聯(lián)網(wǎng)設(shè)備語(yǔ)音控制方法及語(yǔ)音服務(wù)端。背景技術(shù):隨著語(yǔ)音處理技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,使用語(yǔ)音來(lái)對(duì)設(shè)備(尤其是物聯(lián)網(wǎng)設(shè)備)進(jìn)行控制,從而提升用戶體驗(yàn)已經(jīng)成為了目前科技發(fā)展的一大趨勢(shì)。目前,針對(duì)物聯(lián)網(wǎng)設(shè)備的控制操作,一般是通過(guò)分析用戶語(yǔ)音消息處理操作來(lái)對(duì)用戶賬號(hào)下的所有iot(internetofthings,物聯(lián)網(wǎng))智能設(shè)備進(jìn)行控制,無(wú)法對(duì)同一用戶的不同物聯(lián)網(wǎng)設(shè)備分別進(jìn)行個(gè)性化控制。但是,在一些應(yīng)用場(chǎng)景下(例如酒店智能家居場(chǎng)景)下,可能需要對(duì)酒店用戶下的多個(gè)房間的物聯(lián)網(wǎng)設(shè)備分別**地進(jìn)行控制。針對(duì)上述問(wèn)題,目前業(yè)界暫無(wú)較佳的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種物聯(lián)網(wǎng)設(shè)備語(yǔ)音控制方法及語(yǔ)音服務(wù)端,用于至少解決上述技術(shù)問(wèn)題之一。一方面,本發(fā)明實(shí)施例提供一種物聯(lián)網(wǎng)設(shè)備語(yǔ)音控制方法,應(yīng)用于語(yǔ)音服務(wù)端,該方法包括:獲取基于物聯(lián)網(wǎng)主控設(shè)備所確定的語(yǔ)音控制請(qǐng)求,所述語(yǔ)音控制請(qǐng)求包括語(yǔ)音消息、目標(biāo)設(shè)備用戶信息和目標(biāo)設(shè)備區(qū)域配置信息;確定所述目標(biāo)設(shè)備用戶信息所對(duì)應(yīng)的目標(biāo)設(shè)備列表,所述目標(biāo)設(shè)備列表包括針對(duì)所述目標(biāo)設(shè)備用戶信息的在多個(gè)設(shè)備區(qū)域配置信息下的多個(gè)受控設(shè)備信息。人工語(yǔ)音服務(wù)是什么?
實(shí)現(xiàn)百萬(wàn)房間的問(wèn)題。容易想到的方案是把100萬(wàn)用戶分到5個(gè)SET里。那多個(gè)SET之間怎樣通信呢?方法說(shuō)白了就是為不同SET中的服務(wù)器提供一個(gè)全局視圖,用于轉(zhuǎn)發(fā)路由。方法有很多種,這里介紹2種思路。第一種是在房間服務(wù)器的上面再增加一個(gè)組服務(wù)器(groupserver),為系統(tǒng)提供全局視野。組服務(wù)器在每個(gè)SET的語(yǔ)音服務(wù)器中選取一臺(tái)做為橋頭堡機(jī)器(broker),跨SET轉(zhuǎn)發(fā)和接收都通過(guò)broker完成。Broker收到SET內(nèi)轉(zhuǎn)發(fā)時(shí),會(huì)將數(shù)據(jù)轉(zhuǎn)發(fā)給其他SET的broker;而當(dāng)收到跨SET轉(zhuǎn)發(fā)時(shí),會(huì)將數(shù)據(jù)轉(zhuǎn)發(fā)給SET內(nèi)的其他機(jī)器。這種方案的缺點(diǎn)是broker會(huì)成為瓶頸,當(dāng)broker宕機(jī)時(shí),嚴(yán)重的情況是造成其他SET無(wú)法提供服務(wù)。容災(zāi)策略一種是減少broker到組服務(wù)器的心跳間隔,使組服務(wù)器可以迅速發(fā)現(xiàn)異常并重新挑選broker;另一種方法是采用雙broker,不過(guò)會(huì)增加數(shù)據(jù)去重的復(fù)雜度。第二種是在系統(tǒng)之外增加一個(gè)轉(zhuǎn)發(fā)服務(wù)器,專門負(fù)責(zé)跨SET轉(zhuǎn)發(fā),當(dāng)然它本身?yè)碛腥忠曇啊_@種方案其實(shí)是把上面說(shuō)的組服務(wù)和雙broker結(jié)合在一起,把轉(zhuǎn)發(fā)功能外化。對(duì)于跨SET房間,主播所在的語(yǔ)音服務(wù)器做SET內(nèi)轉(zhuǎn)發(fā)的同時(shí)將數(shù)據(jù)發(fā)給轉(zhuǎn)發(fā)服務(wù)器,轉(zhuǎn)發(fā)服務(wù)器根據(jù)房間信息將數(shù)據(jù)轉(zhuǎn)發(fā)給其他SET的任意1臺(tái)機(jī)器。這樣優(yōu)點(diǎn)非常明顯。在上傳數(shù)據(jù)之前,系統(tǒng)會(huì)要求你為數(shù)據(jù)集選擇語(yǔ)音服務(wù)數(shù)據(jù)類型。福建數(shù)字語(yǔ)音服務(wù)有什么
如果語(yǔ)音服務(wù)訂閱所在區(qū)域沒(méi)有于訓(xùn)練的硬件,我們強(qiáng)烈建議你完全刪除音頻并留下文本。云南無(wú)限語(yǔ)音服務(wù)
確定針對(duì)設(shè)備用戶信息的設(shè)備列表。示例性地,可以得到針對(duì)酒店a的設(shè)備列表。由此,該設(shè)備列表能夠被用來(lái)對(duì)特定用戶所對(duì)應(yīng)的某個(gè)特定區(qū)域內(nèi)的物聯(lián)網(wǎng)受控設(shè)備進(jìn)行語(yǔ)音控制。在本實(shí)施例的一個(gè)示例中,物聯(lián)網(wǎng)主控設(shè)備可以將設(shè)備用戶信息、設(shè)備區(qū)域配置信息和相應(yīng)的各個(gè)物聯(lián)網(wǎng)受控設(shè)備信息發(fā)送至語(yǔ)音服務(wù)端,以在語(yǔ)音服務(wù)端構(gòu)建至少一個(gè)設(shè)備列表。在本實(shí)施例的另一示例中,物聯(lián)網(wǎng)主控設(shè)備可以將設(shè)備用戶信息、設(shè)備區(qū)域配置信息和相應(yīng)的各個(gè)物聯(lián)網(wǎng)受控設(shè)備信息發(fā)送至物聯(lián)網(wǎng)運(yùn)營(yíng)端,以在物聯(lián)網(wǎng)運(yùn)營(yíng)端構(gòu)建至少一個(gè)設(shè)備列表。根據(jù)本發(fā)明實(shí)施例的物聯(lián)網(wǎng)設(shè)備語(yǔ)音控制方法的一示例的流程。在步驟510中,用戶配置受控區(qū)域。示例性地,用戶可以在帶屏音箱或app上配置受控的區(qū)域信息,如:“客廳”、“臥室”等。在步驟520中,說(shuō)話人可以向音箱發(fā)出語(yǔ)音指令。在步驟530中,音箱可以向智能語(yǔ)音平臺(tái)上傳用戶音頻,同時(shí)附帶上用戶之前設(shè)置好的區(qū)域信息。在步驟540中,智能語(yǔ)音平臺(tái)音頻請(qǐng)求后,向iot智能設(shè)備平臺(tái)發(fā)送獲取特定用戶的所有可控設(shè)備列表的請(qǐng)求,并附帶用戶信息(token)。在步驟550中,智能語(yǔ)音平臺(tái)根據(jù)之前語(yǔ)音指令對(duì)應(yīng)的區(qū)域信息,對(duì)獲取的設(shè)備列表進(jìn)行過(guò)濾。云南無(wú)限語(yǔ)音服務(wù)