日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于人工智能的語音識別方法、裝置和系統(tǒng)與流程

文檔序號:11232704閱讀:812來源:國知局
基于人工智能的語音識別方法、裝置和系統(tǒng)與流程

本發(fā)明涉及語音識別技術領域,尤其涉及一種基于人工智能的語音識別方法、裝置和系統(tǒng)。



背景技術:

人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語音識別技術。

目前語音識別主要是通過多個http連接發(fā)送語音數(shù)據(jù)到語音服務端,語音服務端將語音數(shù)據(jù)重新整合后進行識別。

但是,在實現(xiàn)本發(fā)明的過程中發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下問題:通過多個http連接進行語音識別的過程中,語音服務端需要對語音數(shù)據(jù)重新排序整合,無法實現(xiàn)數(shù)據(jù)的實時上傳和下發(fā),并且每個連接都會額外消耗http頭等結構,消耗流量大。



技術實現(xiàn)要素:

本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。

為此,本發(fā)明的第一個目的在于提出一種基于人工智能的語音識別方法,以實現(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā)。

本發(fā)明的第二個目的在于提出一種基于人工智能的語音識別方法。

本發(fā)明的第三個目的在于提出一種人工智能的語音識別裝置。

本發(fā)明的第四個目的在于提出一種人工智能的語音識別裝置。

本發(fā)明的第五個目的在于提出一種客戶端。

本發(fā)明的第六個目的在于提出一種服務端。

本發(fā)明的第七個目的在于提出一種基于人工智能的語音識別系統(tǒng)。

本發(fā)明的第八個目的在于提出一種非臨時性計算機可讀存儲介質。

本發(fā)明的第九個目的在于提出一種非臨時性計算機可讀存儲介質。

本發(fā)明的第十個目的在于提出一種計算機程序產品。

本發(fā)明的第十一個目的在于提出一種計算機程序產品。

為達上述目的,本發(fā)明第一方面實施例提出了一種基于人工智能的語音識別方法,包括:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與服務端的上行連接向服務端發(fā)送包含待識別的語音數(shù)據(jù)的上行數(shù)據(jù)流,并行通過與服務端的下行連接接收包含語音識別的結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為達上述目的,本發(fā)明第二方面實施例提出了一種基于人工智能的語音識別方法,包括:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與客戶端的上行連接接收包含待識別語音數(shù)據(jù)的上行數(shù)據(jù)流,對待語音數(shù)據(jù)進行語音識別,并行通過與客戶端的下行連接向客戶端發(fā)送包含語音識別結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為達上述目的,本發(fā)明第三方面實施例提出了一種基于人工智能的語音識別裝置,包括:采集模塊,用于在語音識別過程中,采集待識別的語音數(shù)據(jù);發(fā)送模塊,用于通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);接收模塊,用于在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與服務端的上行連接向服務端發(fā)送包含待識別的語音數(shù)據(jù)的上行數(shù)據(jù)流,并行通過與服務端的下行連接接收包含語音識別的結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為達上述目的,本發(fā)明第四方面實施例提出了一種基于人工智能的語音識別裝置,包括:接收模塊,用于通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;處理模塊,用于對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);發(fā)送模塊,用于在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與客戶端的上行連接接收客戶端發(fā)送的包含待識別語音數(shù)據(jù)的上行數(shù)據(jù)流,對待語音數(shù)據(jù)進行語音識別,并行通過與客戶端的下行連接向客戶端發(fā)送包含語音識別結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為達上述目的,本發(fā)明第五方面實施例提出了一種客戶端,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,處理器被配置為:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括所述語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是所述服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為達上述目的,本發(fā)明第六方面實施例提出了一種服務端,處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,處理器被配置為:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

為達上述目的,本發(fā)明第七方面實施例提出了一種基于人工智能的語音識別系統(tǒng),包括第五方面實施例的客戶端,以及第六方面實施例的服務端;客戶端和服務端之間通過上行連接和下行連接進行通信。

為了實現(xiàn)上述目的,本發(fā)明第八方面實施例提出了一種非臨時性計算機可讀存儲介質,當存儲介質中的指令由客戶端處理器被執(zhí)行時,使得客戶端能夠執(zhí)行一種基于人工智能的語音識別方法,方法包括:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為了實現(xiàn)上述目的,本發(fā)明第九方面實施例提出了一種非臨時性計算機可讀存儲介質,當存儲介質中的指令由服務端處理器被執(zhí)行時,使得服務端能夠執(zhí)行一種基于人工智能的語音識別方法,方法包括:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

為了實現(xiàn)上述目的,本發(fā)明第十方面實施例提出了一種計算機程序產品,當計算機程序產品中的指令處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音識別方法,包括:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為了實現(xiàn)上述目的,本發(fā)明第十一方面實施例提出了一種計算機程序產品,當計算機程序產品中的指令處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音識別方法,包括:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

附圖說明

本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:

圖1為本發(fā)明實施例所提供的一種基于人工智能的語音識別方法的流程示意圖;

圖2為本發(fā)明實施例所提供的在一次語音識別過程中,移動終端與服務端之間建立的兩條http連接的效果示意圖;

圖3為本發(fā)明實施例所提供的一種數(shù)據(jù)內容的結構的示意圖;

圖4為本發(fā)明實施例所提供的另一種基于人工智能的語音識別方法的流程示意圖;

圖5為本發(fā)明實施例所提供的一種基于人工智能的語音識別裝置的結構示意圖;

圖6為本發(fā)明實施例所提供的另一種基于人工智能的語音識別裝置的結構示意圖;

圖7為本發(fā)明實施例所提供的又一種基于人工智能的語音識別裝置的結構示意圖;

圖8為本發(fā)明實施例所提供的再一種基于人工智能的語音識別裝置的結構示意圖;

圖9為本發(fā)明實施例所提供的一種服務端的結構示意圖。

具體實施方式

下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

下面參考附圖描述本發(fā)明實施例的基于人工智能的語音識別方法、裝置和系統(tǒng)。

圖1為本發(fā)明實施例所提供的一種基于人工智能的語音識別方法的流程示意圖。

隨著語音識別技術的成熟與發(fā)展,人們對語音識別的要求也越來越高。比如,需要一種語音識別方法能夠支持用戶在說話的同時,服務端能夠實時接收用戶的語音數(shù)據(jù),并且實時下發(fā)識別結果。

目前語音識別主要是通過多個http連接發(fā)送語音數(shù)據(jù)到語音服務端,語音服務端將語音數(shù)據(jù)重新整合后進行識別。但是,現(xiàn)有的語音識別方法中,服務端需要將語音數(shù)據(jù)重新整合后識別,無法實現(xiàn)語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā)。

針對這一問題,本發(fā)明實施例提供了一種基于人工智能的語音識別方法,以實現(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā)。如圖1所示,該基于人工智能的語音識別方法,包括以下步驟:

s101,在語音識別過程中,采集待識別的語音數(shù)據(jù)。

在本發(fā)明的一個實施例中,在語音識別的過程中,可用具有語音識別功能的移動終端例如手機、平板電腦等,采集待識別的語音數(shù)據(jù)。例如,某用戶想通過手機上的瀏覽器搜索2017年有哪些熱門電影,這時用戶可打開手機上的百度瀏覽器,按住語音按鈕語音輸入“2017熱門電影”,以使手機采集待識別的語音數(shù)據(jù)。

s102,通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流。

其中,上行數(shù)據(jù)流包括語音數(shù)據(jù)。

在本發(fā)明的一個實施例中,移動終端采集到待識別的語音數(shù)據(jù)后,可向服務端同時發(fā)送兩條http連接請求,以使移動終端與服務端之間建立兩條連接,分別為上行連接和下行連接,以通過上行連接向服務端發(fā)送上行數(shù)據(jù)流,通過下行連接接收服務端發(fā)送的下行數(shù)據(jù)流。

為了區(qū)分同一個語音識別過程中的兩條連接,可通過連接的統(tǒng)一資源定位符(uniformresourcelocator,簡稱url)中的up和down來進行區(qū)分,連接的url中包含up的是上行連接,包含down的為下行連接。

為了保證兩條http連接請求是一次語音識別過程,可使上行連接的url與下行連接的url包含語音識別過程的會話標識,且會話標識相同,使會話標識與語音識別過程一一對應,以使服務端根據(jù)會話標識,確定上行連接與下行連接之間的對應關系。

如圖3所示,在一次語音識別過程中,移動終端與服務端建立了兩條http連接,兩條連接的url中會話標識sn相同,值均為123。通過比較兩條連接的url可知,http://speech.baidu.com/up?sn=123中包含up,可知該url為上行連接的url,http://speech.baidu.com/down?sn=123中包含down,該url為下行連接的url。

在本發(fā)明的一個實施例中,上行連接與下行連接是基于http協(xié)議的,可以利用httpchunked協(xié)議實現(xiàn)數(shù)據(jù)的流式上傳,以及識別結果的流式下發(fā),從而實現(xiàn)移動終端與服務端之間全雙工通信。

并且,該協(xié)議指示了上行數(shù)據(jù)流和下行數(shù)據(jù)流中數(shù)據(jù)內容的結構,其中,數(shù)據(jù)內容的結構包括:數(shù)據(jù)類型、數(shù)據(jù)長度和取值。數(shù)據(jù)結構如圖3所示,tpye表示數(shù)據(jù)類型、length表示當前數(shù)據(jù)長度、value為數(shù)據(jù)內容。其中,數(shù)據(jù)類型,用于指示數(shù)據(jù)內容的數(shù)據(jù)處理方式。

本發(fā)明實施例中,由于數(shù)據(jù)類型可以是多種不同的類型,因此http協(xié)議指定的數(shù)據(jù)內容的結構,可以方便的進行數(shù)據(jù)擴展。并且,通過該數(shù)據(jù)內容的結構和兩條http連接傳輸數(shù)據(jù)的方案,與現(xiàn)有的通過多個http連接傳輸數(shù)據(jù)的方案相比,精簡了用戶流量,節(jié)省了語音識別過程中的網(wǎng)絡消耗。

移動終端與服務端建立http連接后,可將語音數(shù)據(jù)按照上述數(shù)據(jù)內容結構進行封裝后,通過與服務端的上行連接將包含語音數(shù)據(jù)的上行數(shù)據(jù)流發(fā)送至服務端。

需要說明的是,在語音識別過程中,移動終端發(fā)送到服務端的數(shù)據(jù)除了語音數(shù)據(jù)外,也可能包含參數(shù)數(shù)據(jù)如移動終端的標識、型號等,以及應用數(shù)據(jù)如第三方應用數(shù)據(jù)等。因此,在向服務端發(fā)送上行數(shù)據(jù)流之前,可根據(jù)語音數(shù)據(jù)、參數(shù)數(shù)據(jù)和應用數(shù)據(jù)對應的數(shù)據(jù)類型,進行封裝,得到符合http協(xié)議的第一數(shù)據(jù)內容,將第一數(shù)據(jù)內容添加到上行數(shù)據(jù)流中,發(fā)送到服務端。

s103,在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流。

其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

在本發(fā)明的一個實施例中,移動終端在向服務端發(fā)送包括語音數(shù)據(jù)的上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的包含語音識別結果的下行數(shù)據(jù)流。

移動終端接收到下行數(shù)據(jù)流中的第二數(shù)據(jù)內容后,查詢數(shù)據(jù)類型,根據(jù)數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式,對第二數(shù)據(jù)內容進行處理。例如,如果查詢到某數(shù)據(jù)內容的數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式是語音識別結果數(shù)據(jù),可以將數(shù)據(jù)結果展示給用戶。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與服務端的上行連接向服務端發(fā)送包含待識別的語音數(shù)據(jù)的上行數(shù)據(jù)流,并行通過與服務端的下行連接接收包含語音識別的結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

上述實施例是從客戶端側描述的基于人工智能的語音識別方法,為了清楚說明上一實施例,下面結合圖4從服務端側描述本發(fā)明實施例提出的基于人工智能的語音識別方法。

如圖4所示,該基于人工智能的語音識別方法,包括以下步驟:

s401,通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流。

在本發(fā)明的一個實施例中,當用戶使用客戶端提供的語音識別功能時,服務端根據(jù)接收到的客戶端發(fā)送的建立兩條http連接的請求,與客戶端之間建立兩條連接,分別為上行連接和下行連接,關于上行連接和下行連接的解釋說明參見上述實施例,在此不再贅述。

在語音識別過程中,服務端可通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流中的第一內容包括待識別的語音數(shù)據(jù),除了語音數(shù)據(jù)外還可包含參數(shù)數(shù)據(jù)、應用數(shù)據(jù)等。

s402,對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù)。

在本發(fā)明的一個實施例中,服務端接收到客戶端發(fā)送的第一數(shù)據(jù)內容后,對第一數(shù)據(jù)內容查詢數(shù)據(jù)內容的結構中的數(shù)據(jù)類型。對于查詢出的數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式為語音識別的數(shù)據(jù),進行語音識別,得到語音識別的結果數(shù)據(jù)。

在本發(fā)明的一個實施例中,如果查詢出數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式不為語音識別,例如參數(shù)數(shù)據(jù)、或者第三方應用數(shù)據(jù)等等,對第一數(shù)據(jù)內容進行相應的數(shù)據(jù)處理。例如,對于第一數(shù)據(jù)內容中包含客戶端標識的參數(shù)數(shù)據(jù),服務端根據(jù)參數(shù)數(shù)據(jù)可以確定發(fā)送待識別語音數(shù)據(jù)的客戶端的標識;如果是第三方應用數(shù)據(jù),服務端可以根據(jù)語音識別結果和第三方應用數(shù)據(jù)去第三方獲取相關的資源數(shù)據(jù)。舉例來說,用戶在客戶端語音輸入“今天的天氣如何”,服務端根據(jù)語音數(shù)據(jù)識別出用戶想查詢今天的天氣情況,這時服務端可根據(jù)語音識別結果和第一數(shù)據(jù)內容中的第三方應用數(shù)據(jù),向第三方天氣預報平臺獲取今天的天氣情況。

s403,在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流。

其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

在本發(fā)明的一個實施例中,由于會話標識與語音識別過程一一對應,因此服務端在通過上行連接接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,可根據(jù)上行連接的url中包含的會話標識,查詢url中包含相同會話標識的下行連接,并行通過查詢到的下行連接向客戶端發(fā)送下行數(shù)據(jù)流。具體而言,服務端可對第一數(shù)據(jù)內容的數(shù)據(jù)處理得到的參數(shù)數(shù)據(jù)、結果數(shù)據(jù)和應用數(shù)據(jù),查詢對應的數(shù)據(jù)類型,進行封裝,得到符合http協(xié)議的第二數(shù)據(jù)內容,并將第二數(shù)據(jù)內容添加到下行數(shù)據(jù)流中,通過下行連接發(fā)送至客戶端。

進一步而言,如果第二數(shù)據(jù)內容中含有第三方應用數(shù)據(jù),在第三方資源數(shù)據(jù)較大的情況下,客戶端可根據(jù)第三方應用數(shù)據(jù)與第三方服務進行對接,兩者采用上述流式傳輸協(xié)議。第三方服務通過上述流式傳輸協(xié)議將資源數(shù)據(jù)傳輸至客戶端,可使客戶端更快地接收資源數(shù)據(jù)。對于資源數(shù)據(jù)較大的情況,客戶端可以在接收到部分數(shù)據(jù)時即進行相關的預處理或者加載操作,從而可以減少用戶的等待時間。

可見,本發(fā)明實施例提出的流式傳輸協(xié)議,在復雜的語音識別場景中,可以更好的對接第三方資源。

本發(fā)明實施例的基于人工智能的語音識別方法,通過與客戶端的上行連接接收包含待識別語音數(shù)據(jù)的上行數(shù)據(jù)流,對待語音數(shù)據(jù)進行語音識別,并行通過與客戶端的下行連接向客戶端發(fā)送包含語音識別結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為了實現(xiàn)上述實施例,本發(fā)明還提出一種基于人工智能的語音識別裝置。

圖5為本發(fā)明實施例提供的一種基于人工智能的語音識別裝置的結構示意圖。

如圖5所示,該基于人工智能的語音識別裝置包括:采集模塊510、發(fā)送模塊520、接收模塊530。

采集模塊510用于在語音識別過程中,采集待識別的語音數(shù)據(jù)。

發(fā)送模塊520用于通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù)。

接收模塊530用于在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

基于上述實施例,本發(fā)明實施例還提供了一種基于人工智能的語音識別裝置的可能的實現(xiàn)方式。如圖6所示,該基于人工智能的語音識別裝置還可包括:封裝模塊540、處理模塊550。

封裝模塊540用于根據(jù)語音數(shù)據(jù)、參數(shù)數(shù)據(jù)和/或應用數(shù)據(jù)對應的數(shù)據(jù)類型,進行封裝,得到符合協(xié)議的第一數(shù)據(jù)內容;將第一數(shù)據(jù)內容添加到上行數(shù)據(jù)流中。

處理模塊550用于對下行數(shù)據(jù)流中的第二數(shù)據(jù)內容,查詢數(shù)據(jù)類型;采用數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式,對第二數(shù)據(jù)內容進行數(shù)據(jù)處理。

在本發(fā)明的一個實施例中,上行連接的url與下行連接的url包含語音識別過程的會話標識,以使服務端根據(jù)會話標識,確定上行連接與下行連接之間的對應關系。上行連接與下行連接基于http協(xié)議,協(xié)議指示了上行數(shù)據(jù)流和下行數(shù)據(jù)流中數(shù)據(jù)內容的結構,數(shù)據(jù)內容的結構包括:數(shù)據(jù)類型、數(shù)據(jù)長度和/或取值。其中,數(shù)據(jù)類型,用于指示數(shù)據(jù)內容的數(shù)據(jù)處理方式。

需要說明的是,前述對基于人工智能的語音識別方法實施例的解釋說明也適用于該實施例的基于人工智能的語音識別裝置,此處不再贅述。

本發(fā)明實施例的基于人工智能的語音識別裝置,通過與服務端的上行連接向服務端發(fā)送包含待識別的語音數(shù)據(jù)的上行數(shù)據(jù)流,并行通過與服務端的下行連接接收包含語音識別的結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為達上述目的,本發(fā)明還提出了另一種基于人工智能的語音識別裝置。

如圖7所示,該基于人工智能的語音識別裝置包括:接收模塊710、處理模塊720、發(fā)送模塊730。

接收模塊710用于通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流。

處理模塊720用于對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù)。

處理模塊720還用于對上行數(shù)據(jù)流中的第一數(shù)據(jù)內容,查詢數(shù)據(jù)類型;查詢出數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式為語音識別。

發(fā)送模塊730用于在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

基于上述實施例,本發(fā)明實施例還提供了一種基于人工智能的語音識別裝置的可能的實現(xiàn)方式,在上一實施例的基礎上,如圖8所示,該裝置還包括:封裝模塊740。

封裝模塊740用于若查詢出數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式不為語音識別,采用數(shù)據(jù)類型所指示的數(shù)據(jù)處理方式,對第一數(shù)據(jù)內容進行數(shù)據(jù)處理;根據(jù)數(shù)據(jù)處理得到的參數(shù)數(shù)據(jù)、語音數(shù)據(jù)和/或應用數(shù)據(jù),查詢對應的數(shù)據(jù)類型,進行封裝,得到符合所述協(xié)議的第二數(shù)據(jù)內容;將第二數(shù)據(jù)內容添加到下行數(shù)據(jù)流中。

需要說明的是,前述對基于人工智能的語音識別方法實施例的解釋說明也適用于該實施例的基于人工智能的語音識別裝置,此處不再贅述。

本發(fā)明實施例的基于人工智能的語音識別裝置,通過與客戶端的上行連接接收包含待識別語音數(shù)據(jù)的上行數(shù)據(jù)流,對待語音數(shù)據(jù)進行語音識別,并行通過與客戶端的下行連接向客戶端發(fā)送包含語音識別結果的下行數(shù)據(jù)流,通過兩條并行的數(shù)據(jù)流,以流式數(shù)據(jù)傳輸?shù)姆绞綄崿F(xiàn)待識別語音數(shù)據(jù)的實時上傳和語音識別結果的實時下發(fā),解決了現(xiàn)有技術中無法實現(xiàn)數(shù)據(jù)的實時上傳和實時下發(fā)的技術問題。

為了實現(xiàn)上述實施例,本發(fā)明還提出一種客戶端,包括:處理器,以及用于存儲處理器可執(zhí)行指令的存儲器。

其中,處理器被配置為:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是所述服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為了實現(xiàn)上述實施例,本發(fā)明還提出一種服務端,包括:處理器,以及用于存儲處理器可執(zhí)行指令的存儲器。

其中,處理器被配置為:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

為了清楚說明前述的服務端的具體結構,圖9示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性服務端12的框圖。圖9顯示的服務端12僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。

如圖9所示,服務端12以通用計算設備的形式表現(xiàn)。服務端12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。

總線18表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限于工業(yè)標準體系結構(industrystandardarchitecture,簡稱isa)總線,微通道體系結構(microchannelarchitecture,簡稱mac)總線,增強型isa總線、視頻電子標準(vedioelectronicstandardassociation,簡稱vesa)局域總線以及外圍組件互連(peripheralcomponentinterconnect,簡稱pci)總線。

服務端12典型地包括多種計算機系統(tǒng)可讀介質。這些介質可以是任何能夠被服務端12訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。

系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質,例如隨機存取存儲器(randomaccessmemory,簡稱ram)30和/或高速緩存存儲器32。服務端12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(圖9未顯示,通常稱為“硬盤驅動器”)。盡管圖9中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數(shù)據(jù)介質接口與總線18相連。存儲器28可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。

具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。

服務端12也可以與一個或多個外部設備14(例如鍵盤、指向設備、顯示器24等)通信,還可與一個或者多個使得用戶能與該服務端12交互的設備通信,和/或與使得該服務端12能與一個或多個其它計算設備進行通信的任何設備(例如網(wǎng)卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進行。并且,服務端12還可以通過網(wǎng)絡適配器20與一個或者多個網(wǎng)絡(例如局域網(wǎng),廣域網(wǎng)和/或公共網(wǎng)絡,例如因特網(wǎng))通信。如圖所示,網(wǎng)絡適配器20通過總線18與服務端12的其它模塊通信。應當明白,盡管圖中未示出,可以結合服務端12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、獨立磁盤冗余陣列(redundantarrayofindependentdisks,簡稱raid)系統(tǒng)、磁帶驅動器以及數(shù)據(jù)備份存儲系統(tǒng)等。

處理單元16通過運行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,實現(xiàn)上述基于人工智能的語音識別方法。

為達上述目的,本發(fā)明提出了一種基于人工智能的語音識別系統(tǒng),包括上述實施例的客戶端,以及服務端;客戶端和服務端之間通過上行連接和下行連接進行通信。

為了實現(xiàn)上述實施例,本發(fā)明還提出一種非臨時性計算機可讀存儲介質,當存儲介質中的指令由客戶端處理器執(zhí)行時,使得客戶端能夠執(zhí)行一種基于人工智能的語音識別方法,方法包括:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為了實現(xiàn)上述實施例,本發(fā)明還提出另一種非臨時性計算機可讀存儲介質,當存儲介質中的指令由服務端處理器執(zhí)行時,使得服務端能夠執(zhí)行一種基于人工智能的語音識別方法,方法包括:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

為了實現(xiàn)上述實施例,本發(fā)明還提出一種計算機程序產品,當計算機程序產品中的指令由處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音識別方法,方法包括:在語音識別過程中,采集待識別的語音數(shù)據(jù);通過與服務端的上行連接,向服務端發(fā)送上行數(shù)據(jù)流,其中,上行數(shù)據(jù)流包括語音數(shù)據(jù);在向服務端發(fā)送上行數(shù)據(jù)流的過程中,并行通過與服務端的下行連接,接收服務端發(fā)送的下行數(shù)據(jù)流;其中,下行數(shù)據(jù)流,包括結果數(shù)據(jù),結果數(shù)據(jù)是服務端根據(jù)語音數(shù)據(jù)進行語音識別得到的。

為了實現(xiàn)上述實施例,本發(fā)明還提出另一種計算機程序產品,當計算機程序產品中的指令由處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音識別方法,方法包括:通過與客戶端的上行連接,接收客戶端發(fā)送的上行數(shù)據(jù)流;對上行數(shù)據(jù)流中的語音數(shù)據(jù)進行語音識別,得到結果數(shù)據(jù);在接收客戶端發(fā)送的上行數(shù)據(jù)流的過程中,并行通過與客戶端的下行連接,向客戶端發(fā)送下行數(shù)據(jù)流,其中,下行數(shù)據(jù)流包括結果數(shù)據(jù)。

在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。

此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。

流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。

在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(ram),只讀存儲器(rom),可擦除可編輯只讀存儲器(eprom或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(cdrom)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。

應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。如,如果用硬件來實現(xiàn)和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。

本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。

此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。

上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1