日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

智能數(shù)字人的控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39711138發(fā)布日期:2024-10-22 12:56閱讀:1來(lái)源:國(guó)知局
智能數(shù)字人的控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及智能數(shù)字人,特別是涉及一種智能數(shù)字人的控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著人工智能技術(shù)的發(fā)展,智能數(shù)字人相關(guān)領(lǐng)域的應(yīng)用場(chǎng)景也在不斷拓寬。當(dāng)前ai(artificial?intelligence,人工智能)能力已經(jīng)延伸到各個(gè)行業(yè),并為用戶(hù)提供提高效率、降低成本、增強(qiáng)體驗(yàn)的嶄新服務(wù)。

2、目前,在智能數(shù)字人領(lǐng)域的場(chǎng)景中,隨著大模型和生成式人工智能的技術(shù)突破,該領(lǐng)域的需求和應(yīng)用也呈現(xiàn)出明顯的增長(zhǎng)趨勢(shì),但現(xiàn)有技術(shù)方案在應(yīng)用落地方面存在較大的局限性,賦能手段比較單一,導(dǎo)致智能數(shù)字人無(wú)法在復(fù)雜場(chǎng)景中完成各種復(fù)雜的操作任務(wù),工作效率低下。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例所要解決的技術(shù)問(wèn)題是提供一種智能數(shù)字人的控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以有效的控制智能數(shù)字人能夠在復(fù)雜場(chǎng)景中完成各種復(fù)雜的操作任務(wù),大大節(jié)省用戶(hù)的時(shí)間和精力,為用戶(hù)提供更加智能、便捷的服務(wù),大大提高工作效率,降低企業(yè)運(yùn)營(yíng)成本。

2、第一方面,本技術(shù)實(shí)施例提供了一種智能數(shù)字人的控制方法,應(yīng)用于服務(wù)器,包括:

3、獲取終端發(fā)送的音視頻數(shù)據(jù)和所述終端的終端標(biāo)識(shí);

4、在所述終端標(biāo)識(shí)為指定終端標(biāo)識(shí)的情況下,基于所述音視頻數(shù)據(jù)中的視頻數(shù)據(jù),確定輸入音頻的用戶(hù)是否處于預(yù)先設(shè)定的所述終端的感知區(qū)域;

5、在確定所述用戶(hù)處于所述終端的感知區(qū)域內(nèi)的情況下,解析所述音視頻數(shù)據(jù)中的音頻數(shù)據(jù),得到所述用戶(hù)輸入的問(wèn)題文本;

6、調(diào)用所述服務(wù)器內(nèi)的向量知識(shí)服務(wù)識(shí)別所述問(wèn)題文本對(duì)應(yīng)的標(biāo)準(zhǔn)話(huà)術(shù)文本;

7、調(diào)用所述服務(wù)器內(nèi)的數(shù)字人渲染引擎根據(jù)預(yù)置的智能數(shù)字人的數(shù)字人模型和所述標(biāo)準(zhǔn)話(huà)術(shù)文本,生成所述智能數(shù)字人的數(shù)字人音視頻數(shù)據(jù);

8、將數(shù)字人音視頻數(shù)據(jù)發(fā)送至所述終端,以使所述終端調(diào)用軟件機(jī)器人實(shí)例以智能數(shù)字人形式模擬輸出所述數(shù)字人音視頻數(shù)據(jù)。

9、可選地,所述解析所述音視頻數(shù)據(jù)中的音頻數(shù)據(jù),得到所述用戶(hù)輸入的問(wèn)題文本,包括:

10、調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)將獲取的所述音視頻數(shù)據(jù)發(fā)送至所述服務(wù)器內(nèi)的智能分析服務(wù);

11、調(diào)用所述智能分析服務(wù)對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,得到所述問(wèn)題文本,并將所述問(wèn)題文本返回給所述總控服務(wù)。

12、可選地,所述調(diào)用所述服務(wù)器內(nèi)的向量知識(shí)服務(wù)識(shí)別所述問(wèn)題文本對(duì)應(yīng)的標(biāo)準(zhǔn)話(huà)術(shù)文本,包括:

13、調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)將所述問(wèn)題文本發(fā)送至所述向量知識(shí)服務(wù);

14、調(diào)用所述向量知識(shí)服務(wù)對(duì)所述問(wèn)題文本進(jìn)行處理,得到所述問(wèn)題文本的標(biāo)準(zhǔn)話(huà)術(shù)文本,并將所述標(biāo)準(zhǔn)話(huà)術(shù)文本返回至所述總控服務(wù)。

15、可選地,所述調(diào)用所述向量知識(shí)服務(wù)對(duì)所述問(wèn)題文本進(jìn)行處理,得到所述問(wèn)題文本的標(biāo)準(zhǔn)話(huà)術(shù)文本,包括:

16、調(diào)用所述向量知識(shí)服務(wù)對(duì)所述問(wèn)題文本進(jìn)行向量轉(zhuǎn)化處理,得到所述問(wèn)題文本對(duì)應(yīng)的數(shù)值向量;

17、計(jì)算得到數(shù)據(jù)存儲(chǔ)單元內(nèi)的候選數(shù)值向量與所述數(shù)值向量之間的相似度;

18、從所述候選數(shù)值向量中篩選出與所述數(shù)值向量的相似度最高的目標(biāo)數(shù)值向量;

19、將所述目標(biāo)數(shù)值向量對(duì)應(yīng)的話(huà)術(shù)文本作為所述標(biāo)準(zhǔn)話(huà)術(shù)文本。

20、可選地,所述調(diào)用所述服務(wù)器內(nèi)的數(shù)字人渲染引擎根據(jù)預(yù)置的智能數(shù)字人的數(shù)字人模型和所述標(biāo)準(zhǔn)話(huà)術(shù)文本,生成所述智能數(shù)字人的數(shù)字人音視頻數(shù)據(jù),包括:

21、調(diào)用所述數(shù)字人渲染引擎對(duì)所述標(biāo)準(zhǔn)話(huà)術(shù)文本進(jìn)行轉(zhuǎn)化處理,得到所述標(biāo)準(zhǔn)話(huà)術(shù)文本對(duì)應(yīng)的語(yǔ)音信息,并獲取所述標(biāo)準(zhǔn)話(huà)術(shù)文本對(duì)應(yīng)的音頻參數(shù)信息;

22、基于所述語(yǔ)音信息生成數(shù)字人動(dòng)作參數(shù);

23、將所述數(shù)字人動(dòng)作參數(shù)按序列發(fā)送給所述數(shù)字人模型,得到數(shù)字人動(dòng)畫(huà)參數(shù)信息;

24、基于所述音頻參數(shù)信息和所述數(shù)字人動(dòng)畫(huà)參數(shù)信息,生成所述數(shù)字人音視頻數(shù)據(jù),并將所述數(shù)字人音視頻參數(shù)發(fā)送至所述服務(wù)器內(nèi)的總控服務(wù)。

25、可選地,所述方法還包括:

26、獲取多個(gè)智能輔助終端的終端標(biāo)識(shí),及每個(gè)所述智能輔助終端的數(shù)字人模擬任務(wù);

27、調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)對(duì)所述數(shù)字人模擬任務(wù)進(jìn)行編排,得到所述數(shù)字人模擬任務(wù)的任務(wù)流程順序標(biāo)識(shí),并將所述任務(wù)流程順序標(biāo)識(shí)和所述終端標(biāo)識(shí)發(fā)送至所述服務(wù)器內(nèi)的軟件機(jī)器人控制服務(wù);

28、調(diào)用所述軟件機(jī)器人控制服務(wù)根據(jù)所述終端標(biāo)識(shí)將所述任務(wù)流程順序標(biāo)識(shí)發(fā)送至對(duì)應(yīng)的所述智能輔助終端,以由所述智能輔助終端根據(jù)所述任務(wù)流程順序標(biāo)識(shí)查詢(xún)對(duì)應(yīng)的預(yù)置流程文件,并調(diào)用軟件機(jī)器人實(shí)例根據(jù)所述預(yù)置流程文件執(zhí)行所述數(shù)字人模擬任務(wù)。

29、可選地,在所述基于所述音視頻數(shù)據(jù)中的視頻數(shù)據(jù),確定輸入音頻的用戶(hù)是否處于預(yù)先設(shè)定的所述終端的感知區(qū)域之后,還包括:

30、在調(diào)用所述服務(wù)器內(nèi)的智能分析服務(wù)確定所述用戶(hù)處于所述感知區(qū)域內(nèi)之后,調(diào)用所述智能分析服務(wù)獲取預(yù)先為所述終端配置的固定文本信息,并將所述固定文本信息發(fā)送至所述服務(wù)器內(nèi)的總控服務(wù);

31、調(diào)用所述總控服務(wù)將所述固定文本信息發(fā)送至所述數(shù)字人渲染引擎;

32、調(diào)用所述數(shù)字人渲染引擎根據(jù)所述數(shù)字人模型和所述固定文本信息,生成所述智能數(shù)字人的模擬音視頻數(shù)據(jù),并將所述模擬音視頻數(shù)據(jù)發(fā)送至所述總控服務(wù);

33、調(diào)用所述總控服務(wù)將所述模擬音視頻數(shù)據(jù)發(fā)送至所述終端,以使所述終端調(diào)用軟件機(jī)器人實(shí)例以智能數(shù)字人形式模擬輸出所述模擬音視頻數(shù)據(jù)。

34、第二方面,本技術(shù)實(shí)施例提供了一種智能數(shù)字人的控制裝置,應(yīng)用于服務(wù)器,包括:

35、音視頻數(shù)據(jù)獲取模塊,用于獲取終端發(fā)送的音視頻數(shù)據(jù)和所述終端的終端標(biāo)識(shí);

36、感知區(qū)域確定模塊,用于在所述終端標(biāo)識(shí)為指定終端標(biāo)識(shí)的情況下,基于所述音視頻數(shù)據(jù)中的視頻數(shù)據(jù),確定輸入音頻的用戶(hù)是否處于預(yù)先設(shè)定的所述終端的感知區(qū)域;

37、問(wèn)題文本獲取模塊,用于在確定所述用戶(hù)處于所述終端的感知區(qū)域內(nèi)的情況下,解析所述音視頻數(shù)據(jù)中的音頻數(shù)據(jù),得到所述用戶(hù)輸入的問(wèn)題文本;

38、標(biāo)準(zhǔn)文本識(shí)別模塊,用于調(diào)用所述服務(wù)器內(nèi)的向量知識(shí)服務(wù)識(shí)別所述問(wèn)題文本對(duì)應(yīng)的標(biāo)準(zhǔn)話(huà)術(shù)文本;

39、數(shù)字人數(shù)據(jù)生成模塊,用于調(diào)用所述服務(wù)器內(nèi)的數(shù)字人渲染引擎根據(jù)預(yù)置的智能數(shù)字人的數(shù)字人模型和所述標(biāo)準(zhǔn)話(huà)術(shù)文本,生成所述智能數(shù)字人的數(shù)字人音視頻數(shù)據(jù);

40、數(shù)字人數(shù)據(jù)發(fā)送模塊,用于將數(shù)字人音視頻數(shù)據(jù)發(fā)送至所述終端,以使所述終端調(diào)用軟件機(jī)器人實(shí)例以智能數(shù)字人形式模擬輸出所述數(shù)字人音視頻數(shù)據(jù)。

41、可選地,所述問(wèn)題文本獲取模塊包括:

42、音視頻數(shù)據(jù)發(fā)送單元,用于調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)將獲取的所述音視頻數(shù)據(jù)發(fā)送至所述服務(wù)器內(nèi)的智能分析服務(wù);

43、問(wèn)題文本獲取單元,用于調(diào)用所述智能分析服務(wù)對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,得到所述問(wèn)題文本,并將所述問(wèn)題文本返回給所述總控服務(wù)。

44、可選地,所述標(biāo)準(zhǔn)文本識(shí)別模塊包括:

45、問(wèn)題文本發(fā)送單元,用于調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)將所述問(wèn)題文本發(fā)送至所述向量知識(shí)服務(wù);

46、標(biāo)準(zhǔn)文本獲取單元,用于調(diào)用所述向量知識(shí)服務(wù)對(duì)所述問(wèn)題文本進(jìn)行處理,得到所述問(wèn)題文本的標(biāo)準(zhǔn)話(huà)術(shù)文本,并將所述標(biāo)準(zhǔn)話(huà)術(shù)文本返回至所述總控服務(wù)。

47、可選地,所述標(biāo)準(zhǔn)文本獲取單元包括:

48、數(shù)值向量獲取子單元,用于調(diào)用所述向量知識(shí)服務(wù)對(duì)所述問(wèn)題文本進(jìn)行向量轉(zhuǎn)化處理,得到所述問(wèn)題文本對(duì)應(yīng)的數(shù)值向量;

49、相似度計(jì)算子單元,用于計(jì)算得到數(shù)據(jù)存儲(chǔ)單元內(nèi)的候選數(shù)值向量與所述數(shù)值向量之間的相似度;

50、目標(biāo)數(shù)值向量篩選子單元,用于從所述候選數(shù)值向量中篩選出與所述數(shù)值向量的相似度最高的目標(biāo)數(shù)值向量;

51、標(biāo)準(zhǔn)話(huà)術(shù)文本獲取子單元,用于將所述目標(biāo)數(shù)值向量對(duì)應(yīng)的話(huà)術(shù)文本作為所述標(biāo)準(zhǔn)話(huà)術(shù)文本。

52、可選地,所述數(shù)字人數(shù)據(jù)生成模塊包括:

53、音頻參數(shù)獲取單元,用于調(diào)用所述數(shù)字人渲染引擎對(duì)所述標(biāo)準(zhǔn)話(huà)術(shù)文本進(jìn)行轉(zhuǎn)化處理,得到所述標(biāo)準(zhǔn)話(huà)術(shù)文本對(duì)應(yīng)的語(yǔ)音信息,并獲取所述標(biāo)準(zhǔn)話(huà)術(shù)文本對(duì)應(yīng)的音頻參數(shù)信息;

54、動(dòng)作參數(shù)生成單元,用于基于所述語(yǔ)音信息生成數(shù)字人動(dòng)作參數(shù);

55、動(dòng)畫(huà)參數(shù)獲取單元,用于將所述數(shù)字人動(dòng)作參數(shù)按序列發(fā)送給所述數(shù)字人模型,得到數(shù)字人動(dòng)畫(huà)參數(shù)信息;

56、數(shù)字人數(shù)據(jù)生成單元,用于基于所述音頻參數(shù)信息和所述數(shù)字人動(dòng)畫(huà)參數(shù)信息,生成所述數(shù)字人音視頻數(shù)據(jù),并將所述數(shù)字人音視頻參數(shù)發(fā)送至所述服務(wù)器內(nèi)的總控服務(wù)。

57、可選地,所述裝置還包括:

58、模擬任務(wù)獲取模塊,用于獲取多個(gè)智能輔助終端的終端標(biāo)識(shí),及每個(gè)所述智能輔助終端的數(shù)字人模擬任務(wù);

59、順序標(biāo)識(shí)獲取模塊,用于調(diào)用所述服務(wù)器內(nèi)的總控服務(wù)對(duì)所述數(shù)字人模擬任務(wù)進(jìn)行編排,得到所述數(shù)字人模擬任務(wù)的任務(wù)流程順序標(biāo)識(shí),并將所述任務(wù)流程順序標(biāo)識(shí)和所述終端標(biāo)識(shí)發(fā)送至所述服務(wù)器內(nèi)的軟件機(jī)器人控制服務(wù);

60、順序標(biāo)識(shí)發(fā)送模塊,用于調(diào)用所述軟件機(jī)器人控制服務(wù)根據(jù)所述終端標(biāo)識(shí)將所述任務(wù)流程順序標(biāo)識(shí)發(fā)送至對(duì)應(yīng)的所述智能輔助終端,以由所述智能輔助終端根據(jù)所述任務(wù)流程順序標(biāo)識(shí)查詢(xún)對(duì)應(yīng)的預(yù)置流程文件,并調(diào)用軟件機(jī)器人實(shí)例根據(jù)所述預(yù)置流程文件執(zhí)行所述數(shù)字人模擬任務(wù)。

61、可選地,所述裝置還包括:

62、固定文本獲取模塊,用于在調(diào)用所述服務(wù)器內(nèi)的智能分析服務(wù)確定所述用戶(hù)處于所述感知區(qū)域內(nèi)之后,調(diào)用所述智能分析服務(wù)獲取預(yù)先為所述終端配置的固定文本信息,并將所述固定文本信息發(fā)送至所述服務(wù)器內(nèi)的總控服務(wù);

63、固定文本發(fā)送模塊,用于調(diào)用所述總控服務(wù)將所述固定文本信息發(fā)送至所述數(shù)字人渲染引擎;

64、模擬數(shù)據(jù)生成模塊,用于調(diào)用所述數(shù)字人渲染引擎根據(jù)所述數(shù)字人模型和所述固定文本信息,生成所述智能數(shù)字人的模擬音視頻數(shù)據(jù),并將所述模擬音視頻數(shù)據(jù)發(fā)送至所述總控服務(wù);

65、模擬數(shù)據(jù)發(fā)送模塊,用于調(diào)用所述總控服務(wù)將所述模擬音視頻數(shù)據(jù)發(fā)送至所述終端,以使所述終端調(diào)用軟件機(jī)器人實(shí)例以智能數(shù)字人形式模擬輸出所述模擬音視頻數(shù)據(jù)。

66、第三方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括:

67、處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的智能數(shù)字人的控制方法。

68、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行上述任一項(xiàng)所述的智能數(shù)字人的控制方法。

69、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例包括以下優(yōu)點(diǎn):

70、本技術(shù)實(shí)施例中,通過(guò)獲取終端發(fā)送的音視頻數(shù)據(jù)和終端的終端標(biāo)識(shí)。在終端標(biāo)識(shí)為指定終端標(biāo)識(shí)的情況下,基于音視頻數(shù)據(jù)中的視頻數(shù)據(jù),確定輸入音頻的用戶(hù)是否處于預(yù)先設(shè)定的終端的感知區(qū)域。在確定用戶(hù)處于終端的感知區(qū)域內(nèi)的情況下,解析音視頻數(shù)據(jù)中的音頻數(shù)據(jù),得到用戶(hù)輸入的問(wèn)題文本。調(diào)用服務(wù)器內(nèi)的向量知識(shí)服務(wù)識(shí)別問(wèn)題文本對(duì)應(yīng)的標(biāo)準(zhǔn)話(huà)術(shù)文本。調(diào)用服務(wù)器內(nèi)的數(shù)字人渲染引擎根據(jù)預(yù)置的智能數(shù)字人的數(shù)字人模型和標(biāo)準(zhǔn)話(huà)術(shù)文本,生成智能數(shù)字人的數(shù)字人音視頻數(shù)據(jù)。將數(shù)字人音視頻數(shù)據(jù)發(fā)送至終端,以使終端調(diào)用軟件機(jī)器人實(shí)例以智能數(shù)字人形式模擬輸出數(shù)字人音視頻數(shù)據(jù)。本技術(shù)實(shí)施例通過(guò)服務(wù)器實(shí)現(xiàn)用戶(hù)輸入的問(wèn)題文本的轉(zhuǎn)換、智能數(shù)字人的數(shù)字人音視頻數(shù)據(jù)的生成,而無(wú)需在終端上執(zhí)行這些操作,從而可以使智能數(shù)字人在復(fù)雜場(chǎng)景中完成各種復(fù)雜的操作任務(wù),可以有效替代人類(lèi)的工作,節(jié)省人力成本,為企業(yè)帶來(lái)顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)和經(jīng)濟(jì)回報(bào)。

71、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1