本發(fā)明涉及大語(yǔ)言模型,特別是涉及一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法及系統(tǒng)。
背景技術(shù):
1、目前,對(duì)于系統(tǒng)在處理并生成文本、音頻的過(guò)程可能存在效率瓶頸,特別是在高負(fù)載情況下。這會(huì)造成用戶(hù)過(guò)長(zhǎng)時(shí)間的等待,導(dǎo)致交互效率低下;數(shù)字虛擬人在接收用戶(hù)傳來(lái)的問(wèn)題時(shí),在進(jìn)行自然語(yǔ)言理解時(shí)會(huì)產(chǎn)生一定的理解偏差,導(dǎo)致交互能力下降;人與數(shù)字虛擬人進(jìn)行交互時(shí),數(shù)字人的語(yǔ)音與面部無(wú)情感特征,表情呆板不生動(dòng),導(dǎo)致交互體驗(yàn)感遠(yuǎn)遠(yuǎn)不足。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提供一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法及系統(tǒng),本發(fā)明解決了現(xiàn)有技術(shù)中交互能力不足、交互效率低下和交互體驗(yàn)感不足的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法,包括:
4、獲取用戶(hù)的多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括:語(yǔ)音數(shù)據(jù)、空間數(shù)據(jù)和手勢(shì)數(shù)據(jù);
5、將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);
6、將所述文本數(shù)據(jù)轉(zhuǎn)換為文本流并利用http協(xié)議與socket協(xié)議進(jìn)行傳輸;
7、對(duì)所述文本流進(jìn)行分句流式處理得到第一回復(fù)語(yǔ)音;
8、對(duì)所述文本數(shù)據(jù)進(jìn)行情感分析,得到情感特征
9、根據(jù)所述情感特征和所述第一回復(fù)語(yǔ)音生成第二回復(fù)語(yǔ)音
10、將所述第二回復(fù)語(yǔ)音實(shí)時(shí)傳輸至用戶(hù)。
11、優(yōu)選地,還包括:
12、確定所述空間數(shù)據(jù)和所述手勢(shì)數(shù)據(jù);
13、根據(jù)所述空間數(shù)據(jù)對(duì)攝像頭的位置和角度進(jìn)行調(diào)整并根據(jù)手勢(shì)數(shù)據(jù)調(diào)整數(shù)字虛擬人的動(dòng)作。
14、一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互系統(tǒng),包括:
15、數(shù)據(jù)獲取模塊,用于獲取用戶(hù)的多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括:語(yǔ)音數(shù)據(jù)、空間數(shù)據(jù)和手勢(shì)數(shù)據(jù);
16、第一轉(zhuǎn)換模塊,用于將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);
17、第二轉(zhuǎn)換模塊,用于將所述文本數(shù)據(jù)轉(zhuǎn)換為文本流并利用http協(xié)議與socket協(xié)議進(jìn)行傳輸;
18、第一處理模塊,用于對(duì)所述文本流進(jìn)行分句流式處理得到第一回復(fù)語(yǔ)音;
19、第二處理模塊,用于對(duì)所述文本數(shù)據(jù)進(jìn)行情感分析,得到情感特征
20、第三處理模塊,根據(jù)所述情感特征和所述第一回復(fù)語(yǔ)音生成第二回復(fù)語(yǔ)音音頻輸出模塊,用于將所述第二回復(fù)語(yǔ)音實(shí)時(shí)傳輸至用戶(hù)。
21、優(yōu)選地,所述數(shù)據(jù)獲取模塊包括:
22、語(yǔ)音識(shí)別子模塊、手勢(shì)捕捉子模塊和空間定位子模塊;
23、所述語(yǔ)音識(shí)別子模塊用于捕捉語(yǔ)音輸入,得到語(yǔ)音數(shù)據(jù),所述手勢(shì)捕捉子模塊用于捕捉并映射用戶(hù)手勢(shì),得到手勢(shì)數(shù)據(jù),所述空間定位子模塊用于確定用戶(hù)的空間位置,得到空間數(shù)據(jù)。
24、優(yōu)選地,所述第一處理模塊為gpt?flask。
25、本發(fā)明公開(kāi)了以下技術(shù)效果:
26、本發(fā)明提供了一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法及系統(tǒng),方法包括:獲取用戶(hù)的多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括:語(yǔ)音數(shù)據(jù)、空間數(shù)據(jù)和手勢(shì)數(shù)據(jù);將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);將所述文本數(shù)據(jù)轉(zhuǎn)換為文本流并利用http協(xié)議與socket協(xié)議進(jìn)行傳輸;對(duì)所述文本流進(jìn)行分句流式處理得到第一回復(fù)語(yǔ)音;對(duì)所述文本數(shù)據(jù)進(jìn)行情感分析,得到情感特征;根據(jù)所述情感特征和所述第一回復(fù)語(yǔ)音生成第二回復(fù)語(yǔ)音;將所述第二回復(fù)語(yǔ)音實(shí)時(shí)傳輸至用戶(hù)。本發(fā)明通過(guò)獲取用戶(hù)的多模態(tài)數(shù)據(jù)的輸入顯著減少了系統(tǒng)的響應(yīng)時(shí)間,從而提高了交互效率和用戶(hù)體驗(yàn)。這一改進(jìn)使得用戶(hù)與數(shù)字虛擬人的交互更為流暢,無(wú)需長(zhǎng)時(shí)間等待響應(yīng),增強(qiáng)了實(shí)時(shí)互動(dòng)的可用性和滿意度,并對(duì)用戶(hù)數(shù)據(jù)進(jìn)行情感分析,得到情感特征,極大地提升了數(shù)字虛擬人理解和表達(dá)情感的能力,使得交互更加自然和富有人情味。數(shù)字虛擬人能夠根據(jù)用戶(hù)的語(yǔ)言和行為表達(dá)出相應(yīng)的情感反應(yīng),從而增強(qiáng)了用戶(hù)的沉浸感和滿意度;本發(fā)明綜合了全息效果、情感融合和多模態(tài)交互技術(shù),提供了一個(gè)自然、直觀和吸引人的交互環(huán)境。這種全面優(yōu)化的用戶(hù)體驗(yàn)特別適用于教育、娛樂(lè)或客戶(hù)服務(wù)等領(lǐng)域,能夠提升用戶(hù)的參與度和滿意度;本方案設(shè)計(jì)了一種易于集成到現(xiàn)有系統(tǒng)中的方法,同時(shí)保持了對(duì)未來(lái)技術(shù)發(fā)展的高度適應(yīng)性。這一特性保證了系統(tǒng)能夠隨著技術(shù)進(jìn)步和用戶(hù)需求的變化而靈活更新和擴(kuò)展。
1.一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互方法,其特征在于,還包括:
3.一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互系統(tǒng),其特征在于,包括:
4.根據(jù)權(quán)利要求1所述的一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊包括:
5.根據(jù)權(quán)利要求1所述的一種多模態(tài)情感數(shù)字虛擬人實(shí)時(shí)交互系統(tǒng),其特征在于,所述第一處理模塊為gpt?flask。