一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法與流程

文檔序號(hào)：39560631發(fā)布日期：2024-09-30 13:33閱讀：16來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法與流程

本申請(qǐng)涉及數(shù)據(jù)處理，特別是涉及一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法。

背景技術(shù)：

1、情緒識(shí)別技術(shù)的應(yīng)用領(lǐng)域正不斷拓展，涵蓋了娛樂(lè)、交通、醫(yī)療健康和零售等多個(gè)行業(yè)，這些應(yīng)用通過(guò)識(shí)別出用戶的情緒來(lái)提供定制化服務(wù)，增強(qiáng)了人機(jī)交互的自然性和效率?，F(xiàn)有主流的多模態(tài)情感識(shí)別方法中，在對(duì)不同模態(tài)的信息進(jìn)行融合時(shí)，由于融合手段的不嚴(yán)謹(jǐn)，往往會(huì)導(dǎo)致模態(tài)信息融合之后的融合向量出現(xiàn)過(guò)多的噪音或重要特征的缺失，不能很好的體現(xiàn)各個(gè)模態(tài)的特性。

2、如申請(qǐng)?zhí)?02110884202.7的專利，其通過(guò)自動(dòng)編碼器將文本上下文特征向量ei和圖像上下文特征向量ej直接融合得到融合向量ef，再通過(guò)對(duì)抗網(wǎng)絡(luò)鑒別出充分融合的ef，可見(jiàn)該專利是通過(guò)先直接融合后再篩選出合格的融合向量，雖然在一定程度上能提高整合向量的質(zhì)量，但本質(zhì)上簡(jiǎn)單的直接融合難以產(chǎn)生高質(zhì)量的融合向量，該專利所作的僅為從低質(zhì)量的融合向量中篩選出較高質(zhì)量的融合向量，難以從根本上解決情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。

3、目前針對(duì)相關(guān)技術(shù)中情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題，尚未提出有效的解決方案。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法，以至少解決相關(guān)技術(shù)中情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。

2、第一方面，本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法，所述方法包括：

3、獲取待提取目標(biāo)的多模態(tài)數(shù)據(jù)，其中，所述多模態(tài)數(shù)據(jù)包括文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù)；

4、分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征；

5、通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間，以提取得到共有信息；

6、通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息，以提取得到異質(zhì)性信息；

7、將所述共有信息和所述異質(zhì)性信息進(jìn)行融合，得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征，其中，多模態(tài)表征用于表征所述待提取目標(biāo)的情感信息。

8、在其中一些實(shí)施例中，通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間，以提取得到共有信息包括：

9、基于對(duì)抗網(wǎng)絡(luò)模型中的生成器g(·；θg)，利用映射參數(shù)θg將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到具有分布對(duì)齊的共同潛在子空間以提取得到共有信息，其中，t表示文本特征，v表示視覺(jué)特征，a表示音頻特征。

10、在其中一些實(shí)施例中，通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息，以提取得到異質(zhì)性信息包括：

11、基于對(duì)抗網(wǎng)絡(luò)模型中的模態(tài)鑒別器d(i；θd)，識(shí)別出單獨(dú)屬于所述文本特征或所述視覺(jué)特征或所述音頻特征的信息，以提取得到各自的異質(zhì)性信息，其中，i表示模態(tài)鑒別器的輸入，θd是模態(tài)鑒別器d的參數(shù)集合，包括權(quán)重矩陣w和偏置矩陣b，用于對(duì)輸入i進(jìn)行線性變換。

12、在其中一些實(shí)施例中，將所述共有信息和所述異質(zhì)性信息進(jìn)行融合，得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征包括：

13、通過(guò)cme跨模態(tài)編碼器，將所述視覺(jué)特征的異質(zhì)性信息與所述音頻特征的異質(zhì)性信息進(jìn)行融合，得到第一融合表征；

14、再通過(guò)cme跨模態(tài)編碼器，將所述第一融合表征與所述文本特征的異質(zhì)性信息進(jìn)行融合，得到第二融合表征；

15、再通過(guò)cme跨模態(tài)編碼器，將所述第二融合表征與所述共有信息進(jìn)行融合，得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征。

16、在其中一些實(shí)施例中，在分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征之前，所述方法包括：

17、分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行上下文處理，得到包含時(shí)間信息和上下文信息的文本特征、包含時(shí)間信息和上下文信息的視覺(jué)特征，以及包含時(shí)間信息和上下文信息的音頻特征，其中，所述上下文處理通過(guò)transformer編碼器或lstm模型執(zhí)行。

18、在其中一些實(shí)施例中，對(duì)所述文本數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征包括：

19、通過(guò)預(yù)設(shè)自然語(yǔ)言處理工具對(duì)文本數(shù)據(jù)進(jìn)行提取，得到文本特征，其中，所述預(yù)設(shè)自然語(yǔ)言處理工具包括roberta工具和bert工具。

20、在其中一些實(shí)施例中，對(duì)所述視覺(jué)數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到視覺(jué)特征包括：

21、通過(guò)預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)視覺(jué)數(shù)據(jù)進(jìn)行提取，得到視覺(jué)特征，其中，所述預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)模型包括resnet模型和vgg模型。

22、在其中一些實(shí)施例中，對(duì)所述音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到音頻特征包括：

23、通過(guò)預(yù)設(shè)音頻特征提取工具對(duì)音頻數(shù)據(jù)進(jìn)行提取，得到音頻特征，其中，所述預(yù)設(shè)音頻特征提取工具包括opensmile工具。

24、第二方面，本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感識(shí)別方法，所述情感識(shí)別方法基于多模態(tài)表征識(shí)別待提取目標(biāo)的情感，所述多模態(tài)表征通過(guò)上述第一方面任一項(xiàng)所述的情感信息提取方法得到，所述情感識(shí)別方法包括：

25、將所述多模態(tài)表征輸入多標(biāo)簽分類模型，通過(guò)所述多標(biāo)簽分類模型分類識(shí)別出待提取目標(biāo)的情感，其中，所述多標(biāo)簽分類模型為包含softmax全連接層和relu層的多層感知機(jī)。

26、在其中一些實(shí)施例中，在所述多標(biāo)簽分類模型的訓(xùn)練過(guò)程中，通過(guò)二元交叉熵?fù)p失函數(shù)調(diào)整所述多標(biāo)簽分類模型的模型參數(shù)。

27、相比于相關(guān)技術(shù)，本申請(qǐng)實(shí)施例提供的一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法，其中，該情感信息提取方法通過(guò)獲取待提取目標(biāo)的多模態(tài)數(shù)據(jù)，其中，多模態(tài)數(shù)據(jù)包括文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù)；分別對(duì)文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征；通過(guò)對(duì)抗網(wǎng)絡(luò)模型將文本特征、視覺(jué)特征和音頻特征映射到共同的潛在子空間，以提取得到共有信息；通過(guò)對(duì)抗網(wǎng)絡(luò)模型區(qū)分文本特征、視覺(jué)特征和音頻特征之間的不相同信息，以提取得到異質(zhì)性信息；將共有信息和異質(zhì)性信息進(jìn)行融合，得到多模態(tài)數(shù)據(jù)的多模態(tài)表征，其中，多模態(tài)表征用于表征待提取目標(biāo)的情感信息，實(shí)現(xiàn)了基于對(duì)多模態(tài)數(shù)據(jù)之間異同信息的考慮，通過(guò)gan提取不同模態(tài)的異質(zhì)性信息和模態(tài)之間的共有信息，以基于該異質(zhì)性信息和共有信息來(lái)提升模態(tài)融合的效果，從而提升情感識(shí)別的準(zhǔn)確度，解決了情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。

技術(shù)特征：

1.一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間，以提取得到共有信息包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息，以提取得到異質(zhì)性信息包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，將所述共有信息和所述異質(zhì)性信息進(jìn)行融合，得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，在分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征之前，所述方法包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述文本數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述視覺(jué)數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到視覺(jué)特征包括：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到音頻特征包括：

9.一種基于對(duì)抗網(wǎng)絡(luò)的情感識(shí)別方法，其特征在于，所述情感識(shí)別方法基于多模態(tài)表征識(shí)別待提取目標(biāo)的情感，所述多模態(tài)表征通過(guò)權(quán)利要求1至8任一項(xiàng)所述的情感信息提取方法得到，所述情感識(shí)別方法包括：

10.根據(jù)權(quán)利要求9所述的方法，其特征在于，在所述多標(biāo)簽分類模型的訓(xùn)練過(guò)程中，通過(guò)二元交叉熵?fù)p失函數(shù)調(diào)整所述多標(biāo)簽分類模型的模型參數(shù)。

技術(shù)總結(jié)
本申請(qǐng)涉及一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法，其中，該情感信息提取方法包括：分別對(duì)多模態(tài)數(shù)據(jù)中的文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行提取，對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征；通過(guò)對(duì)抗網(wǎng)絡(luò)模型將三者映射到共同的潛在子空間以提取得到共有信息；通過(guò)對(duì)抗網(wǎng)絡(luò)模型區(qū)分三者之間的不相同信息以提取得到異質(zhì)性信息；融合共有信息和異質(zhì)性信息以得到多模態(tài)表征，其中，多模態(tài)表征用于表征待提取目標(biāo)的情感信息。通過(guò)本申請(qǐng)，考慮到了多模態(tài)數(shù)據(jù)之間的異同，通過(guò)GAN提取不同模態(tài)的異質(zhì)性信息和模態(tài)之間的共有信息，實(shí)現(xiàn)了通過(guò)該異質(zhì)性信息和共有信息來(lái)提升模態(tài)融合的效果，解決了情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。

技術(shù)研發(fā)人員：涂濤,傅一航,楊淳沨,林宗強(qiáng),王增鍬
受保護(hù)的技術(shù)使用者：杭州智諾科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/29

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：涂濤,傅一航,楊淳沨,林宗強(qiáng),王增鍬
技術(shù)所有人：杭州智諾科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法與流程