一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法

文檔序號(hào)：39720752發(fā)布日期：2024-10-22 13:11閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于自然語言處理，更為具體地講，涉及一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法。

背景技術(shù)：

1、實(shí)體是指真實(shí)世界中存在的事物或者抽象概念，而關(guān)系是指不同實(shí)體之間存在的某種語義聯(lián)系。通過一個(gè)端到端的方式完成實(shí)體抽取任務(wù)和關(guān)系抽取任務(wù)的模型被稱為聯(lián)合抽取模型。步入信息傳播的新階段，各類平臺(tái)上內(nèi)容的表現(xiàn)形式已然超越單一的文本范疇。探索如何有效地利用與融合圖像多模態(tài)信息，已成為當(dāng)今研究領(lǐng)域亟待解決的關(guān)鍵課題。

2、當(dāng)前的多模態(tài)方法主要聚焦于模態(tài)特征提取、特征對(duì)齊和特征交互等方面的探索。

3、初期的研究工作，如moon等人將文本輸入至雙向長短期記憶網(wǎng)絡(luò)中提取文本的內(nèi)在語義表示，同時(shí)運(yùn)用基于卷積神經(jīng)網(wǎng)絡(luò)的inception模型對(duì)圖像信息進(jìn)行處理，以獲取富含圖像細(xì)粒度特征的向量化表示。隨后運(yùn)用注意力機(jī)制將上述兩種模態(tài)的表征予以融合。然而，整體圖像的向量化表示可能包含與文本關(guān)聯(lián)較弱甚至無關(guān)的噪聲信息，因?yàn)閳D像中僅有部分特定區(qū)域?qū)ρa(bǔ)充文本信息有實(shí)質(zhì)性的貢獻(xiàn)。針對(duì)這一問題，lu等人和zhang等人提出了利用cnn過程中的特征圖以更精確地捕獲圖像各區(qū)域特征表達(dá)。

4、接著，zhang等人和lu等人以文本的詞性作為導(dǎo)向，對(duì)圖像特征的選擇進(jìn)行引導(dǎo)，進(jìn)而能針對(duì)性地輔助文本實(shí)體的識(shí)別。盡管這種方式在一定程度上提升了圖像特征的有效性，但由于依賴于外部詞性標(biāo)注工具，存在誤差傳播的影響。此外，模型采用了多模態(tài)圖結(jié)構(gòu)來對(duì)不同模態(tài)特征進(jìn)行對(duì)齊，這種圖結(jié)構(gòu)通過迭代更新節(jié)點(diǎn)特征，使得文本和圖像特征得以相互作用并深度融合，形成跨模態(tài)的上下文嵌入。與此同時(shí)，諸多學(xué)者通過各種途徑利用圖結(jié)構(gòu)進(jìn)行多模態(tài)知識(shí)抽取，取得了顯著成效。

5、在面對(duì)實(shí)際社交媒體情境下大量圖像文本對(duì)之間關(guān)聯(lián)性較弱或不存在直接關(guān)聯(lián)的問題時(shí)，sun等人創(chuàng)新性地設(shè)計(jì)了一種門控機(jī)制，該機(jī)制通過調(diào)控與文本語義相關(guān)的注意力導(dǎo)向視覺線索，以適應(yīng)不同圖像文本對(duì)之間的關(guān)聯(lián)程度差異。在此基礎(chǔ)之上，sun等人利用圖像-文本關(guān)系傳播策略，動(dòng)態(tài)調(diào)節(jié)視覺注意力權(quán)重，確保僅在圖像對(duì)文本實(shí)體識(shí)別產(chǎn)生積極影響時(shí)才將其納入模型決策流程，從而增強(qiáng)了模型在多模態(tài)環(huán)境下的魯棒性。

6、此外，wang等人試圖將圖像特征轉(zhuǎn)化為文本特征，借助ocr文字識(shí)別、區(qū)域?qū)ο髾z測和圖像描述等手段將跨模態(tài)特征統(tǒng)一到文本表達(dá)空間中。而wang等人]則結(jié)合提示學(xué)習(xí)與多模態(tài)知識(shí)抽取技術(shù)，利用與實(shí)體相關(guān)的提示抽取圖像特征，并創(chuàng)新性地提出了一種模態(tài)感知的注意力機(jī)制，以優(yōu)化跨模態(tài)融合，有效緩解了語義鴻溝問題。

7、盡管當(dāng)前多模態(tài)實(shí)體關(guān)系抽取方法已取得一定的成果，但仍存在兩點(diǎn)局限性：

8、1.模態(tài)間內(nèi)容不相關(guān)或弱相關(guān)

9、許多情況下，圖文配對(duì)數(shù)據(jù)所體現(xiàn)的相關(guān)程度有限甚至無關(guān)，這一特性在很大程度上可能將非結(jié)構(gòu)性噪聲引入到多模態(tài)實(shí)體關(guān)系聯(lián)合抽取模型，繼而對(duì)其整體性能造成負(fù)面影響。

10、2.模態(tài)間的語義與結(jié)構(gòu)差異

11、文本模態(tài)以符號(hào)化、線性序列的方式來表達(dá)信息，通常包含詞匯、句法結(jié)構(gòu)和邏輯關(guān)系，有明確的語法結(jié)構(gòu)和層級(jí)關(guān)系，是一種高度抽象和概括的語言形式。而圖像模態(tài)則是通過像素組成的顏色畫面來傳遞信息，直觀地展示實(shí)體的外觀、形狀、顏色、空間布局等具體視覺特征。兩者在表達(dá)方式上具有顯著的不同，圖像更為直觀和具象，而文本則更側(cè)重于隱含的意義和邏輯。

12、從以上分析可以看出，現(xiàn)有的實(shí)體關(guān)系抽取模型在處理模態(tài)內(nèi)容不相關(guān)或弱相關(guān)現(xiàn)象時(shí)不能取得理想的效果，在特征提取和特征融合過程存在提升空間，因此，對(duì)多模態(tài)實(shí)體關(guān)系抽取任務(wù)進(jìn)行深入研究是很有必要的。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法，根據(jù)圖像文本對(duì)關(guān)聯(lián)強(qiáng)度，對(duì)不同區(qū)域圖像特征進(jìn)行加權(quán)，并使圖像與文本特征得到有效融合，提升實(shí)體關(guān)系聯(lián)合抽取任務(wù)準(zhǔn)確性。

2、為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法，其特征在于，包括以下步驟：

3、(1)、文本、圖像特征提??；

4、在社交媒體平臺(tái)上下載原始圖像，以及原始圖像對(duì)應(yīng)的文本描述，文本描述簡稱文本；

5、通過vgg-16模型提取原始圖像的圖像特征，通過bert模型提取文本的文本表示；

6、隨后，將圖像特征和文本表示均通過非線性映射至統(tǒng)一的向量空間，得到圖像特征v和文本特征h；

7、(2)、計(jì)算圖像特征在文本特征上的投影分量；

8、設(shè)圖像特征v中共計(jì)包含m個(gè)特征向量，每個(gè)特征向量為原始圖像中某一區(qū)域?qū)?yīng)的特征，

9、記原始圖像中第i個(gè)區(qū)域?qū)?yīng)的特征向量為vi，i＝1,2,…,m；記文本中第j個(gè)單詞對(duì)應(yīng)的特征向量為hj，j＝1,2,…,n，n表示文本單詞個(gè)數(shù)；

10、計(jì)算特征向量vi在文本特征向量hj的投影長度；

11、

12、其中，li→j表示vi在hj上的投影長度；

13、計(jì)算特征向量vi在文本特征上的最大投影長度：

14、

15、(3)、對(duì)圖像特征中每個(gè)像素點(diǎn)的最大投影值進(jìn)行歸一化；

16、利用sigmoid函數(shù)對(duì)各像素點(diǎn)的最大投影值projectionlengthi進(jìn)行歸一化處理，將其映射至[0，1]范圍內(nèi)，得到特征向量vi與文本特征h之間的相關(guān)系數(shù)moda?l?similair：

17、modal?similarityi＝sigmoid(projectionlengthi)

18、(4)、對(duì)圖像特征v進(jìn)行加權(quán)處理；

19、將相關(guān)系數(shù)modal?similarityi與圖像特征v中各特征向量vi按位置對(duì)應(yīng)相乘，得到加權(quán)強(qiáng)化后具有文本導(dǎo)向的圖像特征vmatch；

20、

21、其中，表示特征向量vi加權(quán)處理后的結(jié)果；

22、(5)、跨模態(tài)特征融合；

23、設(shè)跨模態(tài)注意力機(jī)制模塊由l層跨模態(tài)注意力機(jī)制層組成，每一層跨模態(tài)注意力機(jī)制層又包含文本到文本的子注意力機(jī)制與圖像到文本的跨模態(tài)注意力機(jī)制；

24、其中，每一層跨模態(tài)注意力機(jī)制層包含兩個(gè)輸入，一個(gè)輸入為圖像特征vmatch，另外一個(gè)輸入為上一層輸出的文本特征hk-1，其中第一層跨模態(tài)注意力機(jī)制層的輸入為文本特征h；

25、在每一層跨模態(tài)注意力機(jī)制層中，先將文本特征h轉(zhuǎn)換為三組矩陣，記為：

26、

27、其中，k＝1,2,…,l，wq、wk、wv表示文本特征h轉(zhuǎn)換時(shí)的權(quán)重矩陣；

28、再將圖像特征vmatch轉(zhuǎn)換為兩組矩陣，記為：

29、

30、其中，表示圖像特征vmatch轉(zhuǎn)換時(shí)的權(quán)重矩陣；

31、將輸入至文本到文本的子注意力機(jī)制，同時(shí)將輸入至圖像到文本的跨模態(tài)注意力機(jī)制，然后通過注意力機(jī)制運(yùn)算，計(jì)算出兩個(gè)子注意力機(jī)制拼接而成的特征

32、

33、其中，t2t表示文本到文本的子注意力機(jī)制，i2t表示圖像到文本的跨模態(tài)注意力機(jī)制，attention表示注意力機(jī)制運(yùn)算；

34、將特征經(jīng)過殘差連接與前饋神經(jīng)網(wǎng)絡(luò)后，得到第k層跨模態(tài)注意力機(jī)制層的輸出hk，最終在第l層得到跨模態(tài)融合后的文本特征hl；

35、(6)、提取實(shí)體關(guān)系三元組；

36、將文本特征hl映射成大小為k×n×n的特征空間，其中，k表示預(yù)先定義的關(guān)系數(shù)量，n表示文本單詞個(gè)數(shù)，在特征空間中每一個(gè)關(guān)系對(duì)應(yīng)一個(gè)實(shí)體關(guān)系三元組矩陣；

37、對(duì)三元組矩陣中第i行第j列的元素aij對(duì)應(yīng)的數(shù)值進(jìn)行標(biāo)簽映射，若aij≤λ1，則在元素aij處添加標(biāo)簽“hbtb”，表示頭實(shí)體起始位置以及尾實(shí)體起始位置；若λ1＜aij≤λ2，則在元素aij處添加標(biāo)簽“hete”，表示頭實(shí)體結(jié)束位置和尾實(shí)體結(jié)束位置；若λ2＜aij≤λ3，則在元素aij處添加標(biāo)簽“in”，表示頭尾實(shí)體包圍的區(qū)域；若aij＞λ3，則在元素aij處添加標(biāo)簽“-”，表示該位置不直接參與頭尾實(shí)體的定位過程；

38、隨后，每個(gè)三元組矩陣中找到標(biāo)簽“hbtb”與標(biāo)簽“hete”，將標(biāo)簽“hbtb”所在位置記為(x1,y1)，標(biāo)簽“hete”所在位置記為(x2,y2)，x1,y1,x2,y2∈[1,n]；

39、然后將(x1,x2)所在位置的單詞組成頭實(shí)體，將(x2,y2)所在位置的單詞組成尾實(shí)體，三元組矩陣對(duì)應(yīng)的關(guān)系作為實(shí)體關(guān)系，從而提取出實(shí)體關(guān)系三元組。

40、本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的：

41、本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法，先下載原始圖像及原始圖像對(duì)應(yīng)的文本描述，然后提取文本描述與原始圖像的特征；接著，計(jì)算圖像特征在文本特征上的投影分量，并選出每個(gè)像素點(diǎn)的最大投影值進(jìn)行歸一化；然后根據(jù)歸一化結(jié)果對(duì)對(duì)圖像特征進(jìn)行加權(quán)處理，并將加權(quán)處理的結(jié)果與文本特征進(jìn)行跨模態(tài)特征融合，最后根據(jù)融合結(jié)果提取實(shí)體關(guān)系三元組。

42、同時(shí)，本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法還具有以下有益效果：

43、(1)、文本導(dǎo)向的跨模態(tài)特征匹配方法將視覺信息作為輔助特征，量化圖像與文本特征間的相似度，進(jìn)而有效地從視覺輸入中識(shí)別和利用那些對(duì)任務(wù)有貢獻(xiàn)的關(guān)鍵區(qū)域，同時(shí)抑制或忽略背景噪聲；

44、(2)、文本導(dǎo)向的跨模態(tài)注意力機(jī)制在transformer編碼器架構(gòu)內(nèi)有效融合了文本自注意力特征與圖像文本跨模態(tài)注意力特征，減少了模態(tài)間的認(rèn)知差異，強(qiáng)化信息提取和表達(dá)的有效性。；

45、(3)、對(duì)角標(biāo)記與解碼策略將原任務(wù)轉(zhuǎn)換為三維分類任務(wù)，能實(shí)現(xiàn)在一個(gè)模型同時(shí)抽取出實(shí)體關(guān)系三元組。該策略中的對(duì)角標(biāo)記及填充標(biāo)記不僅能有效定位復(fù)雜語義場景下頭尾實(shí)體，還能緩解正負(fù)樣本不平衡帶來的局限性，在高效處理實(shí)體重疊問題的同時(shí)提高了模型整體性能。。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐杰,馮渝荏,謝麟冰,苗珂,程詩雪,吳澤磊
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法