本發(fā)明屬于自然語言處理,更為具體地講,涉及一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法。
背景技術(shù):
1、實(shí)體是指真實(shí)世界中存在的事物或者抽象概念,而關(guān)系是指不同實(shí)體之間存在的某種語義聯(lián)系。通過一個(gè)端到端的方式完成實(shí)體抽取任務(wù)和關(guān)系抽取任務(wù)的模型被稱為聯(lián)合抽取模型。步入信息傳播的新階段,各類平臺(tái)上內(nèi)容的表現(xiàn)形式已然超越單一的文本范疇。探索如何有效地利用與融合圖像多模態(tài)信息,已成為當(dāng)今研究領(lǐng)域亟待解決的關(guān)鍵課題。
2、當(dāng)前的多模態(tài)方法主要聚焦于模態(tài)特征提取、特征對(duì)齊和特征交互等方面的探索。
3、初期的研究工作,如moon等人將文本輸入至雙向長短期記憶網(wǎng)絡(luò)中提取文本的內(nèi)在語義表示,同時(shí)運(yùn)用基于卷積神經(jīng)網(wǎng)絡(luò)的inception模型對(duì)圖像信息進(jìn)行處理,以獲取富含圖像細(xì)粒度特征的向量化表示。隨后運(yùn)用注意力機(jī)制將上述兩種模態(tài)的表征予以融合。然而,整體圖像的向量化表示可能包含與文本關(guān)聯(lián)較弱甚至無關(guān)的噪聲信息,因?yàn)閳D像中僅有部分特定區(qū)域?qū)ρa(bǔ)充文本信息有實(shí)質(zhì)性的貢獻(xiàn)。針對(duì)這一問題,lu等人和zhang等人提出了利用cnn過程中的特征圖以更精確地捕獲圖像各區(qū)域特征表達(dá)。
4、接著,zhang等人和lu等人以文本的詞性作為導(dǎo)向,對(duì)圖像特征的選擇進(jìn)行引導(dǎo),進(jìn)而能針對(duì)性地輔助文本實(shí)體的識(shí)別。盡管這種方式在一定程度上提升了圖像特征的有效性,但由于依賴于外部詞性標(biāo)注工具,存在誤差傳播的影響。此外,模型采用了多模態(tài)圖結(jié)構(gòu)來對(duì)不同模態(tài)特征進(jìn)行對(duì)齊,這種圖結(jié)構(gòu)通過迭代更新節(jié)點(diǎn)特征,使得文本和圖像特征得以相互作用并深度融合,形成跨模態(tài)的上下文嵌入。與此同時(shí),諸多學(xué)者通過各種途徑利用圖結(jié)構(gòu)進(jìn)行多模態(tài)知識(shí)抽取,取得了顯著成效。
5、在面對(duì)實(shí)際社交媒體情境下大量圖像文本對(duì)之間關(guān)聯(lián)性較弱或不存在直接關(guān)聯(lián)的問題時(shí),sun等人創(chuàng)新性地設(shè)計(jì)了一種門控機(jī)制,該機(jī)制通過調(diào)控與文本語義相關(guān)的注意力導(dǎo)向視覺線索,以適應(yīng)不同圖像文本對(duì)之間的關(guān)聯(lián)程度差異。在此基礎(chǔ)之上,sun等人利用圖像-文本關(guān)系傳播策略,動(dòng)態(tài)調(diào)節(jié)視覺注意力權(quán)重,確保僅在圖像對(duì)文本實(shí)體識(shí)別產(chǎn)生積極影響時(shí)才將其納入模型決策流程,從而增強(qiáng)了模型在多模態(tài)環(huán)境下的魯棒性。
6、此外,wang等人試圖將圖像特征轉(zhuǎn)化為文本特征,借助ocr文字識(shí)別、區(qū)域?qū)ο髾z測和圖像描述等手段將跨模態(tài)特征統(tǒng)一到文本表達(dá)空間中。而wang等人]則結(jié)合提示學(xué)習(xí)與多模態(tài)知識(shí)抽取技術(shù),利用與實(shí)體相關(guān)的提示抽取圖像特征,并創(chuàng)新性地提出了一種模態(tài)感知的注意力機(jī)制,以優(yōu)化跨模態(tài)融合,有效緩解了語義鴻溝問題。
7、盡管當(dāng)前多模態(tài)實(shí)體關(guān)系抽取方法已取得一定的成果,但仍存在兩點(diǎn)局限性:
8、1.模態(tài)間內(nèi)容不相關(guān)或弱相關(guān)
9、許多情況下,圖文配對(duì)數(shù)據(jù)所體現(xiàn)的相關(guān)程度有限甚至無關(guān),這一特性在很大程度上可能將非結(jié)構(gòu)性噪聲引入到多模態(tài)實(shí)體關(guān)系聯(lián)合抽取模型,繼而對(duì)其整體性能造成負(fù)面影響。
10、2.模態(tài)間的語義與結(jié)構(gòu)差異
11、文本模態(tài)以符號(hào)化、線性序列的方式來表達(dá)信息,通常包含詞匯、句法結(jié)構(gòu)和邏輯關(guān)系,有明確的語法結(jié)構(gòu)和層級(jí)關(guān)系,是一種高度抽象和概括的語言形式。而圖像模態(tài)則是通過像素組成的顏色畫面來傳遞信息,直觀地展示實(shí)體的外觀、形狀、顏色、空間布局等具體視覺特征。兩者在表達(dá)方式上具有顯著的不同,圖像更為直觀和具象,而文本則更側(cè)重于隱含的意義和邏輯。
12、從以上分析可以看出,現(xiàn)有的實(shí)體關(guān)系抽取模型在處理模態(tài)內(nèi)容不相關(guān)或弱相關(guān)現(xiàn)象時(shí)不能取得理想的效果,在特征提取和特征融合過程存在提升空間,因此,對(duì)多模態(tài)實(shí)體關(guān)系抽取任務(wù)進(jìn)行深入研究是很有必要的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法,根據(jù)圖像文本對(duì)關(guān)聯(lián)強(qiáng)度,對(duì)不同區(qū)域圖像特征進(jìn)行加權(quán),并使圖像與文本特征得到有效融合,提升實(shí)體關(guān)系聯(lián)合抽取任務(wù)準(zhǔn)確性。
2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,包括以下步驟:
3、(1)、文本、圖像特征提??;
4、在社交媒體平臺(tái)上下載原始圖像,以及原始圖像對(duì)應(yīng)的文本描述,文本描述簡稱文本;
5、通過vgg-16模型提取原始圖像的圖像特征,通過bert模型提取文本的文本表示;
6、隨后,將圖像特征和文本表示均通過非線性映射至統(tǒng)一的向量空間,得到圖像特征v和文本特征h;
7、(2)、計(jì)算圖像特征在文本特征上的投影分量;
8、設(shè)圖像特征v中共計(jì)包含m個(gè)特征向量,每個(gè)特征向量為原始圖像中某一區(qū)域?qū)?yīng)的特征,
9、記原始圖像中第i個(gè)區(qū)域?qū)?yīng)的特征向量為vi,i=1,2,…,m;記文本中第j個(gè)單詞對(duì)應(yīng)的特征向量為hj,j=1,2,…,n,n表示文本單詞個(gè)數(shù);
10、計(jì)算特征向量vi在文本特征向量hj的投影長度;
11、
12、其中,li→j表示vi在hj上的投影長度;
13、計(jì)算特征向量vi在文本特征上的最大投影長度:
14、
15、(3)、對(duì)圖像特征中每個(gè)像素點(diǎn)的最大投影值進(jìn)行歸一化;
16、利用sigmoid函數(shù)對(duì)各像素點(diǎn)的最大投影值projectionlengthi進(jìn)行歸一化處理,將其映射至[0,1]范圍內(nèi),得到特征向量vi與文本特征h之間的相關(guān)系數(shù)moda?l?similair:
17、modal?similarityi=sigmoid(projectionlengthi)
18、(4)、對(duì)圖像特征v進(jìn)行加權(quán)處理;
19、將相關(guān)系數(shù)modal?similarityi與圖像特征v中各特征向量vi按位置對(duì)應(yīng)相乘,得到加權(quán)強(qiáng)化后具有文本導(dǎo)向的圖像特征vmatch;
20、
21、其中,表示特征向量vi加權(quán)處理后的結(jié)果;
22、(5)、跨模態(tài)特征融合;
23、設(shè)跨模態(tài)注意力機(jī)制模塊由l層跨模態(tài)注意力機(jī)制層組成,每一層跨模態(tài)注意力機(jī)制層又包含文本到文本的子注意力機(jī)制與圖像到文本的跨模態(tài)注意力機(jī)制;
24、其中,每一層跨模態(tài)注意力機(jī)制層包含兩個(gè)輸入,一個(gè)輸入為圖像特征vmatch,另外一個(gè)輸入為上一層輸出的文本特征hk-1,其中第一層跨模態(tài)注意力機(jī)制層的輸入為文本特征h;
25、在每一層跨模態(tài)注意力機(jī)制層中,先將文本特征h轉(zhuǎn)換為三組矩陣,記為:
26、
27、其中,k=1,2,…,l,wq、wk、wv表示文本特征h轉(zhuǎn)換時(shí)的權(quán)重矩陣;
28、再將圖像特征vmatch轉(zhuǎn)換為兩組矩陣,記為:
29、
30、其中,表示圖像特征vmatch轉(zhuǎn)換時(shí)的權(quán)重矩陣;
31、將輸入至文本到文本的子注意力機(jī)制,同時(shí)將輸入至圖像到文本的跨模態(tài)注意力機(jī)制,然后通過注意力機(jī)制運(yùn)算,計(jì)算出兩個(gè)子注意力機(jī)制拼接而成的特征
32、
33、其中,t2t表示文本到文本的子注意力機(jī)制,i2t表示圖像到文本的跨模態(tài)注意力機(jī)制,attention表示注意力機(jī)制運(yùn)算;
34、將特征經(jīng)過殘差連接與前饋神經(jīng)網(wǎng)絡(luò)后,得到第k層跨模態(tài)注意力機(jī)制層的輸出hk,最終在第l層得到跨模態(tài)融合后的文本特征hl;
35、(6)、提取實(shí)體關(guān)系三元組;
36、將文本特征hl映射成大小為k×n×n的特征空間,其中,k表示預(yù)先定義的關(guān)系數(shù)量,n表示文本單詞個(gè)數(shù),在特征空間中每一個(gè)關(guān)系對(duì)應(yīng)一個(gè)實(shí)體關(guān)系三元組矩陣;
37、對(duì)三元組矩陣中第i行第j列的元素aij對(duì)應(yīng)的數(shù)值進(jìn)行標(biāo)簽映射,若aij≤λ1,則在元素aij處添加標(biāo)簽“hbtb”,表示頭實(shí)體起始位置以及尾實(shí)體起始位置;若λ1<aij≤λ2,則在元素aij處添加標(biāo)簽“hete”,表示頭實(shí)體結(jié)束位置和尾實(shí)體結(jié)束位置;若λ2<aij≤λ3,則在元素aij處添加標(biāo)簽“in”,表示頭尾實(shí)體包圍的區(qū)域;若aij>λ3,則在元素aij處添加標(biāo)簽“-”,表示該位置不直接參與頭尾實(shí)體的定位過程;
38、隨后,每個(gè)三元組矩陣中找到標(biāo)簽“hbtb”與標(biāo)簽“hete”,將標(biāo)簽“hbtb”所在位置記為(x1,y1),標(biāo)簽“hete”所在位置記為(x2,y2),x1,y1,x2,y2∈[1,n];
39、然后將(x1,x2)所在位置的單詞組成頭實(shí)體,將(x2,y2)所在位置的單詞組成尾實(shí)體,三元組矩陣對(duì)應(yīng)的關(guān)系作為實(shí)體關(guān)系,從而提取出實(shí)體關(guān)系三元組。
40、本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的:
41、本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法,先下載原始圖像及原始圖像對(duì)應(yīng)的文本描述,然后提取文本描述與原始圖像的特征;接著,計(jì)算圖像特征在文本特征上的投影分量,并選出每個(gè)像素點(diǎn)的最大投影值進(jìn)行歸一化;然后根據(jù)歸一化結(jié)果對(duì)對(duì)圖像特征進(jìn)行加權(quán)處理,并將加權(quán)處理的結(jié)果與文本特征進(jìn)行跨模態(tài)特征融合,最后根據(jù)融合結(jié)果提取實(shí)體關(guān)系三元組。
42、同時(shí),本發(fā)明一種多模態(tài)實(shí)體關(guān)系聯(lián)合抽取方法還具有以下有益效果:
43、(1)、文本導(dǎo)向的跨模態(tài)特征匹配方法將視覺信息作為輔助特征,量化圖像與文本特征間的相似度,進(jìn)而有效地從視覺輸入中識(shí)別和利用那些對(duì)任務(wù)有貢獻(xiàn)的關(guān)鍵區(qū)域,同時(shí)抑制或忽略背景噪聲;
44、(2)、文本導(dǎo)向的跨模態(tài)注意力機(jī)制在transformer編碼器架構(gòu)內(nèi)有效融合了文本自注意力特征與圖像文本跨模態(tài)注意力特征,減少了模態(tài)間的認(rèn)知差異,強(qiáng)化信息提取和表達(dá)的有效性。;
45、(3)、對(duì)角標(biāo)記與解碼策略將原任務(wù)轉(zhuǎn)換為三維分類任務(wù),能實(shí)現(xiàn)在一個(gè)模型同時(shí)抽取出實(shí)體關(guān)系三元組。該策略中的對(duì)角標(biāo)記及填充標(biāo)記不僅能有效定位復(fù)雜語義場景下頭尾實(shí)體,還能緩解正負(fù)樣本不平衡帶來的局限性,在高效處理實(shí)體重疊問題的同時(shí)提高了模型整體性能。。