日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于路徑推理圖的文檔級(jí)關(guān)系抽取方法

文檔序號(hào):39721652發(fā)布日期:2024-10-22 13:13閱讀:3來源:國知局
一種基于路徑推理圖的文檔級(jí)關(guān)系抽取方法

本發(fā)明屬于自然語言處理,特別是涉及一種基于路徑推理圖的文檔級(jí)關(guān)系抽取方法。


背景技術(shù):

1、關(guān)系提?。╮e)是預(yù)測(cè)純文本中命名實(shí)體之間的關(guān)系的任務(wù)。這是一種自動(dòng)獲取結(jié)構(gòu)化知識(shí)的有效方法,從而有利于各種自然語言處理(nlp)應(yīng)用,特別是知識(shí)圖的構(gòu)建。之前的re工作大多集中在句子層面上,也就是說,它們只提取一個(gè)句子中的關(guān)系,在現(xiàn)實(shí)場(chǎng)景中,句子級(jí)re模型可能會(huì)忽略一些句子間關(guān)系,而相當(dāng)多的關(guān)系表示,除了一個(gè)單一的句子,也在一個(gè)長(zhǎng)文檔中跨越多個(gè)句子,而根據(jù)自然語言的表達(dá)習(xí)慣,實(shí)體對(duì)分別位于不同句子的情況也十分常見。因此,研究文檔級(jí)關(guān)系提取是十分必要和重要的。與句子級(jí)關(guān)系抽取相比,文檔級(jí)關(guān)系抽取更為復(fù)雜,也更具挑戰(zhàn)性,主要有以下幾個(gè)方面:

2、(1)多實(shí)體關(guān)系:文檔級(jí)關(guān)系抽取需要考慮文檔中多個(gè)實(shí)體之間的關(guān)系,這增加了任務(wù)的復(fù)雜性。相比于句子級(jí)關(guān)系抽取,文檔級(jí)關(guān)系抽取需要識(shí)別和建模實(shí)體之間的跨句子關(guān)系,而且在長(zhǎng)文檔中可能存在多個(gè)實(shí)體關(guān)系的交織和復(fù)雜性。

3、(2)上下文建模:文檔級(jí)關(guān)系抽取需要充分利用文檔的上下文信息來理解實(shí)體關(guān)系。文檔中的上下文可以提供關(guān)于實(shí)體身份、實(shí)體屬性和關(guān)系類型等重要線索。然而,上下文建模面臨著文檔長(zhǎng)度、信息遮蔽和語義復(fù)雜性等挑戰(zhàn),使得準(zhǔn)確抽取關(guān)系變得困難。

4、(3)多提及:一個(gè)實(shí)體可能會(huì)在多個(gè)句子中被提及,且提及名稱會(huì)有不同。

5、(4)主體和客體之間的關(guān)系需要推理得出。

6、要想得到文檔級(jí)實(shí)體間存在的關(guān)系類型需要更復(fù)雜的推理能力,這其中包括邏輯推理、共指推理以及常識(shí)推理,還有一種關(guān)系類型則需要模式匹配進(jìn)而得出?,F(xiàn)有方法通常將文檔轉(zhuǎn)化為圖結(jié)構(gòu),對(duì)文檔中的句子、實(shí)體以及提及等復(fù)雜信息進(jìn)行建模,然后在面對(duì)長(zhǎng)文檔中的多實(shí)體和多關(guān)系進(jìn)行抽取,在抽取過程中,由于難以發(fā)現(xiàn)實(shí)體、提及、句子之間的隱式信息,缺乏一定的推理能力;長(zhǎng)文檔中存在大量冗余信息,難以抽取有價(jià)值實(shí)體和關(guān)系;長(zhǎng)文檔中實(shí)體距離較遠(yuǎn),難以克服長(zhǎng)距離依賴的問題等原因,導(dǎo)致現(xiàn)有技術(shù)中存在抽取準(zhǔn)確率低的問題。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問題,本發(fā)明提供克服上述問題或者至少部分地解決上述問題的一種基于路徑推理圖的文檔級(jí)關(guān)系抽取方法。

2、為解決上述技術(shù)問題,本發(fā)明提供了一種基于路徑推理的文檔級(jí)關(guān)系抽取方法,所述方法包括步驟:

3、步驟s1,獲取給定文檔,對(duì)給定文檔的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,獲得給定文檔的編碼特征;

4、步驟s2,根據(jù)編碼特征構(gòu)建文檔圖結(jié)構(gòu)g,包括三種類型的節(jié)點(diǎn)和四種類型的邊,其中三種類型的節(jié)點(diǎn)包括:提及節(jié)點(diǎn)、實(shí)體節(jié)點(diǎn)、句子節(jié)點(diǎn);四種類型的邊包括:提及-提及邊、提及-實(shí)體邊、實(shí)體-句子邊、句子-句子邊;

5、步驟s3,在文檔圖結(jié)構(gòu)g的基礎(chǔ)上構(gòu)建實(shí)體路徑推理路徑,進(jìn)而構(gòu)建得到實(shí)體路徑推理圖g;

6、步驟s4,將新的節(jié)點(diǎn)加入到實(shí)體路徑推理圖中,將新的節(jié)點(diǎn)與需要預(yù)測(cè)關(guān)系的兩個(gè)目標(biāo)實(shí)體節(jié)點(diǎn)連接起來,使加入的新的節(jié)點(diǎn)聚合目標(biāo)實(shí)體節(jié)點(diǎn)及其下屬提及節(jié)點(diǎn)的信息,同時(shí)使句子節(jié)點(diǎn)聚合實(shí)體推理圖中所有實(shí)體節(jié)點(diǎn)和提及節(jié)點(diǎn)的信息;

7、步驟s5,獲取并連接目標(biāo)實(shí)體節(jié)點(diǎn)嵌入信息,新的節(jié)點(diǎn)嵌入信息,所有遍歷句子節(jié)點(diǎn)嵌入信息以及目標(biāo)實(shí)體節(jié)點(diǎn)嵌入的相對(duì)距離信息,輸入到前饋神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)兩個(gè)目標(biāo)實(shí)體節(jié)點(diǎn)之間關(guān)系的預(yù)測(cè)。

8、進(jìn)一步的,步驟s1的具體實(shí)現(xiàn)方式如下;

9、給定文檔d=,它由n個(gè)句子組成,包含m個(gè)實(shí)體e=,每個(gè)實(shí)體通過句子中的提及p來表示;

10、首先將單詞嵌入、實(shí)體類型嵌入連接起來作為詞表示:

11、

12、其中,分別是單詞和實(shí)體類型,分別表示單詞、實(shí)體類型嵌入層;

13、然后使用預(yù)訓(xùn)練語言模型進(jìn)行編碼,獲得編碼特征,生成給定文檔d對(duì)應(yīng)的向量序列:

14、=encoder([,...])

15、其中,encoder(?)為bert模型,k為總的單詞個(gè)數(shù),k為單詞編號(hào)。

16、進(jìn)一步的,提及節(jié)點(diǎn)代表給定文檔d中的提及,提及節(jié)點(diǎn)的表示是通過平均組成提及的單詞的表示來實(shí)現(xiàn)的:

17、

18、其中,代表提及節(jié)點(diǎn)的表示,包含了提及節(jié)點(diǎn)中所有單詞的表示,代表單詞,代表提及節(jié)點(diǎn),avg(?)表示求平均函數(shù),i為節(jié)點(diǎn)的編號(hào),k為單詞的編號(hào);

19、實(shí)體節(jié)點(diǎn)代表給定文檔d中的實(shí)體,實(shí)體節(jié)點(diǎn)的表示是通過平均組成實(shí)體的提及的表示來實(shí)現(xiàn)的:

20、

21、其中,代表實(shí)體節(jié)點(diǎn)的表示,代表提及節(jié)點(diǎn)的表示,包含了實(shí)體節(jié)點(diǎn)中所有提及的表示,代表提及節(jié)點(diǎn),代表實(shí)體節(jié)點(diǎn);

22、句子節(jié)點(diǎn)代表給定文檔d中的句子,句子節(jié)點(diǎn)的表示是通過平均所包含單詞的表示來實(shí)現(xiàn)的:

23、

24、其中,代表句子節(jié)點(diǎn)的表示,包含了句子中所有單詞的表示,代表單詞,代表句子節(jié)點(diǎn)。

25、進(jìn)一步的,提及-提及邊表示當(dāng)兩個(gè)提及引用同一實(shí)體時(shí),添加一個(gè)提及邊來建模提及之間的共引用交互;

26、提及-實(shí)體邊表示當(dāng)提及與實(shí)體相關(guān)聯(lián)時(shí),將提及節(jié)點(diǎn)連接到實(shí)體節(jié)點(diǎn),以便對(duì)提及的共同引用建模;

27、實(shí)體-句子邊表示當(dāng)提及在句子中時(shí),提及與其所在句子構(gòu)成一條句子到提及的邊;

28、句子-句子邊表示當(dāng)兩個(gè)句子包含同一個(gè)實(shí)體,則連接兩個(gè)句子節(jié)點(diǎn),并只在文檔中對(duì)應(yīng)句子相鄰的兩個(gè)句子節(jié)點(diǎn)之間添加邊,以保持順序信息。

29、進(jìn)一步的,實(shí)體路徑推理圖的構(gòu)建方式如下:

30、首先構(gòu)建三種類型的路徑:

31、句內(nèi)推理路徑:兩個(gè)實(shí)體之間的關(guān)系同時(shí)出現(xiàn)在同一句子中,句子內(nèi)推理路徑建模了模式識(shí)別和常識(shí)推理兩種類型的推理,這兩種推理路徑在句子內(nèi)執(zhí)行推理;

32、句間推理路徑:對(duì)于同一個(gè)句子中沒有提及的兩個(gè)實(shí)體,使用句間推理路徑來建模它們之間的關(guān)系,其視為向句子內(nèi)推理路徑添加額外的橋梁,根據(jù)橋梁類型的不同,引入了邏輯推理路徑和共引用推理路徑;

33、直接推理路徑:不符合句內(nèi)推理路徑和句間推理路徑的其他情況均使用直接推理路徑表示,對(duì)于每組實(shí)體對(duì)存在多條路徑的情況至多保存q條,q為常數(shù);

34、然后在文檔圖結(jié)構(gòu)g中的實(shí)體對(duì)周圍提取一個(gè)封閉的實(shí)體路徑推理圖g來整合不同的路徑,具體地說,實(shí)體路徑推理圖g是由在路徑上至少出現(xiàn)一次的節(jié)點(diǎn)和在g中這些節(jié)點(diǎn)之間的所有邊組成。

35、進(jìn)一步的,給定第l層的節(jié)點(diǎn)q,利用l層的r-gcn對(duì)實(shí)體路徑推理圖中的每層進(jìn)行消息傳遞,q的嵌入信息定義為:

36、

37、其中,表示節(jié)點(diǎn)q經(jīng)過l+1層r-gcn處理后的嵌入表示,是一個(gè)激活函數(shù),、分別為q和u節(jié)點(diǎn)在l層的表示,表示不同類型邊的總集合,表示與邊t相連的節(jié)點(diǎn)q的鄰居集合,u為節(jié)點(diǎn)q的鄰居節(jié)點(diǎn),||表示的模,,是可訓(xùn)練參數(shù)。

38、進(jìn)一步的,設(shè)置需要預(yù)測(cè)關(guān)系的兩個(gè)目標(biāo)實(shí)體節(jié)點(diǎn)為和,m和n為目標(biāo)實(shí)體節(jié)點(diǎn)的編號(hào),則(1)目標(biāo)實(shí)體節(jié)點(diǎn)嵌入的線性組合,提供目標(biāo)實(shí)體對(duì)的全局實(shí)體感知信息;其中代表連接操作,,分別表示目標(biāo)實(shí)體節(jié)點(diǎn)的嵌入信息;(2)加入的新的節(jié)點(diǎn)嵌入,提供目標(biāo)實(shí)體對(duì)的局部實(shí)體感知信息;(3)所有遍歷句子節(jié)點(diǎn)嵌入;其中代表句子節(jié)點(diǎn)的嵌入表示,包含了實(shí)體路徑推理圖g中所有句子的表示;(4)目標(biāo)實(shí)體節(jié)點(diǎn)嵌入的相對(duì)距離,表示從給定文檔中第一次提及到的相對(duì)距離的嵌入,是相對(duì)距離嵌入層,然后通過ffnn傳遞連接表示為:

39、

40、其中,r是目標(biāo)實(shí)體對(duì)之間的關(guān)系標(biāo)簽向量,是目標(biāo)實(shí)體對(duì)的關(guān)系概率值,為前饋神經(jīng)網(wǎng)絡(luò)。

41、進(jìn)一步的,采用交叉損失熵函數(shù)來優(yōu)化預(yù)測(cè)過程,損失函數(shù)具體如下:

42、

43、其中是損失函數(shù)的值,式中表示指示函數(shù),當(dāng)括號(hào)中的條件滿足時(shí),值為1,不滿足為0。

44、根據(jù)本發(fā)明提供的基于路徑推理的關(guān)系抽取方法,具備如下有益效果:本發(fā)明通過構(gòu)建文檔圖聚合整個(gè)文檔的上下文信息,加入新的節(jié)點(diǎn)聚合目標(biāo)實(shí)體周圍的信息,構(gòu)建實(shí)體推理路徑圖來推理長(zhǎng)距離實(shí)體之間的關(guān)系,進(jìn)而提高了模型在文檔級(jí)關(guān)系抽取中的性能,解決了現(xiàn)有技術(shù)中存在的長(zhǎng)距離抽取準(zhǔn)確率低的缺陷。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1