日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法和設(shè)備與流程

文檔序號:39714570發(fā)布日期:2024-10-22 13:00閱讀:3來源:國知局
一種基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法和設(shè)備與流程

本發(fā)明涉及自然語言處理,尤其涉及一種基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法和設(shè)備。


背景技術(shù):

1、科技資源的種類繁多,涉及科技論文、科技專利、科技人才、科技項目、科學(xué)儀器和科研機構(gòu)等特色數(shù)據(jù)。面對多源、異構(gòu)的海量科技資源,如何能打破“資源孤島”,挖掘科技資源的深層知識,并將科技知識轉(zhuǎn)化為科技服務(wù)是當(dāng)下研究的熱點問題。

2、現(xiàn)實世界中,多種不同真實的實體可能會指向同一個名稱引用,這就導(dǎo)致了歧義現(xiàn)象。在對獲取的科技資源數(shù)據(jù)進行實體抽取之后,會存在大量的同名實體。利用知識圖譜關(guān)鍵技術(shù)容易實現(xiàn)將科技資源進行信息融合,但在融合過程中同名實體的歧義性,會極大地影響科技資源知識圖譜的準確性和可用性。特別的,由于機構(gòu)、科研專利等存在一定程度的唯一性,因而難點主要在于對人才實體進行消歧,也即對相同姓名的作者實體的消歧。

3、現(xiàn)有的人名消歧方法,以科技論文為例,有些會通過構(gòu)建異構(gòu)信息網(wǎng)絡(luò)來更好地表征節(jié)點的語義信息和結(jié)構(gòu)信息,然后再將異構(gòu)信息網(wǎng)絡(luò)轉(zhuǎn)換為同構(gòu)網(wǎng)絡(luò),集中于使用文獻異構(gòu)信息網(wǎng)絡(luò)進行節(jié)點嵌入表示。但是這種處理手段的缺點是僅考慮了作者的靜態(tài)屬性,忽略了其職務(wù)、工作單位、合作對象、研究方向等特征因素隨時間變化而變化時所帶來的影響,使得最終提取的表征信息無法充分體現(xiàn)待消歧實體的特征。此外,現(xiàn)有技術(shù)對于不同種類的信息進行了同等的處理,忽略了節(jié)點和邊的異質(zhì)性,容易造成人名消歧的錯誤。


技術(shù)實現(xiàn)思路

1、(一)要解決的技術(shù)問題

2、鑒于現(xiàn)有技術(shù)的上述缺點、不足,本發(fā)明提供一種基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法和設(shè)備,其解決了現(xiàn)有的人名消歧方法中,因為忽略歧義實體的特征因素隨時間變化而變化所帶來的影響,使得最終提取的表征信息無法充分體現(xiàn)待消歧實體的特征的技術(shù)問題。

3、(二)技術(shù)方案

4、為了達到上述目的,本發(fā)明采用的主要技術(shù)方案包括:

5、第一方面,本發(fā)明實施例提供一種基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法,包括:

6、s10、針對待消歧的多篇文獻,根據(jù)所述多篇文獻的屬性數(shù)據(jù)構(gòu)建時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò);

7、所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)包括多個節(jié)點和連接節(jié)點的邊,所述節(jié)點按照屬性數(shù)據(jù)的分類劃分為多個節(jié)點類型;

8、所述邊上的信息包括:發(fā)表時間;

9、s20、對所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)進行特征編碼,以將所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的節(jié)點信息映射至相同的特征空間,得到所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的每個節(jié)點在所述特征空間中的映射作為初始特征向量;

10、s30、對于目標類型下的所有目標節(jié)點,遍歷所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的邊和節(jié)點,確定連接任意兩個目標節(jié)點的所有目標元路徑;基于所述目標元路徑上的發(fā)表時間,對每個目標節(jié)點對應(yīng)的目標元路徑包含的節(jié)點的初始向量特征進行初次特征聚合,得到基于不同的發(fā)表時間的時序特征向量集合;所述時序特征向量集合與所述目標節(jié)點一一對應(yīng);

11、s40、基于每個目標節(jié)點對應(yīng)的所述時序特征向量集合的語義特征,對所述時序特征向量集合進行二次特征聚合,得到包含目標節(jié)點高質(zhì)量表征信息的最終表征向量;

12、s50、基于所有目標節(jié)點的最終表征向量的相似度進行聚類分析,將所述待消歧的多篇文獻劃分到不同的簇,以達到人名消歧目的;其中,一個簇下對應(yīng)的文獻屬于一個相同的歧義實體。

13、可選地,在s10中,所述屬性數(shù)據(jù)的分類包括:文獻特征、作者特征、組織機構(gòu)、發(fā)表地點和發(fā)表時間;

14、所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的節(jié)點類型包括:組織機構(gòu)、作者特征、文獻特征和發(fā)表地點,每個節(jié)點為該種節(jié)點類型下的一個屬性數(shù)據(jù);

15、所述根據(jù)所述多篇文獻的屬性數(shù)據(jù)構(gòu)建時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò),包括:

16、根據(jù)每篇文獻的屬性數(shù)據(jù)確定時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的所有節(jié)點,并使用邊連接所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)中屬于同一篇文獻的節(jié)點,在連接作者特征與文獻特征的邊、連接文獻特征與發(fā)表地點的邊附上對應(yīng)的文獻的發(fā)表時間,形成時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò);

17、其中,當(dāng)作者特征與文獻特征之間、或者文獻特征與發(fā)表地點之間存在多個發(fā)表時間時,使用多條邊連接對應(yīng)的節(jié)點,且一條邊對應(yīng)一個發(fā)表時間。

18、可選地,所述方法用于對具有相同作者特征的多篇文獻進行人名消歧;

19、在s30中,所述目標類型為文獻特征;

20、在s50中,所述歧義實體為作者。

21、可選地,所述s20包括:使用多層感知機,對所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)中的所有節(jié)點對應(yīng)的屬性數(shù)據(jù)進行特征編碼,得到初始特征向量;

22、所述多層感知機的表達式為公式(1),所述公式(1)為:

23、hu=j(luò)(xuw1+b1)????(1);

24、公式(1)中,xu表示一個節(jié)點u對應(yīng)的屬性數(shù)據(jù),w1表示多層感知機的第一權(quán)重矩陣,b1表示多層感知機的第一偏置矩陣,hu表示xu對應(yīng)的初始特征向量;σ(·)表示激活函數(shù)。

25、可選地,所述s30包括:

26、s301、基于所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò),以任意兩個目標節(jié)點為起點和終點,遍歷所述時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的邊和節(jié)點,確定連接任意兩個目標節(jié)點的所有元路徑;

27、s302、基于所述元路徑,基于公式(2),使用元路徑編碼器進行聚合編碼,得到每條所述元路徑對應(yīng)的嵌入向量;

28、所述公式(2)為:

29、hp(s,j)=fθ(p(s,j))??????(2);

30、公式(2)中,p(s,j)表示一條元路徑上的所有節(jié)點,s表示該條元路徑的起點,j表示該條元路徑的終點;hp(s,j)表示該條元路徑對應(yīng)的嵌入向量,fθ(·)表示元路徑編碼器,所述元路徑編碼器的表達式為公式(3):

31、

32、公式(3)中,mean{·}表示求平均值運算;h't表示元路徑p(s,j)上的一個節(jié)點t的初始特征向量;

33、s303、對于某一目標節(jié)點s,獲取所有以目標節(jié)點s為起點的元路徑形成目標元路徑集合,表示為(p(s,j)1,t1),(p(s,j)2,t2),…,(p(s,j)n,tn),其中,p(s,j)n表示第n條目標元路徑的目標元路徑,tn表示第n條目標元路徑的時間戳,所述時間戳的取值為對應(yīng)的目標元路徑上連接終點的邊上所附的發(fā)表時間;n為正整數(shù);

34、s304、基于所述n個目標元路徑的時間戳與當(dāng)前時間的差值,確定對應(yīng)的時間貢獻因子;

35、s305、基于n條目標元路徑的時間貢獻因子和對應(yīng)的初始特征向量,根據(jù)公式(10),提取該目標節(jié)點的時序信息,得到該目標節(jié)點的n條目標元路徑對應(yīng)的n個時序特征向量,作為該目標節(jié)點的時序特征向量集合,表示為

36、所述公式(10)為:

37、

38、公式(10)中,表示目標節(jié)點s在第i條目標元路徑p下的時序特征向量,ηi表示第i條目標元路徑的時間貢獻因子,表示第i條元目標路徑上的所有節(jié)點的初始特征向量,i為小于等于n的正整數(shù),σ(·)表示激活函數(shù);

39、s306、重復(fù)s303至s305,直至得到所有目標節(jié)點的時序特征向量集合。

40、可選地,所述s304包括:

41、基于所述n條目標元路徑的時間戳與當(dāng)前時間的差值,根據(jù)公式(4)至(7)確定每條目標元路徑的時間貢獻因子;

42、所述公式(4)至(7)為:

43、

44、k(t-ti)=exp(δi(t-ti))??????(5);

45、

46、公式(4)至(7)中,ηi表示第i個目標元路徑的時間貢獻因子,αi表示第i條目標元路徑的第一注意力系數(shù),表示基于負歐氏距離確定的一個目標節(jié)點s與第i條目標元路徑p(s,j)i之間的相似度,k(·)表示用于建模時間的貢獻函數(shù),exp(·)表示以e為底的指數(shù)函數(shù),δi表示時間貢獻率,t表示當(dāng)前時間,ti表示第i條目標元路徑p(s,j)i對應(yīng)的時間戳。

47、可選地,所述第一注意力系數(shù)基于第一計算步驟得到,所述第一計算步驟包括:

48、t1、基于每條目標元路徑對應(yīng)的時間戳與當(dāng)前時間的差值,根據(jù)公式(8)確定目標元路徑p(s,j)對目標節(jié)點s的重要度;

49、所述公式(8)為:

50、

51、公式(8)中,leakyrelu(·)表示leakyrelu激活函數(shù),表示對目標元路徑p預(yù)設(shè)的第一參數(shù)化注意力向量,||代表向量拼接運算,h's表示目標節(jié)點s的初始特征向量,ei表示第i條目標元路徑p(s,j)i對目標節(jié)點s的重要度;

52、t2、基于所有目標元路徑p(s,j)對目標節(jié)點s的重要度,根據(jù)公式(9)進行歸一化處理,得到每條目標元路徑的第一注意力系數(shù);所述公式(9)為:

53、

54、公式(9)中,αi表示第i條目標元路徑的第一注意力系數(shù),exp(·)表示以e為底的指數(shù)函數(shù)。

55、可選地,所述s40包括:

56、s401、基于目標節(jié)點s的時序特征向量集合根據(jù)公式(11)進行二次特征聚合,得到目標節(jié)點s在其目標元路徑下的語義特征向量;所述公式(11)為:

57、

58、公式(11)中,表示目標節(jié)點s在其目標元路徑下的語義特征向量,βp表示目標元路徑p的第二注意力系數(shù),表示目標節(jié)點s在目標元路徑p下的時序特征向量,pa表示目標節(jié)點s的所有目標元路徑的集合;

59、s402、基于目標節(jié)點s在目標元路徑下的語義特征向量根據(jù)公式(12)確定目標節(jié)點s的最終表征向量,所述公式(12)為:

60、

61、公式(12)中,zs表示目標節(jié)點s的最終表征向量,σ(·)表示激活函數(shù),wo表示第三權(quán)重矩陣;

62、s403、重復(fù)步驟s401至s402,直至得到所有目標節(jié)點的最終表征向量。

63、可選地,在s401中,所述目標元路徑p的第二注意力系數(shù)基于第二計算步驟得到,所述第二計算步驟包括:

64、q1、根據(jù)公式(13),對目標節(jié)點s的時序特征向量集合進行二次特征轉(zhuǎn)化,得到中間語義特征向量;所述公式(13)為:

65、

66、公式(13)中,表示目標節(jié)點s的第i個時序特征向量對應(yīng)的中間語義特征向量,va表示所有目標節(jié)點的集合,|·|表示取集合元素數(shù)量運算,tanh(·)表示tanh激活函數(shù),w2表示第二權(quán)重矩陣,b2表示第二偏置矩陣,表示目標節(jié)點s的第i個時序特征向量;

67、q2、基于上述m條中間語義特征向量,根據(jù)公式(14)逐條確定中間語義特征向量對目標節(jié)點s的重要度;所述公式(14)為:

68、

69、公式(14)中,表示第i個中間語義特征向量對目標節(jié)點s的重要度,表示預(yù)設(shè)的第二參數(shù)化注意力向量;

70、q3、基于n條中間語義特征向量對目標節(jié)點s的重要度,根據(jù)公式(15)進行歸一化處理,得到目標元路徑p的第二注意力系數(shù),所述公式(15)為:

71、

72、公式(15)中,表示第i條目標元路徑p的第二注意力系數(shù),ep表示所有目標元路徑的語義特征對目標節(jié)點s的重要度。

73、第二方面,本發(fā)明實施例提供一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲計算機程序,所述處理器執(zhí)行所述存儲器中存儲的計算機程序時,實現(xiàn)第一方面所述的基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)的人名消歧方法的步驟。

74、(三)有益效果

75、本發(fā)明的有益效果是:本發(fā)明的人名消歧方法和系統(tǒng),構(gòu)建了包含發(fā)表時間的時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò),并基于時序異構(gòu)學(xué)術(shù)信息網(wǎng)絡(luò)提取包含發(fā)表時間信息的初始特征向量;再基于初始特征向量進行初次特征聚合提取時序特征來捕捉節(jié)點的語義和結(jié)構(gòu)信息,得到包含時序信息的時序特征向量集合;然后基于時序特征向量集合進行二次特征聚合提取語義特征,得到包含目標節(jié)點的高質(zhì)量表征信息的多條最終表征向量用于最終的聚類分析。相較于現(xiàn)有的人名消歧方法,本發(fā)明提供的人名消歧方法能夠基于初次特征聚合步驟,提取具有時序特征的時序特征向量集合,以更好地捕捉到異構(gòu)信息網(wǎng)絡(luò)中文獻節(jié)點包含時序信息的動態(tài)語義信息和結(jié)構(gòu)信息,從而更充分地體現(xiàn)歧義實體的特征,使得最終的聚類分析步驟能夠獲得更佳的消歧效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1