本技術(shù)涉及信息,尤其涉及一種實體關(guān)系抽取方法及相關(guān)模型訓練方法、裝置及電子設備。
背景技術(shù):
1、實體關(guān)系抽取是醫(yī)療領(lǐng)域人工智能技術(shù)中一項關(guān)鍵任務,是指從醫(yī)療文本數(shù)據(jù)中自動識別和提取文本中的實體以及實體之間的關(guān)系的操作,例如,疾病類實體和癥狀類實體之間的關(guān)系、疾病類實體和治療措施類實體之間的關(guān)系等。實體關(guān)系抽取對于醫(yī)療領(lǐng)域的研究和應用具有重要的意義,可以為疾病診斷、藥物開發(fā)、臨床決策等下游人工智能任務提供幫助。
2、但是在醫(yī)療領(lǐng)域中實體之間的關(guān)系往往非常復雜。醫(yī)療領(lǐng)域涉及的知識面非常廣泛,包括疾病、藥物、手術(shù)等各種實體,而這些實體之間的關(guān)系往往是多層次、復雜且交織在一起的。例如,一個疾病可能需要多種藥物進行治療,而這些藥物之間可能存在相互作用的關(guān)系。此外,在醫(yī)療領(lǐng)域中,往往需要結(jié)合多個數(shù)據(jù)源進行分析,包括病歷、醫(yī)學文獻、醫(yī)學圖像等,這也會增加關(guān)系重疊的出現(xiàn)概率。因此,醫(yī)療領(lǐng)域關(guān)系抽取需要充分考慮醫(yī)學知識的復雜性和多層次性,處理好關(guān)系重疊問題。而現(xiàn)有面向醫(yī)療領(lǐng)域的實體關(guān)系抽取方法大都難以處理這種復雜的關(guān)系重疊問題,難以對較為相似的關(guān)系進行準確分類。
3、因此,如何提高醫(yī)療領(lǐng)域?qū)嶓w關(guān)系抽取準確性成為目前醫(yī)療領(lǐng)域?qū)嶓w關(guān)系抽取中亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種實體關(guān)系抽取方法及相關(guān)模型訓練方法、裝置及電子設備,以解決醫(yī)療領(lǐng)域?qū)嶓w關(guān)系抽取準確性的問題。
2、第一方面,本技術(shù)實施例提供了一種實體關(guān)系抽取模型訓練方法,包括:
3、獲取醫(yī)療文本訓練集;
4、將所述醫(yī)療文本訓練集中的第一醫(yī)療文本訓練數(shù)據(jù)輸入預先訓練好的命名實體識別模型進行實體識別,得到第一實體識別結(jié)果,其中,所述命名實體識別模型是預先利用醫(yī)療文本訓練集中的第二醫(yī)療文本訓練數(shù)據(jù)對初始的命名實體識別模型進行訓練得到的;
5、基于預先設定的待定關(guān)系提示信息和所述第一實體識別結(jié)果,分別對所述第一實體識別結(jié)果中的每兩個實體,生成至少一條待定關(guān)系提示文本,每條所述待定關(guān)系提示文本分別對應不同的待定關(guān)系;
6、將所述第一實體識別結(jié)果中的每兩個實體的至少一條待定關(guān)系提示文本輸入預先訓練好的第二預訓練語言模型進行實體關(guān)系預測,得到第一實體關(guān)系預測結(jié)果,其中,所述第一實體關(guān)系預測結(jié)果指示所述第一實體識別結(jié)果中的每兩個實體之間的至少一種關(guān)系;
7、根據(jù)所述第一實體關(guān)系預測結(jié)果,調(diào)整所述第二預訓練語言模型的模型參數(shù),以得到訓練好的實體關(guān)系抽取模型。
8、可選地,所述第二預訓練語言模型是預先利用所述醫(yī)療文本訓練集中的第三醫(yī)療文本訓練數(shù)據(jù)對第一預訓練語言模型進行訓練得到的,其中,對所述第一預訓練語言模型的訓練任務包括mlm任務和nsp任務。
9、可選地,所述命名實體識別模型的訓練過程包括:
10、對所述醫(yī)療文本訓練集中的第二醫(yī)療文本訓練數(shù)據(jù)生成實體標注;
11、將標注后的所述第二醫(yī)療文本訓練數(shù)據(jù)輸入初始的命名實體識別模型,以對所述第二醫(yī)療文本訓練數(shù)據(jù)進行編碼、特征提取和實體分類,并輸出第二實體識別結(jié)果,所述第二實體識別結(jié)果包括所述第二醫(yī)療文本訓練數(shù)據(jù)中的各個實體;
12、根據(jù)所述第二實體識別結(jié)果和生成的實體標注,使用損失函數(shù)計算模型損失,并基于所述模型損失調(diào)整所述初始的命名實體識別模型的模型參數(shù),以得到訓練好的命名實體識別模型。
13、可選地,所述命名實體識別模型包括編碼層、注意力特征提取層和實體分類層;
14、所述將標注后的所述第二醫(yī)療文本訓練數(shù)據(jù)輸入初始的命名實體識別模型,以對所述第二醫(yī)療文本訓練數(shù)據(jù)進行編碼、特征提取和實體分類,并輸出第二實體識別結(jié)果,包括:
15、將標注后的所述第二醫(yī)療文本訓練數(shù)據(jù)輸入初始的命名實體識別模型,以分別通過所述編碼層對所述第二醫(yī)療文本訓練數(shù)據(jù)進行編碼,得到所述第二醫(yī)療文本訓練數(shù)據(jù)的文本序列表示,通過所述注意力特征提取層對所述第二醫(yī)療文本訓練數(shù)據(jù)的文本序列表示進行注意力特征提取,得到所述第二醫(yī)療文本訓練數(shù)據(jù)的注意力特征表示,以及通過所述實體分類層對所述第二醫(yī)療文本訓練數(shù)據(jù)的注意力特征表示和文本序列表示的拼接特征表示進行實體分類預測,輸出所述第二實體識別結(jié)果。
16、可選地,所述命名實體識別模型的編碼層為所述第二預訓練語言模型;
17、和/或,
18、所述注意力特征提取層包括特征提取層和span枚舉層,所述特征提取層采用雙向長短期記憶網(wǎng)絡bi-lstm;
19、所述通過所述注意力特征提取層對所述第二醫(yī)療文本訓練數(shù)據(jù)的文本序列表示進行注意力特征提取,包括:
20、通過所述特征提取層對所述第二醫(yī)療文本訓練數(shù)據(jù)的文本序列表示進行特征提取,得到所述第二醫(yī)療文本訓練數(shù)據(jù)的文本特征表示;
21、通過所述span枚舉層對所述第二醫(yī)療文本訓練數(shù)據(jù)的文本特征表示進行span注意力特征提取,得到所述第二醫(yī)療文本訓練數(shù)據(jù)的span注意力特征表示。
22、可選地,所述對所述醫(yī)療文本訓練集中的第二醫(yī)療文本訓練數(shù)據(jù)生成實體標注,包括:
23、對所述醫(yī)療文本訓練集中的第二醫(yī)療文本訓練數(shù)據(jù)進行預處理,所述預處理包括文本清洗和格式轉(zhuǎn)換;
24、采用多頭標注的方式對預處理后的所述第二醫(yī)療文本訓練數(shù)據(jù)進行實體位置標注,以得到所述第二醫(yī)療文本訓練數(shù)據(jù)中的各個實體的位置表示。
25、可選地,所述輸出第二實體識別結(jié)果之后,所述根據(jù)所述第二實體識別結(jié)果和生成的實體標注,使用損失函數(shù)計算模型損失之前,所述方法還包括:
26、采用邊界平滑機制對所述第二實體識別結(jié)果中的各個實體進行邊界平滑操作,以調(diào)整所述第二實體識別結(jié)果;
27、所述根據(jù)所述第二實體識別結(jié)果和生成的實體標注,使用損失函數(shù)計算模型損失,包括:
28、根據(jù)調(diào)整后的所述第二實體識別結(jié)果和生成的實體標注,使用損失函數(shù)計算模型損失。
29、第二方面,本技術(shù)實施例還提供一種實體關(guān)系抽取方法,包括:
30、獲取待識別的醫(yī)療文本數(shù)據(jù);
31、將所述醫(yī)療文本數(shù)據(jù)輸入預先訓練好的命名實體識別模型進行實體識別,得到第三實體識別結(jié)果,其中,所述命名實體識別模型為第一方面所述的預先訓練好的命名實體識別模型;
32、基于預先設定的待定關(guān)系提示信息和所述第三實體識別結(jié)果,分別對所述第三實體識別結(jié)果中的每兩個實體,生成至少一條待定關(guān)系提示文本,每條所述待定關(guān)系提示文本分別對應不同的待定關(guān)系;
33、將所述第三實體識別結(jié)果中的每兩個實體的至少一條待定關(guān)系提示文本輸入預先訓練好的實體關(guān)系抽取模型進行實體關(guān)系預測,得到第二實體關(guān)系預測結(jié)果,其中,所述第二實體關(guān)系預測結(jié)果指示所述第三實體識別結(jié)果中的每兩個實體之間的至少一種關(guān)系,所述實體關(guān)系抽取模型為經(jīng)第一方面所述的方法訓練得到的。
34、第三方面,本技術(shù)實施例還提供一種電子設備,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如第一方面所述的實體關(guān)系抽取模型訓練方法中的步驟;或者實現(xiàn)如第二方面所述的實體關(guān)系抽取方法中的步驟。
35、第四方面,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的實體關(guān)系抽取模型訓練方法中的步驟;或者實現(xiàn)如第二方面所述的實體關(guān)系抽取方法中的步驟。
36、在本技術(shù)實施例中,通過利用預先訓練好的命名實體識別模型對醫(yī)療文本數(shù)據(jù)進行準確地實體識別,再采用基于提示學習的方法,利用預先訓練好的關(guān)系抽取模型對識別出的每兩個實體之間的多重可能的關(guān)系進行預測,進而能夠較為準確地抽取出醫(yī)療領(lǐng)域?qū)嶓w間的多重關(guān)系,很好地解決醫(yī)療領(lǐng)域?qū)嶓w的關(guān)系重疊問題。