本技術(shù)涉及自然語言處理,尤其涉及一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品。
背景技術(shù):
1、隨著自然語言技術(shù)的發(fā)展,語言模型的應(yīng)用越來越廣。由于不同的語言模型適用于不同的自然語言處理任務(wù),因此需要根據(jù)自然語言處理任務(wù)評估模型的性能,即評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。傳統(tǒng)方式是在根據(jù)語言模型所需執(zhí)行的自然語言處理任務(wù)對測試文本進行標(biāo)注得到測試文本的標(biāo)簽后,利用測試文本的標(biāo)簽評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。然而,標(biāo)注需要耗費較高的人力成本和時間成本,因此,如何在沒有測試文本的標(biāo)簽的情況下,評估語言模型的性能具有非常重要的意義。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品,其中,相關(guān)產(chǎn)品包括語言模型評測裝置、文本處理裝置、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。
2、第一方面,提供了一種語言模型評測方法,所述方法包括:
3、獲取測試文本和m個待評測語言模型,所述m大于或等于2;
4、利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,所述目標(biāo)任務(wù)為自然語言處理任務(wù),所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng),所述m個第一處理結(jié)果包括第二處理結(jié)果,所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的;
5、確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性,得到m個第一一致性,所述第一一致性與所述第一處理結(jié)果一一對應(yīng);
6、基于所述m個第一一致性,確定所述第一語言模型的第一性能,所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。
7、結(jié)合本技術(shù)任一實施方式,所述基于所述m個第一一致性,確定所述第一語言模型的第一性能,包括:
8、從所述m個第一一致性中確定參考一致性,所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性,所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的,所述第二語言模型與所述第一語言模型不同;
9、基于與所述第二語言模型的參考性能,確定所述參考一致性的權(quán)重,所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述參考性能與所述權(quán)重呈正相關(guān);
10、利用所述權(quán)重修正所述參考一致性,得到修正后的一致性;
11、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能。
12、結(jié)合本技術(shù)任一實施方式,所述基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能,包括:
13、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值,確定所述第一性能,所述第一性能與所述平均值呈正相關(guān)。
14、結(jié)合本技術(shù)任一實施方式,在所述基于所述m個第一一致性,確定所述第一語言模型的第一性能之前,所述方法還包括:
15、獲取(m-1)個第二性能,所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng);
16、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個,得到y(tǒng)個第三性能,所述x為小于所述m的整數(shù);
17、所述基于所述m個第一一致性,確定所述第一語言模型的第一性能,包括:
18、在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下,基于所述m個第一一致性,確定所述第一語言模型的第一性能。
19、結(jié)合本技術(shù)任一實施方式,在確定所述第一語言模型的第一性能之后,所述方法還包括:
20、基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。
21、結(jié)合本技術(shù)任一實施方式,所述基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型,包括:
22、基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型,作為所述目標(biāo)語言模型。
23、結(jié)合本技術(shù)任一實施方式,所述測試文本為筆記,所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。
24、結(jié)合本技術(shù)任一實施方式,所述利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,包括:
25、基于所述測試文本和所述目標(biāo)任務(wù),生成提示詞,所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù);
26、在所述提示詞的引導(dǎo)下,利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù),得到所述m個第一處理結(jié)果。
27、第二方面,提供了一種文本處理方法,所述方法包括:
28、獲取待處理文本和目標(biāo)語言模型,所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的;
29、利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù),得到目標(biāo)處理結(jié)果。
30、第三方面,提供了一種語言模型評測裝置,所述語言模型評測裝置包括:
31、獲取單元,用于獲取測試文本和m個待評測語言模型,所述m大于或等于2;
32、處理單元,用于利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,所述目標(biāo)任務(wù)為自然語言處理任務(wù),所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng),所述m個第一處理結(jié)果包括第二處理結(jié)果,所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的;
33、確定單元,用于確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性,得到m個第一一致性,所述第一一致性與所述第一處理結(jié)果一一對應(yīng);
34、所述確定單元,用于基于所述m個第一一致性,確定所述第一語言模型的第一性能,所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。
35、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于:
36、從所述m個第一一致性中確定參考一致性,所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性,所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的,所述第二語言模型與所述第一語言模型不同;
37、基于與所述第二語言模型的參考性能,確定所述參考一致性的權(quán)重,所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述參考性能與所述權(quán)重呈正相關(guān);
38、利用所述權(quán)重修正所述參考一致性,得到修正后的一致性;
39、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能。
40、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于:
41、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值,確定所述第一性能,所述第一性能與所述平均值呈正相關(guān)。
42、結(jié)合本技術(shù)任一實施方式,所述獲取單元,還用于:
43、獲取(m-1)個第二性能,所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng);
44、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個,得到y(tǒng)個第三性能,所述x為小于所述m的整數(shù);
45、所述確定單元,具體用于在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下,基于所述m個第一一致性,確定所述第一語言模型的第一性能。
46、結(jié)合本技術(shù)任一實施方式,所述確定單元,還用于基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。
47、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型,作為所述目標(biāo)語言模型。
48、結(jié)合本技術(shù)任一實施方式,所述測試文本為筆記,所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。
49、結(jié)合本技術(shù)任一實施方式,所述處理單元,具體用于:
50、基于所述測試文本和所述目標(biāo)任務(wù),生成提示詞,所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù);
51、在所述提示詞的引導(dǎo)下,利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù),得到所述m個第一處理結(jié)果。
52、第四方面,提供了一種文本處理裝置,所述文本處理裝置包括:
53、獲取單元,用于獲取待處理文本和目標(biāo)語言模型,所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的;
54、處理單元,用于利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù),得到目標(biāo)處理結(jié)果。
55、第五方面,提供了一種電子設(shè)備,包括:處理器和存儲器,所述存儲器用于存儲計算機程序代碼,所述計算機程序代碼包括計算機指令,在所述處理器執(zhí)行所述計算機指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面。
56、第六方面,提供了另一種電子設(shè)備,包括:處理器、發(fā)送裝置、輸入裝置、輸出裝置和存儲器,所述存儲器用于存儲計算機程序代碼,所述計算機程序代碼包括計算機指令,在所述處理器執(zhí)行所述計算機指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面。
57、第七方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序,所述計算機程序包括程序指令,在所述程序指令被處理器執(zhí)行的情況下,使所述處理器執(zhí)行如上述第一方面及其任一實施方式,或者使所述處理器執(zhí)行如上述第二方面。
58、第八方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序或指令,在所述計算機程序或指令在計算機上運行的情況下,使得所述計算機執(zhí)行上述第一方面及其任一實施方式,或者使得所述計算機執(zhí)行上述第二方面。
59、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,而非限制本技術(shù)。
60、本技術(shù)中,評測裝置在獲取測試文本和m個待評測語言模型后,利用m個待評測語言模型對測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,其中,m個第一處理結(jié)果包括第二處理結(jié)果,第二處理結(jié)果是由m個待評測語言模型中的第一語言模型得到的。確定第二處理結(jié)果與m個第一處理結(jié)果的一致性,得到m個第一一致性。由于以m個第一處理結(jié)果為依據(jù)判斷第二處理結(jié)果的準確度,是確定第二處理結(jié)果與m個第一處理結(jié)果的一致性,因此m個第一一致性可表征第二處理結(jié)果的準確度。于是評測裝置可進一步基于m個第一一致性,確定第一語言模型的第一性能,由此可實現(xiàn)在不具有測試文本的標(biāo)簽的情況下,確定第一語言模型的第一性能。
61、由于通過標(biāo)注得到測試文本的標(biāo)簽,需要耗費人力成本和時間成本,其中,時間成本包括標(biāo)注所花費的時間以及對已標(biāo)注數(shù)據(jù)進行數(shù)據(jù)清洗所花費的時間。然而本技術(shù)實施例可在不具有測試文本的標(biāo)簽的情況下確定目標(biāo)語言模型,因此通過本技術(shù)實施例確定第一語言模型的第一性能,可降低人力成本和時間成本。