日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品與流程

文檔序號:39724692發(fā)布日期:2024-10-22 13:21閱讀:2來源:國知局
語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品與流程

本技術(shù)涉及自然語言處理,尤其涉及一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品。


背景技術(shù):

1、隨著自然語言技術(shù)的發(fā)展,語言模型的應(yīng)用越來越廣。由于不同的語言模型適用于不同的自然語言處理任務(wù),因此需要根據(jù)自然語言處理任務(wù)評估模型的性能,即評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。傳統(tǒng)方式是在根據(jù)語言模型所需執(zhí)行的自然語言處理任務(wù)對測試文本進行標(biāo)注得到測試文本的標(biāo)簽后,利用測試文本的標(biāo)簽評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。然而,標(biāo)注需要耗費較高的人力成本和時間成本,因此,如何在沒有測試文本的標(biāo)簽的情況下,評估語言模型的性能具有非常重要的意義。


技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品,其中,相關(guān)產(chǎn)品包括語言模型評測裝置、文本處理裝置、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。

2、第一方面,提供了一種語言模型評測方法,所述方法包括:

3、獲取測試文本和m個待評測語言模型,所述m大于或等于2;

4、利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,所述目標(biāo)任務(wù)為自然語言處理任務(wù),所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng),所述m個第一處理結(jié)果包括第二處理結(jié)果,所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的;

5、確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性,得到m個第一一致性,所述第一一致性與所述第一處理結(jié)果一一對應(yīng);

6、基于所述m個第一一致性,確定所述第一語言模型的第一性能,所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。

7、結(jié)合本技術(shù)任一實施方式,所述基于所述m個第一一致性,確定所述第一語言模型的第一性能,包括:

8、從所述m個第一一致性中確定參考一致性,所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性,所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的,所述第二語言模型與所述第一語言模型不同;

9、基于與所述第二語言模型的參考性能,確定所述參考一致性的權(quán)重,所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述參考性能與所述權(quán)重呈正相關(guān);

10、利用所述權(quán)重修正所述參考一致性,得到修正后的一致性;

11、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能。

12、結(jié)合本技術(shù)任一實施方式,所述基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能,包括:

13、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值,確定所述第一性能,所述第一性能與所述平均值呈正相關(guān)。

14、結(jié)合本技術(shù)任一實施方式,在所述基于所述m個第一一致性,確定所述第一語言模型的第一性能之前,所述方法還包括:

15、獲取(m-1)個第二性能,所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng);

16、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個,得到y(tǒng)個第三性能,所述x為小于所述m的整數(shù);

17、所述基于所述m個第一一致性,確定所述第一語言模型的第一性能,包括:

18、在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下,基于所述m個第一一致性,確定所述第一語言模型的第一性能。

19、結(jié)合本技術(shù)任一實施方式,在確定所述第一語言模型的第一性能之后,所述方法還包括:

20、基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。

21、結(jié)合本技術(shù)任一實施方式,所述基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型,包括:

22、基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型,作為所述目標(biāo)語言模型。

23、結(jié)合本技術(shù)任一實施方式,所述測試文本為筆記,所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。

24、結(jié)合本技術(shù)任一實施方式,所述利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,包括:

25、基于所述測試文本和所述目標(biāo)任務(wù),生成提示詞,所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù);

26、在所述提示詞的引導(dǎo)下,利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù),得到所述m個第一處理結(jié)果。

27、第二方面,提供了一種文本處理方法,所述方法包括:

28、獲取待處理文本和目標(biāo)語言模型,所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的;

29、利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù),得到目標(biāo)處理結(jié)果。

30、第三方面,提供了一種語言模型評測裝置,所述語言模型評測裝置包括:

31、獲取單元,用于獲取測試文本和m個待評測語言模型,所述m大于或等于2;

32、處理單元,用于利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,所述目標(biāo)任務(wù)為自然語言處理任務(wù),所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng),所述m個第一處理結(jié)果包括第二處理結(jié)果,所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的;

33、確定單元,用于確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性,得到m個第一一致性,所述第一一致性與所述第一處理結(jié)果一一對應(yīng);

34、所述確定單元,用于基于所述m個第一一致性,確定所述第一語言模型的第一性能,所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。

35、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于:

36、從所述m個第一一致性中確定參考一致性,所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性,所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的,所述第二語言模型與所述第一語言模型不同;

37、基于與所述第二語言模型的參考性能,確定所述參考一致性的權(quán)重,所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述參考性能與所述權(quán)重呈正相關(guān);

38、利用所述權(quán)重修正所述參考一致性,得到修正后的一致性;

39、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性,確定所述第一性能。

40、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于:

41、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值,確定所述第一性能,所述第一性能與所述平均值呈正相關(guān)。

42、結(jié)合本技術(shù)任一實施方式,所述獲取單元,還用于:

43、獲取(m-1)個第二性能,所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果,所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng);

44、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個,得到y(tǒng)個第三性能,所述x為小于所述m的整數(shù);

45、所述確定單元,具體用于在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下,基于所述m個第一一致性,確定所述第一語言模型的第一性能。

46、結(jié)合本技術(shù)任一實施方式,所述確定單元,還用于基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。

47、結(jié)合本技術(shù)任一實施方式,所述確定單元,具體用于基于所述第一性能和所述(m-1)個第二性能,從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型,作為所述目標(biāo)語言模型。

48、結(jié)合本技術(shù)任一實施方式,所述測試文本為筆記,所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。

49、結(jié)合本技術(shù)任一實施方式,所述處理單元,具體用于:

50、基于所述測試文本和所述目標(biāo)任務(wù),生成提示詞,所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù);

51、在所述提示詞的引導(dǎo)下,利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù),得到所述m個第一處理結(jié)果。

52、第四方面,提供了一種文本處理裝置,所述文本處理裝置包括:

53、獲取單元,用于獲取待處理文本和目標(biāo)語言模型,所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的;

54、處理單元,用于利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù),得到目標(biāo)處理結(jié)果。

55、第五方面,提供了一種電子設(shè)備,包括:處理器和存儲器,所述存儲器用于存儲計算機程序代碼,所述計算機程序代碼包括計算機指令,在所述處理器執(zhí)行所述計算機指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面。

56、第六方面,提供了另一種電子設(shè)備,包括:處理器、發(fā)送裝置、輸入裝置、輸出裝置和存儲器,所述存儲器用于存儲計算機程序代碼,所述計算機程序代碼包括計算機指令,在所述處理器執(zhí)行所述計算機指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面。

57、第七方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序,所述計算機程序包括程序指令,在所述程序指令被處理器執(zhí)行的情況下,使所述處理器執(zhí)行如上述第一方面及其任一實施方式,或者使所述處理器執(zhí)行如上述第二方面。

58、第八方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序或指令,在所述計算機程序或指令在計算機上運行的情況下,使得所述計算機執(zhí)行上述第一方面及其任一實施方式,或者使得所述計算機執(zhí)行上述第二方面。

59、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,而非限制本技術(shù)。

60、本技術(shù)中,評測裝置在獲取測試文本和m個待評測語言模型后,利用m個待評測語言模型對測試文本執(zhí)行目標(biāo)任務(wù),得到m個第一處理結(jié)果,其中,m個第一處理結(jié)果包括第二處理結(jié)果,第二處理結(jié)果是由m個待評測語言模型中的第一語言模型得到的。確定第二處理結(jié)果與m個第一處理結(jié)果的一致性,得到m個第一一致性。由于以m個第一處理結(jié)果為依據(jù)判斷第二處理結(jié)果的準確度,是確定第二處理結(jié)果與m個第一處理結(jié)果的一致性,因此m個第一一致性可表征第二處理結(jié)果的準確度。于是評測裝置可進一步基于m個第一一致性,確定第一語言模型的第一性能,由此可實現(xiàn)在不具有測試文本的標(biāo)簽的情況下,確定第一語言模型的第一性能。

61、由于通過標(biāo)注得到測試文本的標(biāo)簽,需要耗費人力成本和時間成本,其中,時間成本包括標(biāo)注所花費的時間以及對已標(biāo)注數(shù)據(jù)進行數(shù)據(jù)清洗所花費的時間。然而本技術(shù)實施例可在不具有測試文本的標(biāo)簽的情況下確定目標(biāo)語言模型,因此通過本技術(shù)實施例確定第一語言模型的第一性能,可降低人力成本和時間成本。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1