語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品與流程

文檔序號：39724692發(fā)布日期：2024-10-22 13:21閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及自然語言處理，尤其涉及一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品。

背景技術(shù)：

1、隨著自然語言技術(shù)的發(fā)展，語言模型的應(yīng)用越來越廣。由于不同的語言模型適用于不同的自然語言處理任務(wù)，因此需要根據(jù)自然語言處理任務(wù)評估模型的性能，即評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。傳統(tǒng)方式是在根據(jù)語言模型所需執(zhí)行的自然語言處理任務(wù)對測試文本進行標(biāo)注得到測試文本的標(biāo)簽后，利用測試文本的標(biāo)簽評估語言模型對測試文本執(zhí)行自然語言處理任務(wù)的效果。然而，標(biāo)注需要耗費較高的人力成本和時間成本，因此，如何在沒有測試文本的標(biāo)簽的情況下，評估語言模型的性能具有非常重要的意義。

技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品，其中，相關(guān)產(chǎn)品包括語言模型評測裝置、文本處理裝置、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。

2、第一方面，提供了一種語言模型評測方法，所述方法包括：

3、獲取測試文本和m個待評測語言模型，所述m大于或等于2；

4、利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù)，得到m個第一處理結(jié)果，所述目標(biāo)任務(wù)為自然語言處理任務(wù)，所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng)，所述m個第一處理結(jié)果包括第二處理結(jié)果，所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的；

5、確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性，得到m個第一一致性，所述第一一致性與所述第一處理結(jié)果一一對應(yīng)；

6、基于所述m個第一一致性，確定所述第一語言模型的第一性能，所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。

7、結(jié)合本技術(shù)任一實施方式，所述基于所述m個第一一致性，確定所述第一語言模型的第一性能，包括：

8、從所述m個第一一致性中確定參考一致性，所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性，所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的，所述第二語言模型與所述第一語言模型不同；

9、基于與所述第二語言模型的參考性能，確定所述參考一致性的權(quán)重，所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果，所述參考性能與所述權(quán)重呈正相關(guān)；

10、利用所述權(quán)重修正所述參考一致性，得到修正后的一致性；

11、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性，確定所述第一性能。

12、結(jié)合本技術(shù)任一實施方式，所述基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性，確定所述第一性能，包括：

13、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值，確定所述第一性能，所述第一性能與所述平均值呈正相關(guān)。

14、結(jié)合本技術(shù)任一實施方式，在所述基于所述m個第一一致性，確定所述第一語言模型的第一性能之前，所述方法還包括：

15、獲取(m-1)個第二性能，所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果，所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng)；

16、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個，得到y(tǒng)個第三性能，所述x為小于所述m的整數(shù)；

17、所述基于所述m個第一一致性，確定所述第一語言模型的第一性能，包括：

18、在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下，基于所述m個第一一致性，確定所述第一語言模型的第一性能。

19、結(jié)合本技術(shù)任一實施方式，在確定所述第一語言模型的第一性能之后，所述方法還包括：

20、基于所述第一性能和所述(m-1)個第二性能，從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。

21、結(jié)合本技術(shù)任一實施方式，所述基于所述第一性能和所述(m-1)個第二性能，從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型，包括：

22、基于所述第一性能和所述(m-1)個第二性能，從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型，作為所述目標(biāo)語言模型。

23、結(jié)合本技術(shù)任一實施方式，所述測試文本為筆記，所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。

24、結(jié)合本技術(shù)任一實施方式，所述利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù)，得到m個第一處理結(jié)果，包括：

25、基于所述測試文本和所述目標(biāo)任務(wù)，生成提示詞，所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù)；

26、在所述提示詞的引導(dǎo)下，利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù)，得到所述m個第一處理結(jié)果。

27、第二方面，提供了一種文本處理方法，所述方法包括：

28、獲取待處理文本和目標(biāo)語言模型，所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的；

29、利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù)，得到目標(biāo)處理結(jié)果。

30、第三方面，提供了一種語言模型評測裝置，所述語言模型評測裝置包括：

31、獲取單元，用于獲取測試文本和m個待評測語言模型，所述m大于或等于2；

32、處理單元，用于利用所述m個待評測語言模型對所述測試文本執(zhí)行目標(biāo)任務(wù)，得到m個第一處理結(jié)果，所述目標(biāo)任務(wù)為自然語言處理任務(wù)，所述第一處理結(jié)果與所述待評測語言模型一一對應(yīng)，所述m個第一處理結(jié)果包括第二處理結(jié)果，所述第二處理結(jié)果是由所述m個待評測語言模型中的第一語言模型得到的；

33、確定單元，用于確定所述第二處理結(jié)果與所述m個第一處理結(jié)果的一致性，得到m個第一一致性，所述第一一致性與所述第一處理結(jié)果一一對應(yīng)；

34、所述確定單元，用于基于所述m個第一一致性，確定所述第一語言模型的第一性能，所述第一性能表征所述第一語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果。

35、結(jié)合本技術(shù)任一實施方式，所述確定單元，具體用于：

36、從所述m個第一一致性中確定參考一致性，所述參考一致性為所述第二處理結(jié)果與所述m個第一處理結(jié)果中的第三處理結(jié)果的一致性，所述第三處理結(jié)果是由所述m個待評測語言模型中的第二語言模型得到的，所述第二語言模型與所述第一語言模型不同；

37、基于與所述第二語言模型的參考性能，確定所述參考一致性的權(quán)重，所述參考性能表征所述第二語言模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果，所述參考性能與所述權(quán)重呈正相關(guān)；

38、利用所述權(quán)重修正所述參考一致性，得到修正后的一致性；

39、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性，確定所述第一性能。

40、結(jié)合本技術(shù)任一實施方式，所述確定單元，具體用于：

41、基于所述修正后的一致性和所述m個第一一致性中除所述參考一致性之外的一致性的平均值，確定所述第一性能，所述第一性能與所述平均值呈正相關(guān)。

42、結(jié)合本技術(shù)任一實施方式，所述獲取單元，還用于：

43、獲取(m-1)個第二性能，所述第二性能表征所述m個待評測語言模型中除所述第一語言模型之外的模型對文本執(zhí)行所述目標(biāo)任務(wù)的效果，所述第二性能與所述m個待評測語言模型中除所述第一語言模型之外的模型一一對應(yīng)；

44、剔除所述第一性能和所述(m-1)個第二性能中性能最弱的x個，得到y(tǒng)個第三性能，所述x為小于所述m的整數(shù)；

45、所述確定單元，具體用于在所述y個第三性能的平均值小于所述第一性能和所述(m-1)個第二性能的平均值的情況下，基于所述m個第一一致性，確定所述第一語言模型的第一性能。

46、結(jié)合本技術(shù)任一實施方式，所述確定單元，還用于基于所述第一性能和所述(m-1)個第二性能，從所述m個待評測語言模型中確定用于對文本執(zhí)行所述目標(biāo)任務(wù)的目標(biāo)語言模型。

47、結(jié)合本技術(shù)任一實施方式，所述確定單元，具體用于基于所述第一性能和所述(m-1)個第二性能，從所述m個待評測語言模型中確定對文本執(zhí)行所述目標(biāo)任務(wù)的效果最佳的模型，作為所述目標(biāo)語言模型。

48、結(jié)合本技術(shù)任一實施方式，所述測試文本為筆記，所述目標(biāo)任務(wù)包括預(yù)測所述筆記的內(nèi)容的質(zhì)量。

49、結(jié)合本技術(shù)任一實施方式，所述處理單元，具體用于：

50、基于所述測試文本和所述目標(biāo)任務(wù)，生成提示詞，所述提示詞用于引導(dǎo)語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù)；

51、在所述提示詞的引導(dǎo)下，利用所述m個待評測語言模型對所述測試文本執(zhí)行所述目標(biāo)任務(wù)，得到所述m個第一處理結(jié)果。

52、第四方面，提供了一種文本處理裝置，所述文本處理裝置包括：

53、獲取單元，用于獲取待處理文本和目標(biāo)語言模型，所述目標(biāo)語言模型是根據(jù)第一方面中的實施方式得到的；

54、處理單元，用于利用所述目標(biāo)語言模型對所述待處理文本執(zhí)行目標(biāo)任務(wù)，得到目標(biāo)處理結(jié)果。

55、第五方面，提供了一種電子設(shè)備，包括：處理器和存儲器，所述存儲器用于存儲計算機程序代碼，所述計算機程序代碼包括計算機指令，在所述處理器執(zhí)行所述計算機指令的情況下，所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式，所述電子設(shè)備或者執(zhí)行如上述第二方面。

56、第六方面，提供了另一種電子設(shè)備，包括：處理器、發(fā)送裝置、輸入裝置、輸出裝置和存儲器，所述存儲器用于存儲計算機程序代碼，所述計算機程序代碼包括計算機指令，在所述處理器執(zhí)行所述計算機指令的情況下，所述電子設(shè)備執(zhí)行如上述第一方面及其任一實施方式，所述電子設(shè)備或者執(zhí)行如上述第二方面。

57、第七方面，提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)中存儲有計算機程序，所述計算機程序包括程序指令，在所述程序指令被處理器執(zhí)行的情況下，使所述處理器執(zhí)行如上述第一方面及其任一實施方式，或者使所述處理器執(zhí)行如上述第二方面。

58、第八方面，提供了一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括計算機程序或指令，在所述計算機程序或指令在計算機上運行的情況下，使得所述計算機執(zhí)行上述第一方面及其任一實施方式，或者使得所述計算機執(zhí)行上述第二方面。

59、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的，而非限制本技術(shù)。

60、本技術(shù)中，評測裝置在獲取測試文本和m個待評測語言模型后，利用m個待評測語言模型對測試文本執(zhí)行目標(biāo)任務(wù)，得到m個第一處理結(jié)果，其中，m個第一處理結(jié)果包括第二處理結(jié)果，第二處理結(jié)果是由m個待評測語言模型中的第一語言模型得到的。確定第二處理結(jié)果與m個第一處理結(jié)果的一致性，得到m個第一一致性。由于以m個第一處理結(jié)果為依據(jù)判斷第二處理結(jié)果的準確度，是確定第二處理結(jié)果與m個第一處理結(jié)果的一致性，因此m個第一一致性可表征第二處理結(jié)果的準確度。于是評測裝置可進一步基于m個第一一致性，確定第一語言模型的第一性能，由此可實現(xiàn)在不具有測試文本的標(biāo)簽的情況下，確定第一語言模型的第一性能。

61、由于通過標(biāo)注得到測試文本的標(biāo)簽，需要耗費人力成本和時間成本，其中，時間成本包括標(biāo)注所花費的時間以及對已標(biāo)注數(shù)據(jù)進行數(shù)據(jù)清洗所花費的時間。然而本技術(shù)實施例可在不具有測試文本的標(biāo)簽的情況下確定目標(biāo)語言模型，因此通過本技術(shù)實施例確定第一語言模型的第一性能，可降低人力成本和時間成本。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：袁沛文,馮少雄,李易為,王星霖,潘博遠,王鶴達,胡堯
技術(shù)所有人：書行科技（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語言模型評測方法、文本處理方法及相關(guān)產(chǎn)品與流程