本公開涉及文本處理,具體涉及一種垂域主觀題評分模型的選擇方法和垂域主觀題的評分方法。
背景技術(shù):
1、為減少專家對特定垂域主觀題評價偏差對主觀題評分的影響,提高評分的公平性、準(zhǔn)確性和高效性,相關(guān)技術(shù)領(lǐng)域提出采用大語言模型對特定垂域主觀題進(jìn)行評分的方案。
2、采用大語言模型進(jìn)行垂域主觀題評分的前提是基于專家評分標(biāo)準(zhǔn)合理地評價大語言模型的優(yōu)劣,選擇評分質(zhì)量較好的大語言模型。但是,現(xiàn)有的模型選擇評價方法在進(jìn)行人工評測比對時,其評分結(jié)果與人工評測結(jié)果的相關(guān)性較低,反向選擇評價方法的不合理。
技術(shù)實(shí)現(xiàn)思路
1、為解決現(xiàn)有評分模型選擇不合理的問題,本公開實(shí)施例提供一種新的垂域主觀題評分用模型的選擇方法和垂域主觀題的評分方法。
2、第一方面,本公開實(shí)施例提供一種垂域主觀題評分用模型的選擇方法,包括:
3、構(gòu)建針對垂域主觀題的多個評分提示模板,并基于各個評分提示模板、所述垂域主觀題和針對所述垂域主觀題的答案構(gòu)建模型輸入;各個評分提示模板分別從特定提示角度提示對答案進(jìn)行評分,各個評分提示模板的提示角度均根據(jù)垂域?qū)<医?jīng)驗(yàn)確定,各個評分提示模板的提示角度不同;各個模型輸入均包括一個評分提示模板;
4、采用待選擇大語言模型處理模型輸入,得到待選擇大語言模型在各個評分提示模板下針對答案的單角度評分;
5、將待選擇大語言模型處理包括同一種評分提示模板的模型輸入得到的單角度評分進(jìn)行大小排序,確定排序順序,并基于所述排序順序確定對應(yīng)同一評分提示模板的各個單角度評分的加權(quán)權(quán)重;
6、按照所述加權(quán)權(quán)重,分別將待選擇大語言模型輸出的單角度評分進(jìn)行加權(quán)求和,得到各個待選擇大語言模型的多角度評分;
7、按照單角度評分與垂域主觀題答案質(zhì)量的相關(guān)性關(guān)系,選擇多角度評分最大或者最小的預(yù)設(shè)數(shù)量待選擇大語言模型作為垂域主觀題評分用模型。
8、可選的,所述構(gòu)建針對垂域主觀題的多個評分提示模板,包括:
9、基于專家經(jīng)驗(yàn)確定針對垂域主觀題的多個提示角度,在各個提示角度下的評分維度,以及在各個評分維度下的評分標(biāo)準(zhǔn);
10、基于所述提示角度、對應(yīng)的所述評分維度和在所述評分維度下的評分標(biāo)準(zhǔn),構(gòu)建所述多個評分提示模板。
11、可選的,所述基于專家經(jīng)驗(yàn)確定針對垂域主觀題的多個提示角度,包括:
12、基于專家經(jīng)驗(yàn)確定的所述多個提示角度包括以下角度中的至少兩種:整體性角度、準(zhǔn)確性角度和實(shí)用性角度。
13、可選的,還包括:獲取針對所述垂域主觀題的參考答案;
14、在構(gòu)建所述多個評分提示模板的過程中,還包括:將所述參考答案添加至各個評分提示模板中。
15、可選的,所述垂域主觀題的數(shù)量至少為兩個;
16、所述基于各個評分提示模板、所述垂域主觀題和針對所述垂域主觀題的答案構(gòu)建模型輸入,包括:
17、基于各個評分提示模板、各個垂域主觀題和針對各個所述垂域主觀題的答案分別構(gòu)建模型輸入;或者,基于各個評分提示模板、所有的垂域主觀題和針對各個所述垂域主觀題的答案構(gòu)建模型輸入,使得模型輸入包括所有的垂域主觀題和對應(yīng)的答案,以及所有垂域主觀題和對應(yīng)答案的關(guān)聯(lián)關(guān)系;
18、所述采用待選擇大語言模型處理模型輸入,得到待選擇大語言模型在各個評分提示模板下針對答案的單角度評分,包括:
19、采用待選擇大語言模型處理模型輸出,得到待選擇模型在各個評分提示模板下,針對各個垂域主觀題和對應(yīng)的答案的個體評分;
20、求取各個待選擇大語言模型在對應(yīng)評分提示模板下得到的所有個體評分的平均數(shù)或者和值,作為對應(yīng)的所述單角度評分。
21、可選的,所述基于所述排序順序確定對應(yīng)同一模型輸入的各個單角度評分的加權(quán)權(quán)重,包括:
22、基于所述排序順序確定對應(yīng)同一模型輸入的各個單角度評分的權(quán)重放大系數(shù)或者權(quán)重縮小系數(shù);
23、基于所述權(quán)重放大系數(shù)或者權(quán)重縮小系數(shù),以及各個所述評分提示模板的基準(zhǔn)權(quán)重,確定對應(yīng)排序順序的單角度評分的加權(quán)權(quán)重。
24、可選的,在所述基于所述排序順序確定對應(yīng)同一模型輸入的各個單角度評分的加權(quán)權(quán)重之前,包括:
25、根據(jù)專家經(jīng)驗(yàn)確定各個評分提示模板的相對重要性,并基于相對重要性構(gòu)建比較矩陣;
26、對比較矩陣進(jìn)行列歸一化處理,得到歸一化矩陣;
27、分別求取所述歸一化矩陣中對應(yīng)各個評分提示模板的矩陣元素的平均值,作為對應(yīng)的單角度評分的加權(quán)權(quán)重。
28、第二方面,本公開實(shí)施例提供一種垂域主觀題的評分方法,包括:
29、基于預(yù)先構(gòu)建的多個評分提示模板、垂域主觀題和針對所述垂域主觀題的待評分答案構(gòu)建模型輸入;各個所述各個評分提示模板分別從特定提示角度提示對答案進(jìn)行評分,各個評分提示模板的提示角度均根據(jù)垂域?qū)<医?jīng)驗(yàn)確定,各個評分提示模板的提示角度不同;
30、采用預(yù)先選定的垂域主觀題評分用模型處理各個所述模型輸入,得到對應(yīng)的單角度評分;
31、基于所述單角度評分和對應(yīng)的加權(quán)權(quán)重進(jìn)行加權(quán)求和,得到多角度評分,并將所述多角度評分作為針對所述待評分答案的評分。
32、第三方面,本公開實(shí)施例提供一種計(jì)算設(shè)備,包括處理器和存儲器,所述存儲器用于存儲計(jì)算機(jī)程序;所述計(jì)算機(jī)程序在被所述處理器加載時,使所述處理器執(zhí)行如前所述垂域主觀題評分用模型的選擇方法和/或如前所述的垂域主觀題的評分方法。
33、第四方面,本公開實(shí)施例提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序被處理器執(zhí)行時,使得處理器實(shí)現(xiàn)如前所述垂域主觀題評分用模型的選擇方法和/或如前所述的垂域主觀題的評分方法。
34、本公開實(shí)施例方案基于到垂域?qū)<以趯χ饔^題答案進(jìn)行評分時會潛意識從不同角度對答案進(jìn)行評價的角度,綜合得到評分結(jié)果的這一思想指導(dǎo),首先針對垂域主觀題設(shè)置不同評分角度的評分提示模板,采用前述評分提示模板提示待選擇大語言模型對主觀題答案進(jìn)行評分得到單角度評分,隨后基于垂域?qū)<視圆煌瑱?quán)重對不同角度評分進(jìn)行綜合處理得到評分結(jié)果的思路為引導(dǎo),根據(jù)對應(yīng)同一評分提示模板的各個單角度評分排序順序確定單角度評分的加權(quán)權(quán)重,采用前述加權(quán)權(quán)重和單角度評分進(jìn)行加權(quán)求和得到多角度評分?;谇笆鏊悸返玫降亩嘟嵌仍u分更符合垂域?qū)<覍χ饔^題的評分策略,相應(yīng)的得到的各個待選擇大語言模型的多角度評分具有更好的橫向比較價值,相應(yīng)確定的垂域主觀題評分用模型與真實(shí)專家的評價經(jīng)驗(yàn)更為一致。
35、采用本公開實(shí)施例方案選擇確定的垂域主觀題評分用模型更符合真實(shí)專家經(jīng)驗(yàn),將其作為真實(shí)應(yīng)用模型更為合理。
1.一種垂域主觀題評分用模型的選擇方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的選擇方法,其特征在于,所述構(gòu)建針對垂域主觀題的多個評分提示模板,包括:
3.根據(jù)權(quán)利要求2所述的選擇方法,其特征在于,所述基于專家經(jīng)驗(yàn)確定針對垂域主觀題的多個提示角度,包括:
4.根據(jù)權(quán)利與要求2所述的選擇方法,其特征在于,還包括:獲取針對所述垂域主觀題的參考答案;
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的選擇方法,其特征在于,所述垂域主觀題的數(shù)量至少為兩個;
6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的選擇方法,其特征在于,所述基于所述排序順序確定對應(yīng)同一模型輸入的各個單角度評分的加權(quán)權(quán)重,包括:
7.根據(jù)權(quán)利要求6所述的選擇方法,其特征在于,在所述基于所述排序順序確定對應(yīng)同一模型輸入的各個單角度評分的加權(quán)權(quán)重之前,包括:
8.一種垂域主觀題的評分方法,其特征在于,包括:
9.一種計(jì)算設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器用于存儲計(jì)算機(jī)程序;所述計(jì)算機(jī)程序在被所述處理器加載時,使所述處理器執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述垂域主觀題評分用模型的選擇方法和/或如權(quán)利要求8所述的垂域主觀題的評分方法。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序被處理器執(zhí)行時,使得處理器實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述垂域主觀題評分用模型的選擇方法和/或如權(quán)利要求8所述的垂域主觀題的評分方法。