本發(fā)明涉及大模型領(lǐng)域,特別公開了一種高置信度的智能直播回復(fù)方法及系統(tǒng)。
背景技術(shù):
1、數(shù)字人技術(shù)日益成熟,無人直播成為未來趨勢,怎么讓數(shù)字人和評論區(qū)直播更智能且不亂交互是大家在研究的熱點問題之一。
2、傳統(tǒng)的基于關(guān)鍵詞基于匹配算法的模型,產(chǎn)生的答案單一,在評論區(qū)呈現(xiàn)出來的則是一致的答復(fù),無法有效活躍直播間的氣氛。而基于llm的問答方式,由于不可控的輸出和外部prompt攻擊的可能性,導(dǎo)致實際應(yīng)用場景使用llm在這種直播帶貨問答不容犯錯的場景中不敢輕易使用llm。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種高置信度的智能直播回復(fù)方法及系統(tǒng),能至少部分的改善上述問題。
2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種高置信度的智能直播回復(fù)方法,其包括:
4、獲取用戶輸入的彈幕信息,并判斷所述彈幕信息是否為疑問句;
5、當(dāng)判斷所述彈幕信息為疑問句時,基于直播間id和對應(yīng)的商品id獲取當(dāng)前相應(yīng)產(chǎn)品的商品信息,并基于彈幕信息,檢索相似度更高的前k個商品信息片段,得到用于回答當(dāng)前彈幕信息的商品信息片段;
6、若未檢索到對應(yīng)的商品信息片段,則將所述彈幕信息和商品信息組裝到prompt中,并輸送到llm進(jìn)行問答;其中,llm的輸出包括答案以及答案的置信度分?jǐn)?shù);
7、當(dāng)置信度分?jǐn)?shù)低于預(yù)設(shè)閾值時,提示無法回答;否則,對生成的答案和商品信息進(jìn)行置信度校驗;
8、根據(jù)置信度校驗判斷答案是否通過,若通過,則輸出所述答案,否則提示無法回答。
9、優(yōu)選地,在判斷所述彈幕信息是否為疑問句時:
10、基于預(yù)設(shè)的疑問關(guān)鍵詞進(jìn)行判斷;和/或
11、將所述彈幕信息輸入至疑問詞判別模型進(jìn)行判斷;其中,所述疑問詞判別模型為基于開源的問句語料訓(xùn)練得到的二分類模型。
12、優(yōu)選地,還包括:
13、基于直播間互動的問答對數(shù)據(jù)構(gòu)造訓(xùn)練樣本;其中,訓(xùn)練樣本包括彈幕信息、答案以及置信度分?jǐn)?shù);對于有回答的彈幕信息的置信度分?jǐn)?shù)為1,沒有回答的彈幕信息通過檢索相關(guān)商品信息,將彈幕信息和前k個商品信息的相關(guān)度分?jǐn)?shù)的平均水平作為置信度分?jǐn)?shù)。
14、優(yōu)選地,llm選用chatglm3-6b;微調(diào)方式選用lora;訓(xùn)練樣本的數(shù)據(jù)集為1萬條。
15、優(yōu)選地,所述預(yù)設(shè)閾值為0.5。
16、優(yōu)選地,對生成的答案和商品信息進(jìn)行置信度校驗具體包括:
17、對答案中的每個token,統(tǒng)計其平均預(yù)測概率值,記為p;
18、判斷給定第j個token的置信度,當(dāng)滿足y*=argmaxjp[j]且p[j]>p,則稱該token的置信度較高,否則置信度低;其中token的預(yù)測概率位于平均概率值附近的屬于易錯誤token,區(qū)間為[-0.05~0.05];
19、當(dāng)存在1/3以上的token的置信度低于p+0.05,則當(dāng)前答案的置信度較低,答案不予以通過,提示無法回答。
20、優(yōu)選地,若答案中存在數(shù)字token,且數(shù)字token的置信度低于p+0.05,則直接答案不予以通過,無法回答。
21、本發(fā)明實施例還提供了一種高置信度的智能直播回復(fù)系統(tǒng),其包括:
22、疑問句判斷單元,用于獲取用戶輸入的彈幕信息,并判斷所述彈幕信息是否為疑問句;
23、檢索單元,用于當(dāng)判斷所述彈幕信息為疑問句時,基于直播間id和對應(yīng)的商品id獲取當(dāng)前相應(yīng)產(chǎn)品的商品信息,并基于彈幕信息,檢索相似度更高的前k個商品信息片段,得到用于回答當(dāng)前彈幕信息的商品信息片段;
24、llm問答單元,用于若未檢索到對應(yīng)的商品信息片段,則將所述彈幕信息和商品信息組裝到prompt中,并輸送到llm進(jìn)行問答;其中,llm的輸出包括答案以及答案的置信度分?jǐn)?shù);
25、置信度分?jǐn)?shù)判斷單元,用于當(dāng)置信度分?jǐn)?shù)低于預(yù)設(shè)閾值時,提示無法回答;否則,對生成的答案和商品信息進(jìn)行置信度校驗;
26、置信度校驗單元,用于根據(jù)置信度校驗判斷答案是否通過,若通過,則輸出所述答案,否則提示無法回答。
27、優(yōu)選地,在判斷所述彈幕信息是否為疑問句時:
28、基于預(yù)設(shè)的疑問關(guān)鍵詞進(jìn)行判斷;和/或
29、將所述彈幕信息輸入至疑問詞判別模型進(jìn)行判斷;其中,所述疑問詞判別模型為基于開源的問句語料訓(xùn)練得到的二分類模型。
30、優(yōu)選地,還包括:
31、訓(xùn)練單元,用于基于直播間互動的問答對數(shù)據(jù)構(gòu)造訓(xùn)練樣本;其中,訓(xùn)練樣本包括彈幕信息、答案以及置信度分?jǐn)?shù);對于有回答的彈幕信息的置信度分?jǐn)?shù)為1,沒有回答的彈幕信息通過檢索相關(guān)商品信息,將彈幕信息和前k個商品信息的相關(guān)度分?jǐn)?shù)的平均水平作為置信度分?jǐn)?shù)。
32、綜上所述,本實施例針對生成式直播問答系統(tǒng)的答案校驗做出了多重模塊的保障,包括無關(guān)問題過濾、檢索不到商品信息的問題過濾、llm輸出答案時同時輸出置信度分?jǐn)?shù)過濾,以及結(jié)合生成token的概率值做置信度估計,加強(qiáng)了對llm生成的答案的控制。
33、其中,通過微調(diào)llm結(jié)構(gòu)化了其輸出的結(jié)果,生成答案的同時生成了置信度分?jǐn)?shù),讓llm做一層自我監(jiān)控。
34、其次,通過計算生成的答案的每個token的概率值的方式來預(yù)估整個文本的置信度,且對數(shù)字類型的token做特殊的置信度估計處理,進(jìn)一步加強(qiáng)了對生成答案的控制。
1.一種高置信度的智能直播回復(fù)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的高置信度的智能直播回復(fù)方法,其特征在于,在判斷所述彈幕信息是否為疑問句時:
3.根據(jù)權(quán)利要求1所述的高置信度的智能直播回復(fù)方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求3所述的高置信度的智能直播回復(fù)方法,其特征在于,llm選用chatglm3-6b;微調(diào)方式選用lora;訓(xùn)練樣本的數(shù)據(jù)集為1萬條。
5.根據(jù)權(quán)利要求1所述的高置信度的智能直播回復(fù)方法,其特征在于,所述預(yù)設(shè)閾值為0.5。
6.根據(jù)權(quán)利要求1所述的高置信度的智能直播回復(fù)方法,其特征在于,對生成的答案和商品信息進(jìn)行置信度校驗具體包括:
7.根據(jù)權(quán)利要求6所述的高置信度的智能直播回復(fù)方法,其特征在于,若答案中存在數(shù)字token,且數(shù)字token的置信度低于p+0.05,則直接設(shè)置答案不予以通過,提示無法回答。
8.一種高置信度的智能直播回復(fù)系統(tǒng),其特征在于,包括:
9.根據(jù)權(quán)利要求8所述的高置信度的智能直播回復(fù)裝置,其特征在于,在判斷所述彈幕信息是否為疑問句時:
10.根據(jù)權(quán)利要求8所述的高置信度的智能直播回復(fù)裝置,其特征在于,還包括: