本申請(qǐng)涉及人工智能,尤其涉及一種大語言模型的訓(xùn)練方法、問答方法、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、檢索增強(qiáng)生成(retrieval-augmented?generation,rag)技術(shù)是大語言模型的一種非常廣泛的應(yīng)用方案,通過檢索召回相關(guān)的資料,然后按照預(yù)設(shè)的指令進(jìn)行拼裝,輸入給大語言模型進(jìn)行理解,最終回答用戶的問題,常用于各種知識(shí)問答助手。相比于大語言模型直接回答,rag方式的回答利用了搜索的知識(shí),可以保證知識(shí)的時(shí)效性,并且減少了大語言模型自我編造導(dǎo)致結(jié)果不準(zhǔn)確的問題。
2、相關(guān)技術(shù)中的rag方案是將收集到的文檔按照特定分塊方式拆分成多個(gè)文本塊(chunk),并存入向量庫(kù)、搜索引擎庫(kù)(例如,elasticsearch庫(kù))等數(shù)據(jù)庫(kù)中,當(dāng)獲取到用戶提出的問題之后,通過多個(gè)庫(kù)的并行查詢分別檢索到最相關(guān)的若干個(gè)文本塊,調(diào)用排序模型對(duì)多路召回的文本塊進(jìn)行排序,將排序靠前的文本塊輸入大語言模型中,基于大語言模型的推理得到問題的答案。然而,由于輸入大語言模型的文本序列長(zhǎng)度是有限制的,導(dǎo)致需要長(zhǎng)文檔的總結(jié)或者需要多文檔進(jìn)行對(duì)比總結(jié)才能回答的問題推理效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種大語言模型的訓(xùn)練方法、問答方法、設(shè)備、介質(zhì)及產(chǎn)品,以實(shí)現(xiàn)擴(kuò)充輸入大語言模型的最大文本序列長(zhǎng)度,提升大語言模型在長(zhǎng)文本依賴和多文檔對(duì)比依賴的問題上的回答完整性和準(zhǔn)確性。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種大語言模型的訓(xùn)練方法,包括:獲取長(zhǎng)文本訓(xùn)練數(shù)據(jù),長(zhǎng)文本訓(xùn)練數(shù)據(jù)的序列長(zhǎng)度大于預(yù)訓(xùn)練的大語言模型的輸入文本序列的最大長(zhǎng)度;增大預(yù)訓(xùn)練的大語言模型的旋轉(zhuǎn)位置編碼的旋轉(zhuǎn)角底數(shù),得到修改后的預(yù)訓(xùn)練的大語言模型;利用長(zhǎng)文本訓(xùn)練數(shù)據(jù),對(duì)修改后的預(yù)訓(xùn)練的大語言模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的大語言模型。
3、第二方面,本申請(qǐng)實(shí)施例提供了一種基于大語言模型的問答方法,包括:獲取問題信息和任務(wù)指令,查詢與問題信息相關(guān)的多個(gè)文本塊;將問題信息、任務(wù)指令和多個(gè)文本塊進(jìn)行拼接,得到拼接文本;拼接文本的序列長(zhǎng)度大于預(yù)訓(xùn)練的大語言模型的輸入文本序列的最大長(zhǎng)度;將拼接文本輸入訓(xùn)練完成的大語言模型,得到訓(xùn)練完成的大語言模型輸出的回復(fù)信息;其中,訓(xùn)練完成的大語言模型是利用本申請(qǐng)實(shí)施例中的訓(xùn)練方法訓(xùn)練得到的。
4、第三方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,處理器在執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)的方法。
5、第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)的方法。
6、第五方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)的方法。
7、與現(xiàn)有技術(shù)相比,本申請(qǐng)具有如下優(yōu)點(diǎn):
8、本申請(qǐng)?zhí)峁┝艘环N大語言模型的訓(xùn)練方法、問答方法、設(shè)備、介質(zhì)及產(chǎn)品,獲取長(zhǎng)文本訓(xùn)練數(shù)據(jù),長(zhǎng)文本訓(xùn)練數(shù)據(jù)的序列長(zhǎng)度大于預(yù)訓(xùn)練的大語言模型的輸入文本序列的最大長(zhǎng)度;增大預(yù)訓(xùn)練的大語言模型的旋轉(zhuǎn)位置編碼的旋轉(zhuǎn)角底數(shù),得到修改后的預(yù)訓(xùn)練的大語言模型;利用長(zhǎng)文本訓(xùn)練數(shù)據(jù),對(duì)修改后的預(yù)訓(xùn)練的大語言模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的大語言模型。本實(shí)施例中,通過獲取長(zhǎng)文本訓(xùn)練數(shù)據(jù)以及增大旋轉(zhuǎn)位置編碼的旋轉(zhuǎn)角底數(shù),對(duì)預(yù)訓(xùn)練的大語言模型進(jìn)行訓(xùn)練,由于旋轉(zhuǎn)位置編碼通過數(shù)學(xué)變換來生成位置編碼向量,增大旋轉(zhuǎn)位置編碼的旋轉(zhuǎn)角底數(shù),可以改變數(shù)學(xué)變換的方式,進(jìn)而影響位置編碼向量的生成,使得訓(xùn)練完成的大語言模型在處理更長(zhǎng)的序列時(shí),仍然能夠有效地捕獲到位置信息,從而允許大語言模型處理更長(zhǎng)的輸入文本序列,實(shí)現(xiàn)了輸入文本序列的長(zhǎng)度擴(kuò)增,提升大語言模型在長(zhǎng)文本依賴和多文檔對(duì)比依賴的問題上的回答完整性和準(zhǔn)確性。
9、上述說明僅是本申請(qǐng)技術(shù)方案的概述,為了能夠更清楚了解本申請(qǐng)的技術(shù)手段,可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請(qǐng)的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請(qǐng)的具體實(shí)施方式。
1.一種大語言模型的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.一種基于大語言模型的問答方法,其特征在于,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述問題信息、所述任務(wù)指令和所述多個(gè)文本塊進(jìn)行拼接,得到拼接文本,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述多個(gè)文本塊按照與所述問題信息的相關(guān)性得分進(jìn)行排序,將排序后的多個(gè)文本塊添加到所述任務(wù)指令和所述問題信息之間,得到拼接文本,包括:
7.根據(jù)權(quán)利要求4-6任一項(xiàng)所述的方法,其特征在于,在將所述問題信息、所述任務(wù)指令和所述多個(gè)文本塊進(jìn)行拼接,得到拼接文本之后,所述方法還包括:
8.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,所述處理器在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。