本技術(shù)涉及大數(shù)據(jù),特別是涉及一種結(jié)構(gòu)化查詢代碼語句的生成方法、裝置、計算機(jī)設(shè)備、存儲介質(zhì)和計算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)的蓬勃發(fā)展,利用大語言模型進(jìn)行數(shù)據(jù)檢索的技術(shù)得到了廣泛應(yīng)用。這項技術(shù)的核心思想是接收用戶提出的問題,經(jīng)過大語言模型的處理將其轉(zhuǎn)化為結(jié)構(gòu)化查詢語句(sql)。
2、傳統(tǒng)的方法通常是使用大語言模型和基于lora(low-rank?adaptation)的微調(diào)手段,使模型具備直接從文本生成sql的能力。然而,采用這種方式,在處理數(shù)據(jù)庫表數(shù)量龐大或關(guān)聯(lián)關(guān)系復(fù)雜的情況下,難以有效實現(xiàn)跨表聯(lián)合查詢,導(dǎo)致sql語句的預(yù)測效果不佳,無法滿足實際業(yè)務(wù)需求。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠結(jié)構(gòu)化查詢代碼語句的生成方法、裝置、計算機(jī)設(shè)備、計算機(jī)可讀存儲介質(zhì)和計算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種結(jié)構(gòu)化查詢代碼語句的生成方法。所述方法包括:
3、接收數(shù)據(jù)交互請求;其中,所述數(shù)據(jù)交互請求包括對目標(biāo)數(shù)據(jù)的交互操作對應(yīng)的文本數(shù)據(jù);
4、將所述文本數(shù)據(jù)輸入到預(yù)設(shè)的大語言模型中,得到所述數(shù)據(jù)交互請求對應(yīng)的標(biāo)準(zhǔn)格式文本語句;其中,所述標(biāo)準(zhǔn)格式文本語句的數(shù)據(jù)格式包括下述中的至少一種:標(biāo)識鍵、與標(biāo)識鍵相對應(yīng)的數(shù)據(jù)、篩選條件標(biāo)識以及數(shù)據(jù)統(tǒng)計標(biāo)識;
5、利用所述標(biāo)準(zhǔn)格式文本語句,生成所述數(shù)據(jù)交互請求的結(jié)構(gòu)化查詢代碼語句。
6、在其中一個實施例中,所述將所述文本數(shù)據(jù)輸入到預(yù)設(shè)的大語言模型中,得到所述數(shù)據(jù)交互請求對應(yīng)的標(biāo)準(zhǔn)格式文本語句,包括:
7、建立初始文本語句,將所述數(shù)據(jù)交互請求輸入到預(yù)設(shè)的大語言模型中,得到所述初始文本語句的候選特征信息以及對應(yīng)的生成系數(shù),并判斷所述生成系數(shù)是否滿足預(yù)設(shè)的條件;其中,所述特征信息包括標(biāo)注格式語句的數(shù)據(jù)格式對應(yīng)的數(shù)據(jù);
8、在生成系數(shù)滿足預(yù)設(shè)的條件的情況下,選取目標(biāo)特征信息,將所述目標(biāo)特征信息合并到所述初始文本語句中,并利用所述大語言模型和所述初始文本語句,對所述數(shù)據(jù)交互請求進(jìn)行預(yù)測,生成所述初始文本語句的下一候選特征信息以及對應(yīng)的生成系數(shù),并判斷所述生成系數(shù)是否滿足預(yù)設(shè)的條件;
9、在所述生成系數(shù)不滿足預(yù)設(shè)的條件的情況下,將所述初始文本語句確定為標(biāo)準(zhǔn)格式文本語句。
10、在其中一個實施例中,所述利用所述大語言模型和所述初始文本語句,對所述數(shù)據(jù)交互請求進(jìn)行預(yù)測,生成所述初始文本語句的下一候選特征信息以及對應(yīng)的生成系數(shù),包括:
11、將所述數(shù)據(jù)交互請求輸入到預(yù)設(shè)的大語言模型中,得到所述數(shù)據(jù)交互請求的第一候選特征以及對應(yīng)的第一子生成系數(shù);
12、利用預(yù)設(shè)的生成策略對所述初始文本語句進(jìn)行分析,生成數(shù)據(jù)交互請求對應(yīng)的第一候選特征的第二子生成系數(shù);其中,所述生成策略包括特征信息之間的關(guān)聯(lián)關(guān)系;
13、利用所述第一子生成系數(shù)和所述第二子生成系數(shù),得到所述數(shù)據(jù)交互請求的下一候選特征以及對應(yīng)的生成系數(shù)。
14、在其中一個實施例中,所述利用預(yù)設(shè)的生成策略對所述初始文本語句進(jìn)行分析,生成數(shù)據(jù)交互請求對應(yīng)的第一候選特征的第二子生成系數(shù),包括:
15、利用預(yù)設(shè)的生成策略對所述初始文本語句進(jìn)行分析,生成第二候選特征;
16、將存在于所述第二候選特征的第一候選特征的第二子生成系數(shù)確定為第一系數(shù);
17、將不存在于所述第二候選特征的第一候選特征的第二子生成系數(shù)確定為第二系數(shù)。
18、在其中一個實施例中,所述利用所述標(biāo)準(zhǔn)格式文本語句,生成所述數(shù)據(jù)交互請求的結(jié)構(gòu)化查詢代碼語句,包括:
19、利用預(yù)設(shè)的映射關(guān)系集合,對所述標(biāo)準(zhǔn)格式文本語句進(jìn)行匹配,得到所述結(jié)構(gòu)化查詢代碼語句的數(shù)據(jù)庫標(biāo)識;其中,所述映射關(guān)系集合包括所述數(shù)據(jù)格式對應(yīng)的數(shù)據(jù)與所述數(shù)據(jù)庫標(biāo)識的關(guān)聯(lián)關(guān)系;
20、利用所述數(shù)據(jù)庫標(biāo)識和所述標(biāo)準(zhǔn)格式文本語句,生成所述數(shù)據(jù)交互請求的結(jié)構(gòu)化查詢代碼語句。
21、在其中一個實施例中,所述大語言模型的訓(xùn)練方式,包括:
22、獲取樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括數(shù)據(jù)交互請求樣本和對應(yīng)的標(biāo)準(zhǔn)格式文本語句樣本;
23、將所述數(shù)據(jù)交互請求樣本輸入到預(yù)設(shè)的大語言模型中,預(yù)測得到數(shù)據(jù)交互請求樣本對應(yīng)的預(yù)測文本語句;
24、基于所述數(shù)據(jù)交互請求樣本對應(yīng)的預(yù)測文本語句與所述標(biāo)準(zhǔn)格式文本語句樣本之間的差異,對所述大語言模型的參數(shù)進(jìn)行調(diào)整,得到目標(biāo)大語言模型。
25、第二方面,本技術(shù)還提供了一種結(jié)構(gòu)化查詢代碼語句的生成裝置。所述裝置包括:
26、請求接收模塊,用于接收數(shù)據(jù)交互請求;其中,所述數(shù)據(jù)交互請求包括對目標(biāo)數(shù)據(jù)的交互操作對應(yīng)的文本數(shù)據(jù);
27、模型預(yù)測模塊,用于將所述文本數(shù)據(jù)輸入到預(yù)設(shè)的大語言模型中,得到所述數(shù)據(jù)交互請求對應(yīng)的標(biāo)準(zhǔn)格式文本語句;其中,所述標(biāo)準(zhǔn)格式文本語句的數(shù)據(jù)格式包括下述中的至少一種:標(biāo)識鍵、與標(biāo)識鍵相對應(yīng)的數(shù)據(jù)、篩選條件標(biāo)識以及數(shù)據(jù)統(tǒng)計標(biāo)識;
28、目標(biāo)生成模塊,用于利用所述標(biāo)準(zhǔn)格式文本語句,生成所述數(shù)據(jù)交互請求的結(jié)構(gòu)化查詢代碼語句。
29、在其中一個實施例中,所述模型預(yù)測模塊,包括:
30、模型預(yù)測子模塊,用于建立初始文本語句,將所述數(shù)據(jù)交互請求輸入到預(yù)設(shè)的大語言模型中,得到所述初始文本語句的候選特征信息以及對應(yīng)的生成系數(shù),并判斷所述生成系數(shù)是否滿足預(yù)設(shè)的條件;其中,所述特征信息包括標(biāo)注格式語句的數(shù)據(jù)格式對應(yīng)的數(shù)據(jù);
31、標(biāo)準(zhǔn)格式文本語句生成子模塊,用于在生成系數(shù)滿足預(yù)設(shè)的條件的情況下,選取目標(biāo)特征信息,將所述目標(biāo)特征信息合并到所述初始文本語句中,并利用所述大語言模型和所述初始文本語句,對所述數(shù)據(jù)交互請求進(jìn)行預(yù)測,生成所述初始文本語句的下一候選特征信息以及對應(yīng)的生成系數(shù),并判斷所述生成系數(shù)是否滿足預(yù)設(shè)的條件;
32、所述標(biāo)準(zhǔn)格式文本語句生成子模塊,還用于在所述生成系數(shù)不滿足預(yù)設(shè)的條件的情況下,將所述初始文本語句確定為標(biāo)準(zhǔn)格式文本語句。
33、在其中一個實施例中,所述模型預(yù)測子模塊,包括:
34、模型預(yù)測單元,用于將所述數(shù)據(jù)交互請求輸入到預(yù)設(shè)的大語言模型中,得到所述數(shù)據(jù)交互請求的第一候選特征以及對應(yīng)的第一子生成系數(shù);
35、第二系數(shù)生成單元,用于利用預(yù)設(shè)的生成策略對所述初始文本語句進(jìn)行分析,生成數(shù)據(jù)交互請求對應(yīng)的第一候選特征的第二子生成系數(shù);其中,所述生成策略包括特征信息之間的關(guān)聯(lián)關(guān)系;
36、生成系數(shù)生成單元,用于利用所述第一子生成系數(shù)和所述第二子生成系數(shù),得到所述數(shù)據(jù)交互請求的下一候選特征以及對應(yīng)的生成系數(shù)。
37、在其中一個實施例中,所述第二系數(shù)生成單元,包括:
38、第二特征獲取子單元,用于利用預(yù)設(shè)的生成策略對所述初始文本語句進(jìn)行分析,生成第二候選特征;
39、第二系數(shù)確定子單元,用于將存在于所述第二候選特征的第一候選特征的第二子生成系數(shù)確定為第一系數(shù);
40、所述第二系數(shù)確定子單元,還用于將不存在于所述第二候選特征的第一候選特征的第二子生成系數(shù)確定為第二系數(shù)。
41、在其中一個實施例中,所述目標(biāo)生成語句,包括:
42、數(shù)據(jù)庫標(biāo)識獲取子模塊,用于利用預(yù)設(shè)的映射關(guān)系集合,對所述標(biāo)準(zhǔn)格式文本語句進(jìn)行匹配,得到所述結(jié)構(gòu)化查詢代碼語句的數(shù)據(jù)庫標(biāo)識;其中,所述映射關(guān)系集合包括所述數(shù)據(jù)格式對應(yīng)的數(shù)據(jù)與所述數(shù)據(jù)庫標(biāo)識的關(guān)聯(lián)關(guān)系;
43、目標(biāo)生成子模塊,用于利用所述數(shù)據(jù)庫標(biāo)識和所述標(biāo)準(zhǔn)格式文本語句,生成所述數(shù)據(jù)交互請求的結(jié)構(gòu)化查詢代碼語句。
44、在其中一個實施例中,所述裝置,包括:
45、樣本獲取模塊,用于獲取樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括數(shù)據(jù)交互請求樣本和對應(yīng)的標(biāo)準(zhǔn)格式文本語句樣本;
46、模型預(yù)測模塊,用于將所述數(shù)據(jù)交互請求樣本輸入到預(yù)設(shè)的大語言模型中,預(yù)測得到數(shù)據(jù)交互請求樣本對應(yīng)的預(yù)測文本語句;
47、模型優(yōu)化模塊,用于基于所述數(shù)據(jù)交互請求樣本對應(yīng)的預(yù)測文本語句與所述標(biāo)準(zhǔn)格式文本語句樣本之間的差異,對所述大語言模型的參數(shù)進(jìn)行調(diào)整,得到目標(biāo)大語言模型。
48、第三方面,本技術(shù)還提供了一種計算機(jī)設(shè)備。所述計算機(jī)設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如本公開實施例任一項所述的結(jié)構(gòu)化查詢代碼語句的生成方法。
49、第四方面,本技術(shù)還提供了一種計算機(jī)可讀存儲介質(zhì)。所述計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如本公開實施例任一項所述的結(jié)構(gòu)化查詢代碼語句的生成方法。
50、第五方面,本技術(shù)還提供了一種計算機(jī)程序產(chǎn)品。所述計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如本公開實施例任一項所述的結(jié)構(gòu)化查詢代碼語句的生成方法。
51、上述結(jié)構(gòu)化查詢代碼語句的生成方法、裝置、計算機(jī)設(shè)備、存儲介質(zhì)和計算機(jī)程序產(chǎn)品,通過將接收到的數(shù)據(jù)交互請求輸入到預(yù)設(shè)的大語言模型中,得到標(biāo)準(zhǔn)格式文本語句,并利用標(biāo)準(zhǔn)格式文本語句生成對應(yīng)的結(jié)構(gòu)化查詢代碼語句。通過模型僅用于生成標(biāo)準(zhǔn)格式文本語句,并未直接生成結(jié)構(gòu)化查詢代碼語句,由于標(biāo)準(zhǔn)格式文本語句的簡潔性,極大地簡化了模型預(yù)測生成的難度,提高了預(yù)測的效率和準(zhǔn)確性,進(jìn)而提高了結(jié)構(gòu)化查詢代碼語句生成的效率和準(zhǔn)確性。同時,標(biāo)準(zhǔn)格式文本語句至少包括標(biāo)識鍵、與標(biāo)識鍵相對應(yīng)的數(shù)據(jù)、篩選條件標(biāo)識以及數(shù)據(jù)統(tǒng)計標(biāo)識,可以使得生成結(jié)構(gòu)化查詢代碼語句更加的直觀和便捷,且在生成結(jié)構(gòu)化查詢代碼語句出現(xiàn)錯誤時,可以及時查找是否為模型預(yù)測錯誤,提高了結(jié)構(gòu)化查詢代碼語句生成的可靠性。