本發(fā)明涉及人工智能,尤其涉及一種訓練數(shù)據(jù)采樣方法、裝置、設備、存儲介質(zhì)及產(chǎn)品。
背景技術:
1、大模型是指包含超大規(guī)模參數(shù)(通常在十億個以上)的神經(jīng)網(wǎng)絡模型,其不僅需要強大的計算資源,還需要大量豐富的數(shù)據(jù),而訓練數(shù)據(jù)的數(shù)量、質(zhì)量以及采樣配比的樣本多樣性則會直接影響到模型的最終訓練效果。
2、在現(xiàn)有的模型訓練中,通常采用隨機采樣法、分層采樣法、系統(tǒng)采樣法、整體采樣法以及方便采樣法等方法來獲取訓練數(shù)據(jù),在應用這些方法時,需要一次性采集與處理所有的訓練樣本。但在大模型預訓練中,需要的數(shù)據(jù)量都比較大,若一次性采集與處理,計算量太大,完成成本太高;并且,海量的訓練數(shù)據(jù)無法一次性完成收集、整理與清洗,大部分數(shù)據(jù)是隨著訓練過程逐漸增加的,在這種情況下,由于每次收集的訓練數(shù)據(jù)的數(shù)量、質(zhì)量以及包含的樣本類型均不相同,若采用上述采樣方法進行采樣,會導致模型總體的訓練樣本不均衡,模型訓練效果差。因此,現(xiàn)有的采樣方法在大模型訓練數(shù)據(jù)的采樣中,存在無法兼顧計算效率與樣本均衡的問題,采樣效果差。
技術實現(xiàn)思路
1、本發(fā)明實施例的目的在于,提供了一種訓練數(shù)據(jù)采樣方法、裝置、設備、存儲介質(zhì)及產(chǎn)品,能夠?qū)崿F(xiàn)大模型訓練數(shù)據(jù)的動態(tài)采樣配比,可以在保證樣本均衡的同時提升模型的訓練效率。
2、為了實現(xiàn)上述目的,本發(fā)明實施例提供了一種訓練數(shù)據(jù)采樣方法,包括:
3、獲取當前批次的訓練數(shù)據(jù)集;其中,所述訓練數(shù)據(jù)集包括若干個類別的訓練數(shù)據(jù);
4、根據(jù)當前批次的每一類訓練數(shù)據(jù)的特征值,以及上一批次的采樣數(shù)據(jù)分布與模型的性能指標,確定當前批次的訓練數(shù)據(jù)集的采樣權(quán)重;
5、將以所述采樣權(quán)重在所述訓練數(shù)據(jù)集中采樣得到的數(shù)據(jù),作為當前批次的采樣數(shù)據(jù),以用于模型訓練。
6、進一步的,所述根據(jù)當前批次的每一類訓練數(shù)據(jù)的特征值,以及上一批次的采樣數(shù)據(jù)分布與模型的性能指標,確定當前批次的訓練數(shù)據(jù)集的采樣權(quán)重,包括:
7、根據(jù)當前批次的每一類訓練數(shù)據(jù)的特征值,使用熵值法計算得到所述訓練數(shù)據(jù)集的第一采樣權(quán)重;
8、根據(jù)所述第一采樣權(quán)重,對所述訓練數(shù)據(jù)集進行采樣;
9、若所采樣到的采樣數(shù)據(jù)分布與上一批次的采樣數(shù)據(jù)分布的相似度,小于預設的目標相似度,則將所述第一采樣權(quán)重確定為當前批次的所述訓練數(shù)據(jù)集的采樣權(quán)重;否則調(diào)整采樣權(quán)重并重新采樣,直至所采樣到的采樣數(shù)據(jù)分布與上一批次的采樣數(shù)據(jù)分布的相似度小于所述目標相似度或滿足預設停止條件,將調(diào)整后的采樣權(quán)重確定為當前批次的訓練數(shù)據(jù)集的采樣權(quán)重;
10、其中,所述目標相似度是根據(jù)經(jīng)由上一批次的采樣數(shù)據(jù)訓練后的模型的性能指標設定的值。
11、進一步的,在所述獲取當前批次的訓練數(shù)據(jù)集之后,所述方法還包括:
12、對當前批次的每一類訓練數(shù)據(jù)的數(shù)據(jù)量進行統(tǒng)計,并對數(shù)據(jù)量進行歸一化處理,得到每一類訓練數(shù)據(jù)的數(shù)量值;
13、對當前批次的每一類訓練數(shù)據(jù)的質(zhì)量進行評估,并對評估值進行區(qū)間化處理,得到每一類訓練數(shù)據(jù)的質(zhì)量值;
14、根據(jù)當前批次的每一類訓練數(shù)據(jù)中每一領域的數(shù)據(jù)量,對領域數(shù)據(jù)分布均衡度進行評分,并對評分進行均值化處理,得到每一類訓練數(shù)據(jù)的領域均衡值;
15、其中,所述每一類訓練數(shù)據(jù)的特征值包括所述數(shù)量值、所述質(zhì)量值以及所述領域均衡值。
16、進一步的,所述根據(jù)當前批次的每一類訓練數(shù)據(jù)的特征值,使用熵值法計算得到所述訓練數(shù)據(jù)集的第一采樣權(quán)重,具體包括:
17、分別對每一類訓練數(shù)據(jù)的數(shù)量值、質(zhì)量值以及領域均衡值求和,獲得每一類訓練數(shù)據(jù)的指標值;
18、根據(jù)每一類訓練數(shù)據(jù)的指標值在所有指標值之和中的比重,應用熵值公式計算每一類訓練數(shù)據(jù)的指標值的熵值;
19、計算每一所述熵值在所有熵值之和中的比重,獲得對應的每一類訓練數(shù)據(jù)的采樣權(quán)重,組成所述訓練數(shù)據(jù)集的第一采樣權(quán)重。
20、進一步的,所述模型的性能指標的獲取方法,包括:
21、獲取若干個領域類別的評估樣例,將所述評估樣例輸入經(jīng)由上一批次的采樣數(shù)據(jù)訓練后的模型,得到特征向量;
22、對所述特征向量進行聚類,并根據(jù)所述評估樣例對應的真實領域類別標簽對聚類結(jié)果進行分析,得到每一領域類別的聚類準確率;
23、根據(jù)所述每一領域類別的聚類準確率計算平均準確率,并根據(jù)所述平均準確率對應的數(shù)值范圍,得到上一批次的采樣數(shù)據(jù)分布與最佳分布的差異項;所述平均準確率越大,所述差異項越?。?/p>
24、其中,所述模型的性能指標包括所述每一領域類別的聚類準確率以及所述差異項。
25、進一步的,所述調(diào)整采樣權(quán)重,具體包括:
26、獲取經(jīng)由上一批次的采樣數(shù)據(jù)訓練后的模型的性能指標中的聚類準確率;
27、將所述聚類準確率小于預設值的領域類別,作為待提升領域;
28、對于當前批次的每一類訓練數(shù)據(jù),計算其中的待提升領域的數(shù)據(jù)量在總數(shù)據(jù)量中的比重,得到每一類訓練數(shù)據(jù)的待提升領域占比;
29、將所述待提升領域占比大于預設占比的訓練數(shù)據(jù)類別,作為待調(diào)整類別;
30、根據(jù)預設的權(quán)重增加值對所述待調(diào)整類別對應的采樣權(quán)重進行調(diào)整,得到調(diào)整后的采樣權(quán)重。
31、進一步地,所述目標相似度為所述差異項與預設常數(shù)之和,所述預設常數(shù)的取值范圍為[0.25,0.5];
32、所述預設停止條件包括:采樣權(quán)重大于預設權(quán)重。
33、進一步的,在所述獲取當前批次的訓練數(shù)據(jù)集之前,所述方法還包括:
34、獲取初始訓練數(shù)據(jù)集;其中,所述初始訓練數(shù)據(jù)集包括若干個類別的初始訓練數(shù)據(jù);
35、根據(jù)每一類初始訓練數(shù)據(jù)的數(shù)量值與質(zhì)量值,得到初始采樣權(quán)重;
36、將以所述初始采樣權(quán)重在所述初始訓練數(shù)據(jù)集中采樣得到的數(shù)據(jù),作為初始批次的采樣數(shù)據(jù),以用于模型訓練;
37、其中,將所述數(shù)量值大于預設數(shù)量值,且所述質(zhì)量值高于預設質(zhì)量值的初始訓練數(shù)據(jù)的初始采樣權(quán)重,設置為全采樣對應的權(quán)重值;將所述數(shù)量值大于所述預設數(shù)量值,且所述質(zhì)量值不高于所述預設質(zhì)量值的初始訓練數(shù)據(jù)的初始采樣權(quán)重,設置為欠采樣對應的權(quán)重值;將所述數(shù)量值不大于所述預設數(shù)量值,且所述質(zhì)量值高于所述預設質(zhì)量值的初始訓練數(shù)據(jù)的初始采樣權(quán)重,設置為過采樣對應的權(quán)重值。
38、本發(fā)明實施例還提供了一種訓練數(shù)據(jù)采樣裝置,包括:
39、數(shù)據(jù)獲取模塊,用于獲取當前批次的訓練數(shù)據(jù)集;其中,所述訓練數(shù)據(jù)集包括若干個類別的訓練數(shù)據(jù);
40、采樣權(quán)重模塊,用于根據(jù)當前批次的每一類訓練數(shù)據(jù)的特征值,以及上一批次的采樣數(shù)據(jù)分布與模型的性能指標,確定當前批次的訓練數(shù)據(jù)集的采樣權(quán)重;
41、采樣數(shù)據(jù)模塊,用于將以所述采樣權(quán)重在所述訓練數(shù)據(jù)集中采樣得到的數(shù)據(jù),作為當前批次的采樣數(shù)據(jù),以用于模型訓練。
42、本發(fā)明實施例還提供了一種終端設備,包括處理器和存儲器,所述存儲器中存儲有計算機程序,且所述計算機程序被配置為由所述處理器執(zhí)行,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任一項所述的訓練數(shù)據(jù)采樣方法。
43、本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設備執(zhí)行上述任一項所述的訓練數(shù)據(jù)采樣方法。
44、本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項所述的訓練數(shù)據(jù)采樣方法。
45、相對于現(xiàn)有技術,本發(fā)明實施例提供的訓練數(shù)據(jù)采樣方法、裝置、設備、存儲介質(zhì)及產(chǎn)品,其有益效果在于:通過根據(jù)當前批次的訓練數(shù)據(jù)的數(shù)量值、質(zhì)量值、領域均衡值以及上一批次的采樣數(shù)據(jù)分布與模型的性能指標,來確定當前批次訓練數(shù)據(jù)的采樣權(quán)重,實現(xiàn)了每一批訓練數(shù)據(jù)的動態(tài)采樣配比,其不需要提前將所有數(shù)據(jù)準備齊全,避免了對數(shù)據(jù)分類處理的巨大計算量,大大提升了模型訓練效率;通過調(diào)整采樣權(quán)重直至前后批次的采樣數(shù)據(jù)分布的相似度符合要求,能夠保證前后批次的訓練數(shù)據(jù)分布一致,以避免預訓練中出現(xiàn)損失震蕩以及災難性遺忘現(xiàn)象;通過對經(jīng)由上一批次的采樣數(shù)據(jù)訓練后的模型進行性能評估得到模型性能指標,以指導當前批次訓練數(shù)據(jù)的采樣配比,使采樣數(shù)據(jù)能夠在總體樣本未知的情況下保持均衡,同時也能實現(xiàn)對模型訓練過程的實時分析反饋。本發(fā)明實施例實現(xiàn)了大模型預訓練數(shù)據(jù)采樣配比的動態(tài)調(diào)整,能夠在保證采樣樣本均衡度的同時提升模型的訓練效率,保證了模型的訓練效果。