本發(fā)明涉及大數(shù)據(jù)分析,特別是涉及一種超高維數(shù)據(jù)的精度矩陣估計方法、設備及存儲介質。
背景技術:
1、當前的大數(shù)據(jù)分析領域,尤其是基因組學、金融建模和社交網(wǎng)絡分析,研究人員經(jīng)常面臨從超高維數(shù)據(jù)集中估計精確矩陣的挑戰(zhàn)。這些數(shù)據(jù)集的特征在于變量數(shù)量遠遠超過樣本數(shù)量,體現(xiàn)了“維數(shù)災難”,使得計算復雜且大大影響模型估計的穩(wěn)定性和準確性。在資源有限和嚴格的計算時間要求下,如何有效、準確地估計精確矩陣對于推動科學研究和技術創(chuàng)新至關重要。
2、傳統(tǒng)方法如圖形lasso(graphical?lasso)及其變種雖然理論深厚且廣泛應用于各種統(tǒng)計模型,但在超高維數(shù)據(jù)環(huán)境下依然存在實際局限。這些方法往往需要大量計算資源,包括較長的計算時間和顯著的內存使用,在變量數(shù)極多時,其估計結果的穩(wěn)定性和準確性受到影響。
3、現(xiàn)有的r語言軟件包如glasso和huge在某些特定情境下表現(xiàn)出色,尤其是在變量數(shù)中等或計算資源要求不高時。然而,當面對極高維數(shù)據(jù)(如基因表達分析或復雜網(wǎng)絡模型)時,這些方法常遇到收斂緩慢、結果不穩(wěn)定或估計精度不足的問題。
技術實現(xiàn)思路
1、本發(fā)明實施例旨在提供一種超高維數(shù)據(jù)的精度矩陣估計方法、設備及存儲介質,以解決現(xiàn)有技術中超高維數(shù)據(jù)的精度矩陣估計存在計算時間長、資源消耗多、估計結果不穩(wěn)定或精度不足等問題。
2、為解決上述技術問題,本發(fā)明實施例提供以下技術方案:
3、根據(jù)本發(fā)明的一方面,提供一種超高維數(shù)據(jù)的精度矩陣估計方法,所述方法包括:
4、獲取個樣本數(shù)據(jù)形成維度為的樣本矩陣,其中,每一所述樣本數(shù)據(jù)包括個變量的觀測值,且遠大于;
5、計算所述樣本矩陣的樣本協(xié)方差矩陣,根據(jù)所述樣本協(xié)方差矩陣得到所述樣本矩陣的總體協(xié)方差矩陣估計;
6、基于所述總體協(xié)方差矩陣估計對所述個變量進行總相關強度統(tǒng)計和分組,得到顯著相關變量子集和非顯著相關變量子集;
7、確定所述顯著相關變量子集對應的第一近似精度矩陣和所述非顯著相關變量子集對應的第二近似精度矩陣,根據(jù)所述第一近似精度矩陣和所述第二近似精度矩陣得到所述個樣本數(shù)據(jù)的估計精度矩陣。
8、可選地,所述根據(jù)所述樣本協(xié)方差矩陣得到所述樣本矩陣的總體協(xié)方差矩陣估計包括:
9、對所述樣本協(xié)方差矩陣基于下式進行自適應閾值處理,得到所述樣本矩陣的總體協(xié)方差矩陣估計:
10、
11、其中,為自適應閾值。
12、可選地,所述自適應閾值的計算公式如下:
13、
14、其中,為常數(shù),是變量間去均值乘積的方差估計。
15、可選地,所述基于所述總體協(xié)方差矩陣估計對所述個變量進行總相關強度統(tǒng)計和分組,得到顯著相關變量子集和非顯著相關變量子集包括:
16、基于所述總體協(xié)方差矩陣估計,統(tǒng)計所述個變量中每一變量與其他變量的總相關強度;
17、將所述總相關強度大于或等于預設的相關強度閾值的變量篩選出來形成顯著相關變量子集,將所述總相關強度小于所述相關強度閾值的變量篩選出來形成非顯著相關變量子集。
18、可選地,所述個樣本數(shù)據(jù)的估計精度矩陣=。
19、可選地,所述第一近似精度矩陣的計算方法為:
20、從所述樣本矩陣中篩選出所述顯著相關變量子集中各變量對應的列形成第一子樣本矩陣;
21、計算所述第一子樣本矩陣的第一子樣本協(xié)方差矩陣;
22、使用預設的正則化方法對所述第一子樣本協(xié)方差矩陣進行正則化處理,得到所述第一近似精度矩陣。
23、可選地,所述第二近似精度矩陣的計算方法為:
24、從所述樣本矩陣中篩選出所述非顯著相關變量子集中各變量對應的列形成第二子樣本矩陣;
25、計算所述第二子樣本矩陣的第二子樣本協(xié)方差矩陣;
26、計算所述第二子樣本協(xié)方差矩陣的逆矩陣,并提取所述逆矩陣的對角元素,得到所述第二近似精度矩陣。
27、可選地,所述第二近似精度矩陣為零矩陣。
28、根據(jù)本發(fā)明的另一方面,提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述所述的超高維數(shù)據(jù)的精度矩陣估計方法的步驟。
29、根據(jù)本發(fā)明的再一方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執(zhí)行時,所述處理器執(zhí)行上述任一項所述方法的步驟。
30、本發(fā)明實施例的有益效果是:區(qū)別于現(xiàn)有技術的情況,本發(fā)明實施例中,提供了一種超高維數(shù)據(jù)的精度矩陣估計方法,使用協(xié)方差列篩選方法在超高維數(shù)據(jù)中識別出顯著相關變量子集,并對這些子集應用塊對角正則化方法得到到估計精度矩陣。本發(fā)明的方法,不僅大幅減少了模型復雜性和計算負荷,而且還保持了模型的精確性和穩(wěn)定,可適應于各種超高維數(shù)據(jù)分析領域。與現(xiàn)有的r語言包相比,本發(fā)明提供的超高維數(shù)據(jù)的精度矩陣估計方法能顯著提高計算速度。
1.一種超高維數(shù)據(jù)的精度矩陣估計方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述樣本協(xié)方差矩陣得到所述樣本矩陣的總體協(xié)方差矩陣估計包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述自適應閾值的計算公式如下:
4.根據(jù)權利要求1所述的方法,其特征在于,所述基于所述總體協(xié)方差矩陣估計對所述個變量進行總相關強度統(tǒng)計和分組,得到顯著相關變量子集和非顯著相關變量子集包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述個樣本數(shù)據(jù)的估計精度矩陣=。
6.根據(jù)權利要求1至5任一項所述的方法,其特征在于,所述第一近似精度矩陣的計算方法為:
7.根據(jù)權利要求6所述的方法,其特征在于,所述第二近似精度矩陣的計算方法為:
8.根據(jù)權利要求6所述的方法,其特征在于,所述第二近似精度矩陣為零矩陣。
9.一種計算機設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)權利要求1-8任一項所述的超高維數(shù)據(jù)的精度矩陣估計方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執(zhí)行時,所述處理器執(zhí)行如權利要求1-8任一項所述方法的步驟。