本申請涉及大數(shù)據(jù)分析處理,具體涉及一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法及系統(tǒng)。
背景技術:
1、大數(shù)據(jù)平臺作為一種企業(yè)在大數(shù)據(jù)環(huán)境下進行分析決策的平臺,能夠幫助企業(yè)分析海量的數(shù)據(jù)集,而有效性校驗能夠避免因數(shù)據(jù)錯誤導致的分析結果偏差或決策失誤,確保大數(shù)據(jù)平臺數(shù)據(jù)集的有效性,提高數(shù)據(jù)管理的效率。
2、現(xiàn)階段數(shù)據(jù)的有效性校驗方法主要采用基于規(guī)則的驗證方法,需要大量的預設規(guī)則進行判斷。由于大數(shù)據(jù)平臺的數(shù)據(jù)具有多維度、大樣本量等特點,基于規(guī)則的驗證方法存在預設規(guī)則難以動態(tài)適應數(shù)據(jù)中蘊含潛在的數(shù)據(jù)模式,導致數(shù)據(jù)有效性校驗的結果存在較大誤差。
技術實現(xiàn)思路
1、為了解決上述技術問題,本申請的目的在于提供一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法及系統(tǒng),所采用的技術方案具體如下:
2、第一方面,本申請實施例提供了一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,該方法包括以下步驟:
3、讀取各種屬性類型的待檢測數(shù)據(jù)和歷史數(shù)據(jù);
4、基于各種屬性類型的所述歷史數(shù)據(jù)的分布,確定所有屬性類型中的關鍵屬性;
5、分析待檢測數(shù)據(jù)和歷史數(shù)據(jù)在各關鍵屬性中的分布,得到各待檢測數(shù)據(jù)在對應關鍵屬性上的屬性值歸屬度;分析各關鍵屬性的歷史數(shù)據(jù)的分布,得到各關鍵屬性的取值隨機性;結合所述屬性值歸屬度與所述取值隨機性,得到各待檢測數(shù)據(jù)在對應關鍵屬性上的屬性值有效程度;
6、分析各關鍵屬性上待檢測數(shù)據(jù)的分布與歷史數(shù)據(jù)的分布的差異,得到各關鍵屬性下所有待檢測數(shù)據(jù)的數(shù)據(jù)差異程度;結合所述屬性值有效程度與所述數(shù)據(jù)差異程度,得到各關鍵屬性下所有待檢測數(shù)據(jù)的有效性得分,獲取數(shù)據(jù)有效性校驗結果。
7、在其中一種實施例中,所述關鍵屬性的確定過程為:
8、基于各種屬性類型的所有歷史數(shù)據(jù)分布的混亂程度確定各屬性類型的屬性細節(jié)豐富度;采用聚類算法對所有屬性類型的屬性細節(jié)豐富度進行聚類得到各聚類簇,基于各聚類簇得到所有屬性類型中的關鍵屬性。
9、在其中一種實施例中,所述屬性細節(jié)豐富度為各屬性類型的所有歷史數(shù)據(jù)的信息熵。
10、在其中一種實施例中,所述關鍵屬性為具有最大屬性細節(jié)豐富度均值的聚類簇中所對應的所有屬性類型。
11、在其中一種實施例中,所述屬性值歸屬度的確定過程為:
12、將各關鍵屬性的所有歷史數(shù)據(jù)的取值范圍均分為預設數(shù)量個取值區(qū)間,將各關鍵屬性的各取值區(qū)間內歷史數(shù)據(jù)的數(shù)量與所有歷史數(shù)據(jù)的數(shù)量的比值,確定為各關鍵屬性的各取值區(qū)間的區(qū)間投影數(shù)量比;
13、若待檢測數(shù)據(jù)位于所述取值區(qū)間,則將對應取值區(qū)間的所述區(qū)間投影數(shù)量比與預設值的和值作為待檢測數(shù)據(jù)的屬性值歸屬度,否則,將所述預設值作為待檢測數(shù)據(jù)的屬性值歸屬度。
14、在其中一種實施例中,所述取值隨機性的確定過程為:
15、將各關鍵屬性的所有所述區(qū)間投影數(shù)量比組成投影數(shù)分布序列,計算所述投影數(shù)分布序列的集中程度,將數(shù)值1與所述集中程度的差值,作為各關鍵屬性的取值隨機性。
16、在其中一種實施例中,所述數(shù)據(jù)差異程度的確定過程為:
17、計算各關鍵屬性的各取值區(qū)間內待檢測數(shù)據(jù)的數(shù)量與所有待檢測數(shù)據(jù)的數(shù)量的比值,記為第一比值,將各關鍵屬性的所有所述第一比值組成待校驗數(shù)據(jù)分布序列,將各關鍵屬性的所述待校驗數(shù)據(jù)分布序列與所述投影數(shù)分布序列的度量距離,確定為各關鍵屬性下所有待檢測數(shù)據(jù)的數(shù)據(jù)差異程度。
18、在其中一種實施例中,所述有效性得分為各關鍵屬性的所述數(shù)據(jù)差異程度與所述屬性值有效程度的乘積的歸一化結果。
19、在其中一種實施例中,所述數(shù)據(jù)有效性校驗結果為:
20、若關鍵屬性下所有待檢測數(shù)據(jù)的有效性得分大于預設閾值,則對應關鍵屬性下所有待檢測數(shù)據(jù)為有效數(shù)據(jù),否則,對應關鍵屬性下所有待檢測數(shù)據(jù)為無效數(shù)據(jù),除所有關鍵屬性下的所有待檢測數(shù)據(jù)外的待檢測數(shù)據(jù),記為有效數(shù)據(jù)。
21、第二方面,本申請實施例還提供了一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任意一項所述方法的步驟。
22、本申請至少具有如下有益效果:
23、本申請通過讀取各種屬性類型的待檢測數(shù)據(jù)和歷史數(shù)據(jù),基于各種屬性類型的所述歷史數(shù)據(jù)的分布,得到各屬性類型的屬性細節(jié)豐富度,基于所述屬性細節(jié)豐富度獲取所有屬性類型中的關鍵屬性,對所有屬性類型進行篩選,提高了數(shù)據(jù)有效性校驗的效率;將所有關鍵屬性的待檢測數(shù)據(jù)和歷史數(shù)據(jù)進行空間映射,分析待檢測數(shù)據(jù)和歷史數(shù)據(jù)在空間映射結果中的分布,得到各待檢測數(shù)據(jù)在對應關鍵屬性上的屬性值歸屬度,其有益效果是深度挖掘歷史數(shù)據(jù)特征,避免歷史數(shù)據(jù)本身數(shù)據(jù)離散對待檢測數(shù)據(jù)取值的干擾,提高后續(xù)數(shù)據(jù)有效性分析的準確度;分析所述空間映射結果中各關鍵屬性的歷史數(shù)據(jù)的分布,得到各關鍵屬性的取值隨機性;結合所述屬性值歸屬度與所述取值隨機性,得到各待檢測數(shù)據(jù)在對應關鍵屬性上的屬性值有效程度,反映了待檢測數(shù)據(jù)在對應關鍵屬性下屬于有效數(shù)據(jù)的可能性,提高了待檢測數(shù)據(jù)有效性判斷的可靠性;分析各關鍵屬性上待檢測數(shù)據(jù)的分布與歷史數(shù)據(jù)的分布的差異,得到各關鍵屬性下所有待檢測數(shù)據(jù)的數(shù)據(jù)差異程度;結合所述屬性值有效程度與所述數(shù)據(jù)差異程度,得到各關鍵屬性下所有待檢測數(shù)據(jù)的有效性得分,獲取數(shù)據(jù)有效性校驗結果,降低了由于數(shù)據(jù)來源發(fā)生變化,造成數(shù)據(jù)有效性判斷出現(xiàn)誤差的風險,通過分析大量的待檢測數(shù)據(jù)的分布特征,以及與歷史數(shù)據(jù)的對比關系,提高了數(shù)據(jù)有效性校驗的準確度。
1.一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述關鍵屬性的確定過程為:
3.如權利要求2所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述屬性細節(jié)豐富度為各屬性類型的所有歷史數(shù)據(jù)的信息熵。
4.如權利要求2所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述關鍵屬性為具有最大屬性細節(jié)豐富度均值的聚類簇中所對應的所有屬性類型。
5.如權利要求1所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述屬性值歸屬度的確定過程為:
6.如權利要求5所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述取值隨機性的確定過程為:
7.如權利要求6所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述數(shù)據(jù)差異程度的確定過程為:
8.如權利要求1所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述有效性得分為各關鍵屬性的所述數(shù)據(jù)差異程度與所述屬性值有效程度的乘積的歸一化結果。
9.如權利要求1所述的一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗方法,其特征在于,所述數(shù)據(jù)有效性校驗結果為:
10.一種大數(shù)據(jù)平臺的數(shù)據(jù)有效性校驗系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1-9任意一項所述方法的步驟。