本發(fā)明涉及大數(shù)據(jù),尤其涉及一種文件轉(zhuǎn)換方法、設(shè)備、存儲介質(zhì)及裝置。
背景技術(shù):
1、hdfs文件ec與三副本相比可以提高存儲效率節(jié)省大量的存儲成本、網(wǎng)絡(luò)帶寬等資源,但是ec數(shù)據(jù)查詢時需要進(jìn)行編解碼,查詢效率比三副本低很多。
2、在云原生環(huán)境下大數(shù)據(jù)平臺中,為了提高數(shù)據(jù)查詢效率,經(jīng)常使用的熱數(shù)據(jù)往往采用三副本的形式存儲,但是為了節(jié)省存儲和網(wǎng)絡(luò)資源開銷,一些使用頻次很低但由于審計、監(jiān)管檢查等特殊場景下又會被使用到的冷數(shù)據(jù)會通過ec方式存儲。
3、目前大數(shù)據(jù)平臺會通過對數(shù)據(jù)實際使用情況調(diào)查設(shè)置一個固定周期,周期內(nèi)數(shù)據(jù)作為熱數(shù)據(jù)采用三副本存儲,周期外數(shù)據(jù)作為冷數(shù)據(jù)采用ec存儲;但是由于一張數(shù)據(jù)表在不同時期被使用的周期會發(fā)生變化,如果采用固定時間一刀切的方式進(jìn)行冷熱數(shù)據(jù)拆分會造成當(dāng)前時間內(nèi)大量冷數(shù)據(jù)作為熱數(shù)據(jù)進(jìn)行存儲,浪費存儲資源同時加大系統(tǒng)計算壓力。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種文件轉(zhuǎn)換方法、設(shè)備、存儲介質(zhì)及裝置,旨在解決目前大數(shù)據(jù)平臺由于針對熱數(shù)據(jù)以及冷數(shù)據(jù)的固定存儲方式的單一性,導(dǎo)致浪費存儲資源同時加大系統(tǒng)計算壓力的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種文件轉(zhuǎn)換方法,所述文件轉(zhuǎn)換方法包括以下步驟:
3、將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù);
4、基于預(yù)設(shè)lstm模型和所述文件特征數(shù)據(jù)對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值;
5、將所述預(yù)測熱數(shù)據(jù)閾值按照當(dāng)前系統(tǒng)時間轉(zhuǎn)換為閾值日期;
6、根據(jù)所述閾值日期檢索目標(biāo)文件并將所述目標(biāo)文件轉(zhuǎn)換為目標(biāo)版本進(jìn)行存儲。
7、可選地,所述將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟,包括:
8、獲取各時間點下hdfs文件使用數(shù)據(jù);
9、將所述各時間點下hdfs文件使用數(shù)據(jù)按照預(yù)設(shè)特征進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)。
10、可選地,所述預(yù)設(shè)特征包括:hdfs文件之間的血緣關(guān)系、hdfs文件查詢次數(shù)及使用數(shù)據(jù)的時間范圍、當(dāng)前時間是否節(jié)假日、當(dāng)前時間是否營銷活動期間、當(dāng)前時間是否月初,所述將所述各時間點下hdfs文件使用數(shù)據(jù)按照預(yù)設(shè)特征進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟,包括:
11、將所述各時間點下hdfs文件使用數(shù)據(jù)按照hdfs文件之間的血緣關(guān)系進(jìn)行矩陣化處理,獲得第一矩陣;
12、將所述各時間點下hdfs文件使用數(shù)據(jù)按照hdfs文件查詢次數(shù)及使用數(shù)據(jù)的時間范圍進(jìn)行矩陣化處理,獲得第二矩陣;
13、將所述各時間點下hdfs文件使用數(shù)據(jù)按照當(dāng)前時間是否節(jié)假日進(jìn)行矩陣化處理,獲得第三矩陣;
14、將所述各時間點下hdfs文件使用數(shù)據(jù)按照當(dāng)前時間是否營銷活動期間進(jìn)行矩陣化處理,獲得第四矩陣;
15、將所述各時間點下hdfs文件使用數(shù)據(jù)按照當(dāng)前時間是否月初進(jìn)行矩陣化處理,獲得第五矩陣;
16、根據(jù)所述第一矩陣、所述第二矩陣、所述第三矩陣、所述第四矩陣以及所述第五矩陣確定文件特征數(shù)據(jù)。
17、可選地,所述基于預(yù)設(shè)lstm模型和所述文件特征數(shù)據(jù)對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值的步驟,包括:
18、基于預(yù)設(shè)lstm模型按照時間序列對所述文件特征數(shù)據(jù)進(jìn)行有效信息提取,獲得有效特征集合;
19、根據(jù)所述有效特征集合對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值。
20、可選地,所述根據(jù)所述閾值日期檢索目標(biāo)文件并將所述目標(biāo)文件轉(zhuǎn)換為目標(biāo)版本進(jìn)行存儲的步驟,包括:
21、對所述閾值日期對應(yīng)的文件目錄下進(jìn)行檢索,獲得目標(biāo)文件;
22、根據(jù)所述目標(biāo)文件對應(yīng)的文件模式將所述目標(biāo)文件拷貝至預(yù)設(shè)文件庫中。
23、可選地,所述根據(jù)所述目標(biāo)文件對應(yīng)的文件模式將所述目標(biāo)文件拷貝至預(yù)設(shè)文件庫中的步驟,包括:
24、若所述目標(biāo)文件對應(yīng)的文件模式為ec模式文件,則將ec文件庫中對應(yīng)文件的熱數(shù)據(jù)日期文件自動拷貝到三副本文件庫中;
25、若所述目標(biāo)文件對應(yīng)的文件模式為三副本模式文件,則將三副本文件庫中對應(yīng)文件的非熱數(shù)據(jù)日期文件自動拷貝到ec文件庫中。
26、可選地,所述將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟之前,還包括:
27、從樣本庫中讀取的近兩年大數(shù)據(jù)hdfs文件使用情況的樣本數(shù)據(jù);
28、將所述樣本數(shù)據(jù)輸入至初始lstm模型中進(jìn)行訓(xùn)練,獲得預(yù)設(shè)lstm模型。
29、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種文件轉(zhuǎn)換設(shè)備,所述文件轉(zhuǎn)換設(shè)備包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的文件轉(zhuǎn)換程序,所述文件轉(zhuǎn)換程序配置為實現(xiàn)如上文所述的文件轉(zhuǎn)換的步驟。
30、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種存儲介質(zhì),所述存儲介質(zhì)上存儲有文件轉(zhuǎn)換程序,所述文件轉(zhuǎn)換程序被處理器執(zhí)行時實現(xiàn)如上文所述的文件轉(zhuǎn)換方法的步驟。
31、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種文件轉(zhuǎn)換裝置,所述文件轉(zhuǎn)換裝置包括:
32、矩陣轉(zhuǎn)換模塊,用于將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù);
33、熱數(shù)據(jù)預(yù)測模塊,用于基于預(yù)設(shè)lstm模型和所述文件特征數(shù)據(jù)對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值;
34、日期轉(zhuǎn)換模塊,用于將所述預(yù)測熱數(shù)據(jù)閾值按照當(dāng)前系統(tǒng)時間轉(zhuǎn)換為閾值日期;
35、文件轉(zhuǎn)換模塊,用于根據(jù)所述閾值日期檢索目標(biāo)文件并將所述目標(biāo)文件轉(zhuǎn)換為目標(biāo)版本進(jìn)行存儲。
36、本發(fā)明通過將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù);基于預(yù)設(shè)lstm模型和所述文件特征數(shù)據(jù)對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值;將所述預(yù)測熱數(shù)據(jù)閾值按照當(dāng)前系統(tǒng)時間轉(zhuǎn)換為閾值日期;根據(jù)所述閾值日期檢索目標(biāo)文件并將所述目標(biāo)文件轉(zhuǎn)換為目標(biāo)版本進(jìn)行存儲,相較于目前大數(shù)據(jù)平臺由于針對熱數(shù)據(jù)以及冷數(shù)據(jù)的固定存儲方式的單一性,導(dǎo)致浪費存儲資源同時加大系統(tǒng)計算壓力,本發(fā)明通過引入lstm模型,根據(jù)不同時期對于表內(nèi)數(shù)據(jù)使用情況不同,實現(xiàn)各時期的冷熱數(shù)據(jù)智能識別及數(shù)據(jù)表hdfs文件在ec與三副本兩種存儲模式下的智能轉(zhuǎn)換。
1.一種文件轉(zhuǎn)換方法,其特征在于,所述文件轉(zhuǎn)換方法包括以下步驟:
2.如權(quán)利要求1所述的文件轉(zhuǎn)換方法,其特征在于,所述將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟,包括:
3.如權(quán)利要求2所述的文件轉(zhuǎn)換方法,其特征在于,所述預(yù)設(shè)特征包括:hdfs文件之間的血緣關(guān)系、hdfs文件查詢次數(shù)及使用數(shù)據(jù)的時間范圍、當(dāng)前時間是否節(jié)假日、當(dāng)前時間是否營銷活動期間、當(dāng)前時間是否月初,所述將所述各時間點下hdfs文件使用數(shù)據(jù)按照預(yù)設(shè)特征進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟,包括:
4.如權(quán)利要求1所述的文件轉(zhuǎn)換方法,其特征在于,所述基于預(yù)設(shè)lstm模型和所述文件特征數(shù)據(jù)對文件熱數(shù)據(jù)閾值天數(shù)進(jìn)行預(yù)測,獲取預(yù)測熱數(shù)據(jù)閾值的步驟,包括:
5.如權(quán)利要求1所述的文件轉(zhuǎn)換方法,其特征在于,所述根據(jù)所述閾值日期檢索目標(biāo)文件并將所述目標(biāo)文件轉(zhuǎn)換為目標(biāo)版本進(jìn)行存儲的步驟,包括:
6.如權(quán)利要求5所述的文件轉(zhuǎn)換方法,其特征在于,所述根據(jù)所述目標(biāo)文件對應(yīng)的文件模式將所述目標(biāo)文件拷貝至預(yù)設(shè)文件庫中的步驟,包括:
7.如權(quán)利要求1所述的文件轉(zhuǎn)換方法,其特征在于,所述將歷史hdfs文件使用數(shù)據(jù)進(jìn)行矩陣化處理,獲得文件特征數(shù)據(jù)的步驟之前,還包括:
8.一種文件轉(zhuǎn)換設(shè)備,其特征在于,所述文件轉(zhuǎn)換設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的文件轉(zhuǎn)換程序,所述文件轉(zhuǎn)換程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文件轉(zhuǎn)換方法。
9.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)上存儲有文件轉(zhuǎn)換程序,所述文件轉(zhuǎn)換程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文件轉(zhuǎn)換方法。
10.一種文件轉(zhuǎn)換裝置,其特征在于,所述裝置包括: