一種海量數(shù)據(jù)對比方法、裝置及存儲介質(zhì)與流程

文檔序號：39714069發(fā)布日期：2024-10-22 13:00閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)處理，尤其是指一種海量數(shù)據(jù)對比方法、裝置、設(shè)備及計(jì)算機(jī)存儲介質(zhì)。

背景技術(shù)：

1、在現(xiàn)有技術(shù)的海量數(shù)據(jù)對比方法包括以下幾種方案：

2、通過查找主庫、備份數(shù)據(jù)庫間各表的各個字段數(shù)據(jù)的差異，只需要遍歷一次文件就能得到比對結(jié)果，并且就能夠高效地完成海量數(shù)據(jù)的主、備數(shù)據(jù)庫之間的數(shù)據(jù)檢查，解決了數(shù)據(jù)庫間直接比對的低效率和高成本問題以及一般merge比對工具無法對海量數(shù)據(jù)比對的問題。

3、基于hadoop云平臺，將海量數(shù)據(jù)分為若干份，并利用分布式文件系統(tǒng)進(jìn)行調(diào)度分段數(shù)據(jù)的對比操作，一次性對比海量的數(shù)據(jù)，基于大數(shù)據(jù)平臺的性能高效實(shí)施，解決了常規(guī)數(shù)據(jù)庫之間對比的內(nèi)存和性能問題，以及一般數(shù)據(jù)對比工具的無法操作海量數(shù)據(jù)對比問題。

4、讀取多數(shù)據(jù)源，通過預(yù)設(shè)的數(shù)據(jù)卸數(shù)規(guī)則進(jìn)行預(yù)處理，根據(jù)數(shù)據(jù)類型和內(nèi)容分塊存儲并進(jìn)行標(biāo)識，后續(xù)對比項(xiàng)目標(biāo)識相同的分塊數(shù)據(jù)，該方法用于解決系統(tǒng)重構(gòu)過程中的新老系統(tǒng)海量數(shù)據(jù)比對所帶來的種種問題，高效解決對特定行業(yè)領(lǐng)域的數(shù)據(jù)新舊數(shù)據(jù)源，數(shù)據(jù)格式不統(tǒng)一、映射規(guī)則復(fù)雜的數(shù)據(jù)對比。

5、目前隨著電信產(chǎn)業(yè)、業(yè)務(wù)的高速發(fā)展，服務(wù)開通方式和受理渠道的多樣化，業(yè)務(wù)訂購、服務(wù)開通，涉及的網(wǎng)元數(shù)據(jù)交付操作業(yè)務(wù)規(guī)則也變得相對復(fù)雜。支付、平臺和業(yè)務(wù)系統(tǒng)之間各網(wǎng)元的用戶、業(yè)務(wù)局?jǐn)?shù)據(jù)產(chǎn)生差異，業(yè)務(wù)、計(jì)費(fèi)以及服務(wù)的問題日漸突出，成為服務(wù)質(zhì)量問題，逐漸轉(zhuǎn)變?yōu)橹晤惖呢?zé)任問題等。對此，數(shù)據(jù)一致性問題也被越來越重視，各大運(yùn)營商對數(shù)據(jù)質(zhì)量要求也越來越高。而支付、平臺和業(yè)務(wù)系統(tǒng)之間的網(wǎng)元數(shù)據(jù)量又尤為巨大，如無法在短時進(jìn)行數(shù)據(jù)稽核，如多次或者拉長稽核周期，比對的數(shù)據(jù)又存在時差，造成比對結(jié)果不正確等。

6、然而，現(xiàn)有技術(shù)中海量對比方法存在以下缺點(diǎn)：

7、現(xiàn)有技術(shù)處理數(shù)據(jù)一次性操作海量數(shù)據(jù)，當(dāng)數(shù)據(jù)量達(dá)到數(shù)億、數(shù)十億級，對處理計(jì)算環(huán)境性能造成影響，會導(dǎo)致無法完成數(shù)據(jù)稽核操作或低效、卡頓異常等情況；

8、現(xiàn)有計(jì)算處理數(shù)據(jù)基本基于單機(jī)主機(jī)、受限于單主機(jī)資源、內(nèi)存等限制，稽核效率較低，尤其當(dāng)數(shù)據(jù)對比算法效率不高時，傳統(tǒng)的數(shù)據(jù)稽核引擎無法達(dá)到用戶的稽核要求；

9、現(xiàn)有計(jì)算處理數(shù)據(jù)方法基于行業(yè)數(shù)據(jù)提出特定數(shù)據(jù)算法，算法低效單一、操作實(shí)施環(huán)境單一，無法高效準(zhǔn)確匹配處理多樣化數(shù)據(jù)，不滿足實(shí)際復(fù)雜多樣的數(shù)據(jù)需求。

10、綜上所述，我們需要一種快速、高效、準(zhǔn)確的數(shù)據(jù)對比方法來進(jìn)行數(shù)據(jù)稽核。

技術(shù)實(shí)現(xiàn)思路

1、為此，本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中效率和準(zhǔn)確度低的問題。

2、為解決上述技術(shù)問題，本發(fā)明提供了一種海量數(shù)據(jù)對比方法，包括：

3、步驟1：獲取目標(biāo)數(shù)據(jù)，采用分治法對所述目標(biāo)數(shù)據(jù)進(jìn)行分解特征提取，得到多個不同特征的獨(dú)立稽核數(shù)據(jù)；

4、步驟2：利用分片排序算法及窮盡平移遞增比較方法或key-value形式的一致性比較方法對多個獨(dú)立稽核數(shù)據(jù)進(jìn)行一致性比較分析，并合并多個數(shù)據(jù)一致性比較結(jié)果，得到數(shù)據(jù)相同列表、主稽查數(shù)據(jù)不同列表和被稽查數(shù)據(jù)不同列表；

5、步驟3：對所述主稽查數(shù)據(jù)不同列表和所述被稽查數(shù)據(jù)不同列表重復(fù)步驟1-2的內(nèi)容進(jìn)行校驗(yàn)，并將校驗(yàn)結(jié)果和所述數(shù)據(jù)相同列表進(jìn)行合并，得到最終的數(shù)據(jù)對比結(jié)果。

6、優(yōu)選地，所述采用分治法對所述目標(biāo)數(shù)據(jù)進(jìn)行分解特征提取包括：

7、設(shè)置多個分解特征；

8、根據(jù)所述多個分解特征對所述目標(biāo)數(shù)據(jù)進(jìn)行遞歸提取。

9、優(yōu)選地，所述利用分片排序算法及窮盡平移遞增比較方法或key-value形式的一致性比較方法對多個獨(dú)立稽核數(shù)據(jù)進(jìn)行一致性比較分析包括：

10、當(dāng)所述多個獨(dú)立稽核數(shù)據(jù)具備可排序特征或數(shù)據(jù)數(shù)量大于第一預(yù)設(shè)閾值時，采用所述分片排序算法及窮盡平移遞增比較方法；

11、當(dāng)所述多個獨(dú)立稽核數(shù)據(jù)的可排序特征顯著性低于第二預(yù)設(shè)閾值且數(shù)據(jù)數(shù)量小于所述第一預(yù)設(shè)閾值時，采用所述key-value形式的一致性比較方法。

12、優(yōu)選地，所述利用分片排序算法及窮盡平移遞增比較方法對多個獨(dú)立稽核數(shù)據(jù)進(jìn)行一致性比較分析包括：

13、對所述多個獨(dú)立稽核數(shù)據(jù)定義排序關(guān)鍵字；

14、將每個獨(dú)立稽核數(shù)據(jù)分化為一個或多個片段，并從中讀取主稽查數(shù)據(jù)片段和被稽查數(shù)據(jù)片段；

15、根據(jù)所述排序關(guān)鍵詞分別對獲得的多個主稽查數(shù)據(jù)片段和多個被稽查數(shù)據(jù)片段進(jìn)行排序，得到主稽查有序數(shù)據(jù)片段列表和被稽查有序數(shù)據(jù)片段列表；

16、從頭到尾依次對主稽查有序數(shù)據(jù)片段列表和被稽查有序數(shù)據(jù)片段列表中的主稽查數(shù)據(jù)片段和被稽查數(shù)據(jù)片段進(jìn)行讀取和比較；

17、若二者比較相同，則記錄到數(shù)據(jù)相同列表中，若主稽查數(shù)據(jù)片段大于被稽查數(shù)據(jù)片段，則記錄到被稽查數(shù)據(jù)不同列表中，若主稽查數(shù)據(jù)片段小于被稽查數(shù)據(jù)片段，則記錄到主稽查數(shù)據(jù)不同列表中。

18、優(yōu)選地，所述將每個獨(dú)立稽核數(shù)據(jù)分化為一個或多個片段包括：

19、將每個獨(dú)立稽核數(shù)據(jù)作為整個分片或根據(jù)分治法將每個獨(dú)立稽核數(shù)據(jù)分化為多個片段。

20、優(yōu)選地，所述利用key-value形式的一致性比較方法對多個獨(dú)立稽核數(shù)據(jù)進(jìn)行一致性比較分析包括：

21、對每個獨(dú)立稽核數(shù)據(jù)定義關(guān)鍵字段key，并通過所述關(guān)鍵字段映射行全量數(shù)據(jù)value；

22、從多個獨(dú)立稽核數(shù)據(jù)中讀取主稽查數(shù)據(jù)片段和被稽查數(shù)據(jù)片段；

23、將每個主稽查數(shù)據(jù)片段以key-value的方式進(jìn)行存儲；

24、從頭到尾依次對排序后的多個被稽查數(shù)據(jù)片段進(jìn)行讀取，并計(jì)算對應(yīng)關(guān)鍵字段的哈希值，根據(jù)所述哈希值判斷是否存在同樣關(guān)鍵字段的主稽查數(shù)據(jù)片段；

25、若存在，則記錄在數(shù)據(jù)相同列表中，若不存在，則記錄在被稽查數(shù)據(jù)不同列表中，所述被稽查數(shù)據(jù)片段讀取完畢后，剩余的主稽查數(shù)據(jù)片段記錄在主稽查數(shù)據(jù)不同列表中。

26、優(yōu)選地，所述海量數(shù)據(jù)對比方法應(yīng)用于hadoop大數(shù)據(jù)平臺，包括：

27、設(shè)置獨(dú)立稽核數(shù)據(jù)任務(wù)；

28、通過mapreduce提交所述獨(dú)立稽核數(shù)據(jù)任務(wù)；

29、在jobtracker收到tasktracker資源管理匯報的資源情況為空閑后，利用jobtracker分配任務(wù)請求并進(jìn)行任務(wù)調(diào)度，執(zhí)行一致性比較分析和校驗(yàn)作業(yè)；

30、當(dāng)隊(duì)列中的任務(wù)全部完成作業(yè)后，合并一致性結(jié)果列表。

31、本發(fā)明還提供了一種海量數(shù)據(jù)對比裝置，包括：

32、數(shù)據(jù)分治提取模塊，用于獲取目標(biāo)數(shù)據(jù)，采用分治法對所述目標(biāo)數(shù)據(jù)進(jìn)行分解特征提取，得到多個不同特征的獨(dú)立稽核數(shù)據(jù)；

33、一致性比較分析模塊，用于利用分片排序算法及窮盡平移遞增比較方法或key-value形式的一致性比較方法對多個獨(dú)立稽核數(shù)據(jù)進(jìn)行一致性比較分析，并合并多個數(shù)據(jù)一致性比較結(jié)果，得到數(shù)據(jù)相同列表、主稽查數(shù)據(jù)不同列表和被稽查數(shù)據(jù)不同列表；

34、結(jié)果驗(yàn)證和輸出模塊，用于對所述主稽查數(shù)據(jù)不同列表和所述被稽查數(shù)據(jù)不同列表重復(fù)所述數(shù)據(jù)分治提取模塊和所述一致性比較分析模塊中的內(nèi)容進(jìn)行校驗(yàn)，并將校驗(yàn)結(jié)果和所述數(shù)據(jù)相同列表進(jìn)行合并，得到最終的數(shù)據(jù)對比結(jié)果。

35、本發(fā)明還提供了一種海量數(shù)據(jù)對比設(shè)備，包括：

36、存儲器，用于存儲計(jì)算機(jī)程序；

37、處理器，用于執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述一種海量數(shù)據(jù)對比方法步驟。

38、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述一種海量數(shù)據(jù)對比方法的步驟。

39、本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn)：

40、本發(fā)明所述的海量數(shù)據(jù)對比方法，采用分治思想的數(shù)據(jù)比對方案，將數(shù)據(jù)分化為更合理且可高效處理的片段，并根據(jù)數(shù)據(jù)特征，提供了可選擇的兩種稽查方法，最后，還進(jìn)行了準(zhǔn)確性校驗(yàn)，將獨(dú)立的分析結(jié)果進(jìn)行合并，得到最終的對比結(jié)果；本發(fā)明所提供方法，達(dá)到了高效和高精確度的要求。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳慧晶,李遙,周勁宇,郭正,范品發(fā)
技術(shù)所有人：中國移動通信集團(tuán)廣東有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種海量數(shù)據(jù)對比方法、裝置及存儲介質(zhì)與流程