日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

數(shù)據(jù)挖掘方法和裝置的制造方法

文檔序號:10665758閱讀:357來源:國知局
數(shù)據(jù)挖掘方法和裝置的制造方法【專利摘要】本發(fā)明公開了一種數(shù)據(jù)挖掘方法和裝置,屬于數(shù)據(jù)挖掘領(lǐng)域。方法包括:掃描事務(wù)數(shù)據(jù)庫,得到多個事務(wù)以及至少一個項(xiàng)目;獲取多個候選項(xiàng)集;對于每個候選項(xiàng)集,根據(jù)候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括候選項(xiàng)集的指定事務(wù)的數(shù)目,計算候選項(xiàng)集的加權(quán)支持度;根據(jù)每個指定事務(wù)的發(fā)生時間,計算候選項(xiàng)集的時效值;判斷候選項(xiàng)集的時效值是否大于第一閾值,以及加權(quán)支持度是否大于第二閾值;當(dāng)時效值大于第一閾值且加權(quán)支持度大于第二閾值時,將候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。本發(fā)明考慮到項(xiàng)集的時效性因素,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性?!緦@f明】數(shù)據(jù)挖掘方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種數(shù)據(jù)挖掘方法和裝置。【
背景技術(shù)
】[0002]近些年來,高權(quán)重頻繁項(xiàng)集挖掘已成為數(shù)據(jù)挖掘領(lǐng)域的關(guān)鍵問題之一。通過對事務(wù)數(shù)據(jù)庫進(jìn)行挖掘,可以獲取到由事務(wù)數(shù)據(jù)庫中的不同項(xiàng)目組成的高權(quán)重頻繁項(xiàng)集,從而發(fā)現(xiàn)不同項(xiàng)目之間隱藏的重要關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則可以應(yīng)用于庫存管理、購物籃分析等多種領(lǐng)域。[0003]事務(wù)數(shù)據(jù)庫中包括多個事務(wù),且每個事務(wù)包括至少一個項(xiàng)目,在對該事務(wù)數(shù)據(jù)庫進(jìn)行挖掘時,可以根據(jù)每個項(xiàng)目的重要程度為每個項(xiàng)目分配權(quán)重,則對于每個候選項(xiàng)集來說,根據(jù)該候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及該候選項(xiàng)集在該事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù),計算該候選項(xiàng)集的加權(quán)支持度,該加權(quán)支持度既能夠表示該候選項(xiàng)集的重要程度,也能夠表示該候選項(xiàng)集是否頻繁出現(xiàn)在該事務(wù)數(shù)據(jù)庫中,當(dāng)該候選項(xiàng)集的加權(quán)支持度大于最小加權(quán)支持度閾值時,確定該候選項(xiàng)集為高權(quán)重頻繁項(xiàng)集。[0004]但是,上述挖掘方法易產(chǎn)生沒有實(shí)際應(yīng)用價值的干擾項(xiàng)集,出現(xiàn)干擾的可能性大,挖掘出的重要關(guān)聯(lián)規(guī)則不準(zhǔn)確。例如,一個項(xiàng)集在很長時間之前頻繁出現(xiàn),但在近期內(nèi)出現(xiàn)很少,則應(yīng)用上述挖掘方法進(jìn)行挖掘時仍可能會將該項(xiàng)集確定為高權(quán)重頻繁項(xiàng)集。由于該項(xiàng)集已過期,該項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則已不能準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,即使將該項(xiàng)集挖掘出來也沒有實(shí)際應(yīng)用價值,實(shí)用性低?!?br/>發(fā)明內(nèi)容】[0005]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)挖掘方法和裝置。所述技術(shù)方案如下:[0006]第一方面,提供了一種數(shù)據(jù)挖掘方法,所述方法包括:[0007]掃描事務(wù)數(shù)據(jù)庫,得到所述事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目;[0008]根據(jù)所述事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集;[0009]對于每個候選項(xiàng)集,根據(jù)所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,計算所述候選項(xiàng)集的加權(quán)支持度;[0010]根據(jù)每個指定事務(wù)的發(fā)生時間,計算所述候選項(xiàng)集的時效值;[0011]判斷所述候選項(xiàng)集的時效值是否大于第一閾值;[0012]判斷所述候選項(xiàng)集的加權(quán)支持度是否大于第二閾值;[0013]當(dāng)所述時效值大于所述第一閾值且所述加權(quán)支持度大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。[0014]第二方面,提供了一種數(shù)據(jù)挖掘裝置,所述裝置包括:[0015]掃描模塊,用于掃描事務(wù)數(shù)據(jù)庫,得到所述事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目;[0016]候選項(xiàng)集獲取模塊,用于根據(jù)所述事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集;[0017]第一計算模塊,用于對于每個候選項(xiàng)集,根據(jù)所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,計算所述候選項(xiàng)集的加權(quán)支持度;[0018]第二計算模塊,用于根據(jù)每個指定事務(wù)的發(fā)生時間,計算所述候選項(xiàng)集的時效值;[0019]判斷模塊,用于判斷所述候選項(xiàng)集的時效值是否大于第一閾值;[0020]所述判斷模塊,還用于判斷所述候選項(xiàng)集的加權(quán)支持度是否大于第二閾值;[0021]確定模塊,用于當(dāng)所述時效值大于所述第一閾值且所述加權(quán)支持度大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。[0022]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:[0023]本發(fā)明實(shí)施例提供的方法和裝置,通過根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,從而挖掘出時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘方法不僅考慮到項(xiàng)集的權(quán)重因素,還考慮到了項(xiàng)集的時效性因素,能夠過濾掉在很長時間之前出現(xiàn)的高權(quán)重頻繁項(xiàng)集,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性?!靖綀D說明】[0024]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0025]圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖;[0026]圖2是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖;[0027]圖3是本發(fā)明實(shí)施例提供的候選項(xiàng)集樹形圖;[0028]圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖;[0029]圖5是本發(fā)明實(shí)施例提供的候選項(xiàng)集過濾示意圖;[0030]圖6a是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0031]圖6b是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0032]圖6c是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0033]圖6d是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0034]圖7a是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0035]圖7b是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0036]圖7c是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0037]圖7d是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0038]圖8a是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0039]圖8b是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0040]圖8c是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0041]圖8d是本發(fā)明實(shí)施例提供的基于不同最小加權(quán)支持度閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0042]圖9a是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0043]圖9b是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0044]圖9c是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0045]圖9d是本發(fā)明實(shí)施例提供的基于不同最小時效值閾值的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0046]圖10a是本發(fā)明實(shí)施例提供的基于不同項(xiàng)集長度的數(shù)據(jù)挖掘算法的運(yùn)行時間示意圖;[0047]圖10b是本發(fā)明實(shí)施例提供的基于不同項(xiàng)集長度的數(shù)據(jù)挖掘算法的內(nèi)存消耗示意圖;[0048]圖10c是本發(fā)明實(shí)施例提供的基于不同項(xiàng)集長度的數(shù)據(jù)挖掘算法的項(xiàng)集數(shù)量示意圖;[0049]圖11是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘裝置結(jié)構(gòu)示意圖。【具體實(shí)施方式】[0050]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0051]為了便于對本發(fā)明實(shí)施例進(jìn)行說明,預(yù)先對本發(fā)明實(shí)施例涉及的基本概念進(jìn)行如下介紹:[0052]1、項(xiàng)目:用戶執(zhí)行的操作行為對應(yīng)的操作對象稱為項(xiàng)目,例如用戶選擇的一個物品即為一個項(xiàng)目。[0053]2、事務(wù):用戶執(zhí)行的操作行為稱為事務(wù),事務(wù)以至少一個項(xiàng)目來表示,例如用戶選擇物品的事務(wù)以用戶所選擇的至少一個物品來表示。[0054]3、事務(wù)的發(fā)生時間:用戶執(zhí)行操作行為時表示事務(wù)發(fā)生,事務(wù)的發(fā)生時間即為用戶完成操作行為的時間。[0055]4、事務(wù)數(shù)據(jù)庫:由一個或多個事務(wù)組成的數(shù)據(jù)庫稱為事務(wù)數(shù)據(jù)庫。[0056]5、項(xiàng)集:由一個或多個組成的項(xiàng)目集合稱為項(xiàng)集。[0057]6、項(xiàng)集出現(xiàn):如果一個事務(wù)中包含項(xiàng)集中所有項(xiàng)目,則稱該項(xiàng)集在該事務(wù)中出現(xiàn)。如果事務(wù)數(shù)據(jù)庫中有很多包括項(xiàng)集中所有項(xiàng)目的事務(wù),則稱項(xiàng)集在事務(wù)數(shù)據(jù)庫中頻繁出現(xiàn)。[0058]7、項(xiàng)目的權(quán)重:為每個項(xiàng)目預(yù)先分配的權(quán)重即為項(xiàng)目的權(quán)重,項(xiàng)目的權(quán)重用于表示項(xiàng)目的重要程度。[0059]8、項(xiàng)集的權(quán)重:項(xiàng)集中每個項(xiàng)目的權(quán)重平均值作為項(xiàng)集的權(quán)重,項(xiàng)集權(quán)重用于表示項(xiàng)集的重要程度。[0060]9、項(xiàng)集的支持度:項(xiàng)集在事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù)稱為項(xiàng)集的支持度,用于表示項(xiàng)集是否出現(xiàn)頻繁。[0061]10、高權(quán)重頻繁項(xiàng)集:權(quán)重較高且在事務(wù)數(shù)據(jù)庫中出現(xiàn)頻繁的項(xiàng)集稱為高權(quán)重頻繁項(xiàng)集。[0062]11、項(xiàng)集的加權(quán)支持度:項(xiàng)集的權(quán)重和支持度的乘積稱為加權(quán)支持度。[0063]12、項(xiàng)集的時效值:項(xiàng)集的時效值根據(jù)項(xiàng)集所在事務(wù)的發(fā)生時間確定,項(xiàng)集的時效值用于表示項(xiàng)集的出現(xiàn)時間早晚,時效值越大,表示項(xiàng)集的出現(xiàn)越晚,距離當(dāng)前時間點(diǎn)越近。[0064]13、近期高權(quán)重頻繁項(xiàng)集:加權(quán)支持度大于最小加權(quán)支持度閾值且時效值大于最小時效值閾值的項(xiàng)集稱為近期高權(quán)重頻繁項(xiàng)集,表示該項(xiàng)集權(quán)重較高、在事務(wù)數(shù)據(jù)庫中出現(xiàn)頻繁,并且近期內(nèi)在事務(wù)數(shù)據(jù)庫中也出現(xiàn)頻繁。[0065]14、事務(wù)的事務(wù)高估權(quán)重:事務(wù)中的至少一個項(xiàng)目的權(quán)重最大值稱為事務(wù)的事務(wù)高估權(quán)重。[0066]15、項(xiàng)集的事務(wù)累積高估權(quán)重:包括項(xiàng)集的每個事務(wù)的事務(wù)高估權(quán)重之和稱為項(xiàng)集的事務(wù)累積尚估權(quán)重。[0067]16、近期高權(quán)重頻繁高估項(xiàng)集:事務(wù)累積高估權(quán)重大于最小加權(quán)支持度閾值且時效值大于最小時效值閾值的項(xiàng)集稱為近期高權(quán)重頻繁高估項(xiàng)集。[0068]17、項(xiàng)集的真超集:如果第一項(xiàng)集包括第二項(xiàng)集中的每個項(xiàng)目且第一項(xiàng)集中至少有一個項(xiàng)目不屬于第二項(xiàng)集,則第一項(xiàng)集是第二項(xiàng)集的真超集。[0069]本發(fā)明實(shí)施例還提供了以下規(guī)則:[0070]1、近期高權(quán)重頻繁項(xiàng)集都是近期高權(quán)重頻繁高估項(xiàng)集;[0071]如果一個項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,則該項(xiàng)集不是近期高權(quán)重頻繁項(xiàng)集。[0072]2、近期高權(quán)重頻繁高估項(xiàng)集具有以下向下閉合特性:如果一個項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,則該項(xiàng)集的真超集都不是近期高權(quán)重頻繁高估項(xiàng)集。[0073]圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖,參見圖1,該方法包括:[0074]101、掃描事務(wù)數(shù)據(jù)庫,得到該事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目。[0075]102、根據(jù)該事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集。[0076]103、對于每個候選項(xiàng)集,根據(jù)該候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括該候選項(xiàng)集的指定事務(wù)的數(shù)目,計算該候選項(xiàng)集的加權(quán)支持度。[0077]104、根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值。[0078]105、判斷該候選項(xiàng)集的時效值是否大于第一閾值,并判斷該候選項(xiàng)集的加權(quán)支持度是否大于第二閾值。[0079]106、當(dāng)該時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值時,將該候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。[0080]本發(fā)明實(shí)施例提供的方法,通過根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,從而挖掘出時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘方法不僅考慮到項(xiàng)集的權(quán)重因素,還考慮到了項(xiàng)集的時效性因素,能夠過濾掉在很長時間之前出現(xiàn)的高權(quán)重頻繁項(xiàng)集,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性。[0081]可選地,該根據(jù)該候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括該候選項(xiàng)集的指定事務(wù)的數(shù)目,計算該候選項(xiàng)集的加權(quán)支持度,包括:[0082]計算該候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為該候選項(xiàng)集的權(quán)重;[0083]計算該事務(wù)數(shù)據(jù)庫中包括該候選項(xiàng)集的指定事務(wù)的數(shù)目,作為該候選項(xiàng)集的支持度;[0084]計算該候選項(xiàng)集的權(quán)重與支持度的乘積,作為該候選項(xiàng)集的加權(quán)支持度。[0085]可選地,根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,包括:[0086]根據(jù)每個指定事務(wù)的發(fā)生時間,計算每個指定事務(wù)的時效值;[0087]將計算出的每個指定事務(wù)的時效值之和作為該候選項(xiàng)集的時效值。[0088]可選地,該根據(jù)每個指定事務(wù)的發(fā)生時間,計算包括每個指定事務(wù)的時效值,包括:[0089]對于每個指定事務(wù),根據(jù)該指定事務(wù)的序號,應(yīng)用以下公式,計算該指定事務(wù)的時效值:[0090]R(Tq)=(1-5)|D|q;[0091]其中,Tq用于表示該指定事務(wù),R(Tq)用于表示該指定事務(wù)Tq的時效值,δ用于表示預(yù)設(shè)時間衰減因子,〇<s<1,D用于表示該事務(wù)數(shù)據(jù)庫,|D|用于表示該事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目,q用于表示該指定事務(wù)Tq的序號,該指定事務(wù)Tq的序號由該指定事務(wù)Tq的發(fā)生時間確定。[0092]可選地,該判斷該候選項(xiàng)集的加權(quán)支持度是否大于第二閾值之前,該方法還包括:[0093]將每個指定事務(wù)中項(xiàng)目權(quán)重的最大值作為對應(yīng)指定事務(wù)的事務(wù)高估權(quán)重;[0094]計算每個指定事務(wù)的事務(wù)高估權(quán)重之和,作為該候選項(xiàng)集的事務(wù)累積高估權(quán)重;[0095]判斷該候選項(xiàng)集的事務(wù)累積高估權(quán)重是否大于該第二閾值;[0096]當(dāng)該時效值大于該第一閾值且該候選項(xiàng)集的事務(wù)累積高估權(quán)重大于該第二閾值時,將該候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集;[0097]執(zhí)行判斷已確定的近期高權(quán)重頻繁高估項(xiàng)集的加權(quán)支持度是否大于該第二閾值的步驟。[0098]可選地,該方法還包括:[0099]當(dāng)?shù)谝缓蜻x項(xiàng)集的時效值大于該第一閾值且該第一候選項(xiàng)集的事務(wù)累積高估權(quán)重大于該第二閾值時,將該第一候選項(xiàng)集的真超集作為近期高權(quán)重頻繁高估項(xiàng)集的第二候選項(xiàng)集。[0100]可選地,該方法還包括:[0101]當(dāng)該候選項(xiàng)集的時效值不大于該第一閾值或者該候選項(xiàng)集的事務(wù)累積高估權(quán)重不大于該第二閾值時,過濾該候選項(xiàng)集和該候選項(xiàng)集的真超集。[0102]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再--贅述。[0103]圖2是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖,參見圖2,該方法包括:[0104]201、掃描事務(wù)數(shù)據(jù)庫,得到該事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目。[0105]其中,該事務(wù)數(shù)據(jù)庫包括多個事務(wù),每個事務(wù)包括至少一個項(xiàng)目,掃描該事務(wù)數(shù)據(jù)庫可以確定該事務(wù)數(shù)據(jù)庫中包括的事務(wù),也可以確定該事務(wù)數(shù)據(jù)庫中包括的項(xiàng)目。該事務(wù)數(shù)據(jù)庫中的一個事務(wù)可以看作一個項(xiàng)集,且該事務(wù)數(shù)據(jù)庫中包括的任一個或多個項(xiàng)目可以組成一個項(xiàng)集。[0106]在創(chuàng)建該事務(wù)數(shù)據(jù)庫時,可以選取多個目標(biāo)用戶作為樣本,對于每個目標(biāo)用戶,在該目標(biāo)用戶執(zhí)行操作行為的過程中,統(tǒng)計該目標(biāo)用戶的操作行為以及每次操作行為的至少一個操作對象,該目標(biāo)用戶每次的操作行為構(gòu)成一個事務(wù),該操作行為的至少一個操作對象即為該事務(wù)中的至少一個項(xiàng)目,也即是,該事務(wù)包括該至少一個項(xiàng)目,在該事務(wù)中該至少一個項(xiàng)目同時出現(xiàn)。通過統(tǒng)計多個目標(biāo)用戶執(zhí)行的操作行為,得到多個事務(wù),該多個事務(wù)構(gòu)成該事務(wù)數(shù)據(jù)庫。[0107]例如,對于每個目標(biāo)用戶,在目標(biāo)用戶選擇物品后,統(tǒng)計該目標(biāo)用戶本次選擇的至少一個物品,構(gòu)成一個事務(wù),該事務(wù)包括該至少一個物品。通過不斷地對多個目標(biāo)用戶的選擇物品行為進(jìn)行統(tǒng)計,可以得到多個事務(wù),將該多個事務(wù)構(gòu)成該事務(wù)數(shù)據(jù)庫。通過對該事務(wù)數(shù)據(jù)庫進(jìn)行分析,可以確定具有關(guān)聯(lián)關(guān)系的物品,那么,物品提供商即可基于物品之間的關(guān)聯(lián)關(guān)系,將物品放置在同一位置或者相鄰位置,以提高用戶對物品的選擇幾率,節(jié)省用戶尋找物品的時間當(dāng)然,對于網(wǎng)上商城等在線購物場景,還可以基于物品之間的關(guān)聯(lián),主動為用戶推薦具有關(guān)聯(lián)關(guān)系的物品,以進(jìn)一步提高用戶對物品的選擇幾率,節(jié)省用戶尋找物品的時間。[0108]在本發(fā)明實(shí)施例中,為了區(qū)分不同的事務(wù),為每個事務(wù)設(shè)置一個TID(TransactionIdentity,事務(wù)標(biāo)識),該事務(wù)標(biāo)識TID用于確定對應(yīng)的事務(wù)。可選地,根據(jù)每個事務(wù)發(fā)生時間從早到晚的順序進(jìn)彳丁排序,根據(jù)每個事務(wù)的排列順序獲取每個事務(wù)的序號,將事務(wù)的序號作為事務(wù)標(biāo)識,事務(wù)的序號越大,表示事務(wù)的發(fā)生時間越晚,該事務(wù)對當(dāng)前時間點(diǎn)的影響越大,該事務(wù)的實(shí)際應(yīng)用價值越大。例如,該事務(wù)數(shù)據(jù)庫可以如下表1所示。[0109]表1[0110][0111]該事務(wù)數(shù)據(jù)庫中包括10個事務(wù),掃描該事務(wù)數(shù)據(jù)庫,可以確定該事務(wù)數(shù)據(jù)庫包括的項(xiàng)目為a、b、c、d、e和f。[0112]202、將每個項(xiàng)目所構(gòu)成的項(xiàng)集分別作為第一候選項(xiàng)集,對每個第一候選項(xiàng)集執(zhí)行步驟203。[0113]掃描該事務(wù)數(shù)據(jù)庫后可以確定該事務(wù)數(shù)據(jù)庫中包括的每個項(xiàng)目,其中的一個或多個項(xiàng)目可以通過不同的組合方式可以組成多個項(xiàng)集,這些項(xiàng)集中有些是要挖掘的近期高權(quán)重頻繁項(xiàng)集,有些不是,則為了從中挖掘出近期高權(quán)重頻繁項(xiàng)集,需要將該事務(wù)數(shù)據(jù)庫中的一個或多個項(xiàng)目組成的項(xiàng)集分別作為候選項(xiàng)集,判斷每個候選項(xiàng)集是否為近期高權(quán)重頻繁項(xiàng)集。首先,將每個項(xiàng)目構(gòu)成一個項(xiàng)集,并將構(gòu)成的項(xiàng)集作為第一候選項(xiàng)集,從該第一候選項(xiàng)集中獲取近期高權(quán)重頻繁項(xiàng)集。[0114]參見表1,6個項(xiàng)目a、b、c、d、e和f所構(gòu)成的項(xiàng)集分別為{a}、、{c}、dlxzpnr5p5f、{e}、{f}。[0115]203、根據(jù)當(dāng)前候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括該當(dāng)前候選項(xiàng)集的指定事務(wù)的數(shù)目,計算該當(dāng)前候選項(xiàng)集的加權(quán)支持度,根據(jù)每個指定事務(wù)的發(fā)生時間,計算該當(dāng)前候選項(xiàng)集的時效值。[0116]本發(fā)明實(shí)施例僅以將每個項(xiàng)目所構(gòu)成的項(xiàng)集分別作為第一候選項(xiàng)集為例進(jìn)行說明,該第一候選項(xiàng)集中包括一個項(xiàng)目,而在實(shí)際的數(shù)據(jù)挖掘過程中,從第一候選項(xiàng)集中獲取近期高權(quán)重頻繁項(xiàng)集后,還可以根據(jù)該第一候選項(xiàng)集進(jìn)行迭代,將包括該第一候選項(xiàng)集的項(xiàng)集,也即是該第一候選項(xiàng)集的真超集作為下一層的第二候選項(xiàng)集,再從第二候選項(xiàng)集中獲取近期高權(quán)重頻繁項(xiàng)集,以此類推,直到已將由該事務(wù)數(shù)據(jù)庫中的所有項(xiàng)目組成的項(xiàng)集作為候選項(xiàng)集為止。采用迭代的方式獲取多層候選項(xiàng)集,從獲取到的每層候選項(xiàng)集中獲取近期高權(quán)重頻繁項(xiàng)集。[0117]將當(dāng)前要進(jìn)行判斷的候選項(xiàng)集稱為當(dāng)前候選項(xiàng)集,則判斷當(dāng)前候選項(xiàng)集是否為近期高權(quán)重頻繁項(xiàng)集時,需要先計算當(dāng)前候選項(xiàng)集的加權(quán)支持度和時效值,該計算過程具體可以包括以下步驟(1)和(2):[0118](1)根據(jù)每個項(xiàng)目的權(quán)重,計算該當(dāng)前候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為該當(dāng)前候選項(xiàng)集的權(quán)重,計算該事務(wù)數(shù)據(jù)庫中包括該當(dāng)前候選項(xiàng)集的指定事務(wù)的數(shù)目,作為該當(dāng)前候選項(xiàng)集的支持度,計算該當(dāng)前候選項(xiàng)集的權(quán)重與支持度的乘積,作為該當(dāng)前候選項(xiàng)集的加權(quán)支持度。[0119]對于一個項(xiàng)集來說,如果該項(xiàng)集中包括的多個項(xiàng)目重要程度很低,不是該數(shù)據(jù)挖掘過程所關(guān)注的項(xiàng)目,那么即使獲取到該項(xiàng)集,該項(xiàng)集中的多個項(xiàng)目之間的關(guān)聯(lián)關(guān)系也沒有實(shí)際應(yīng)用價值。因此,為了挖掘出有實(shí)際應(yīng)用價值的項(xiàng)集,需要判斷當(dāng)前候選項(xiàng)集是否重要。[0120]其中,項(xiàng)目權(quán)重用于表示項(xiàng)目的重要程度,每個項(xiàng)目的權(quán)重可以由數(shù)據(jù)挖掘人員根據(jù)每個項(xiàng)目的挖掘需求預(yù)先設(shè)定或者采用其他方式確定,并存儲在預(yù)設(shè)權(quán)重表中,本發(fā)明實(shí)施例對項(xiàng)目權(quán)重的設(shè)定方式不做限定,只需滿足每個項(xiàng)目的權(quán)重屬于區(qū)間(〇,1]即可。例如,參見表1,6個項(xiàng)目的權(quán)重可以設(shè)置為:w(a)=0.4,w(b)=0.7,w(c)=1.0,w(d)=0·5,w(e)=0·45,w(f)=0·35。[0121]確定每個項(xiàng)目的權(quán)重后,可以應(yīng)用以下公式,計算該當(dāng)前候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為當(dāng)前候選項(xiàng)集的權(quán)重:[0122]其中,w(X)用于表示當(dāng)前候選項(xiàng)集X的權(quán)重,|X|用于表示當(dāng)前候選項(xiàng)集X的項(xiàng)目數(shù)目,wa,)用于表示項(xiàng)目^的權(quán)重,義,且〇<|X|,j為自然數(shù)。[0123]例如,對于項(xiàng)集{bee},[0124]當(dāng)前候選項(xiàng)集的權(quán)重可以表示當(dāng)前候選項(xiàng)集的重要程度,當(dāng)前候選項(xiàng)集的權(quán)重越大,表示當(dāng)前候選項(xiàng)集越重要,當(dāng)前候選項(xiàng)集中的多個項(xiàng)目之間的關(guān)聯(lián)關(guān)系越有意義。[0125]對于一個項(xiàng)集來說,如果該項(xiàng)集在該事務(wù)數(shù)據(jù)庫中出現(xiàn)不頻繁,表示項(xiàng)集中多個項(xiàng)目之間的關(guān)聯(lián)關(guān)系僅是偶然出現(xiàn),該項(xiàng)集不能準(zhǔn)確體現(xiàn)出該多個項(xiàng)目之間的真實(shí)關(guān)聯(lián)關(guān)系。因此,為了挖掘準(zhǔn)確的關(guān)聯(lián)關(guān)系,除了判斷當(dāng)前候選項(xiàng)集是否重要之外,還要判斷當(dāng)前候選項(xiàng)集是否頻繁。具體地,確定該事務(wù)數(shù)據(jù)庫中包含當(dāng)前候選項(xiàng)集的事務(wù),作為指定事務(wù),計算該事務(wù)數(shù)據(jù)庫中指定事務(wù)的數(shù)目,作為該當(dāng)前候選項(xiàng)集的支持度,也即是將當(dāng)前候選項(xiàng)集在該事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù)作為當(dāng)前候選項(xiàng)集的支持度,該支持度可以表示當(dāng)前候選項(xiàng)集的頻繁程度,當(dāng)前候選項(xiàng)集的支持度越大,表示當(dāng)前候選項(xiàng)集越頻繁,則當(dāng)前候選項(xiàng)集中的多個項(xiàng)目同時出現(xiàn)的概率越大,該多個項(xiàng)目之間越可能存在著關(guān)聯(lián)關(guān)系。[0126]為了表示當(dāng)前候選項(xiàng)集的重要程度和頻繁程度,本發(fā)明實(shí)施例提出了加權(quán)支持度的概念,具體地,項(xiàng)集的加權(quán)支持度為該項(xiàng)集在多個包含該項(xiàng)集的指定事務(wù)中的權(quán)重之和,而項(xiàng)集在每個指定事務(wù)中的權(quán)重均等于該項(xiàng)集本身的權(quán)重,則可以確定項(xiàng)集的加權(quán)支持度等于項(xiàng)集的權(quán)重與指定事務(wù)數(shù)目的乘積,即為項(xiàng)集的權(quán)重與該項(xiàng)集的支持度的乘積。相應(yīng)的,在對當(dāng)前候選項(xiàng)集進(jìn)行判斷時,計算該當(dāng)前候選項(xiàng)集的權(quán)重與支持度的乘積,作為該當(dāng)前候選項(xiàng)集的加權(quán)支持度即可。[0127]也即是),則其中,wsup(X)用于表示當(dāng)前候選項(xiàng)集X的加權(quán)支持度,w(X,Tq)用于表示當(dāng)前候選項(xiàng)集X在指定事務(wù)Tq中的權(quán)重,w(X)用于表示當(dāng)前候選項(xiàng)集X的權(quán)重,sup(X)用于表示當(dāng)前候選項(xiàng)集X的支持度,D用于表示該事務(wù)數(shù)據(jù)庫。[0128]例如,對于項(xiàng)集{1^}來說,包括項(xiàng)集{1^}的事務(wù)為1'1、1'3、1'5、1'1。,則¥8即(1^)=w(bee,I\)+w(bee,T3)+w(bee,T5)+w(bee,T10)=w(bee)X4=2.8668。[0129](2)根據(jù)每個指定事務(wù)的發(fā)生時間,計算每個指定事務(wù)的時效值,將計算出的每個指定事務(wù)的時效值之和作為該當(dāng)前候選項(xiàng)集的時效值。[0130]對于一個項(xiàng)集來說,如果該項(xiàng)集在很長時間之前頻繁出現(xiàn),而在近期內(nèi)出現(xiàn)很少,該項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則已不能準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,那么即使獲取到該項(xiàng)集,該項(xiàng)集中的多個項(xiàng)目之間的關(guān)聯(lián)關(guān)系也沒有實(shí)際應(yīng)用價值。因此,為了挖掘出有實(shí)際應(yīng)用價值的項(xiàng)集,需要對該項(xiàng)集的時效性進(jìn)行判斷。[0131]指定事務(wù)的時效值用于表示該指定事務(wù)發(fā)生時間的早晚,該指定事務(wù)的時效值越大,表示該指定事務(wù)的發(fā)生時間越晚,該指定事務(wù)對當(dāng)前時間點(diǎn)的影響越大,該指定事務(wù)的實(shí)際應(yīng)用價值越大。將每個指定事務(wù)的時效值之和作為該候選項(xiàng)集的時效值,該時效值能夠表示該候選項(xiàng)集出現(xiàn)時間的早晚,該候選項(xiàng)集的時效值越大,表示該候選項(xiàng)集出現(xiàn)越晚,該候選項(xiàng)集對當(dāng)前時間點(diǎn)的影響越大,實(shí)際應(yīng)用價值越大。[0132]可選地,對于每個指定事務(wù),根據(jù)該指定事務(wù)的序號,應(yīng)用以下公式,計算該指定事務(wù)的時效值:[0133]R(Tq)=(1-5)|D|q;[0134]其中,Tq用于表示該指定事務(wù),R(Tq)用于表示該指定事務(wù)Tq的時效值,δ用于表示預(yù)設(shè)時間衰減因子,〇<s<1,D用于表示該事務(wù)數(shù)據(jù)庫,|D|用于表示該事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目,q用于表示該指定事務(wù)Tq的序號。[0135]該指定事務(wù)Tq的序號q由該指定事務(wù)Tq的發(fā)生時間確定,該指定事務(wù)Tq的發(fā)生時間越晚,該指定事務(wù)Tq的序號q越大。則該指定事務(wù)Tq的序號q表示該指定事務(wù)Tq的發(fā)生時間,該事務(wù)數(shù)目|D|表示當(dāng)前時間戳,采用上述公式計算時效值,可以保證指定事務(wù)Tq的發(fā)生時間與當(dāng)前時間戳越接近,計算出的R(Tq)也越大。[0136]每個指定事務(wù)的時效值即為當(dāng)前候選項(xiàng)集在該指定事務(wù)中的時效值,則將計算出的每個指定事務(wù)的時效值之和作為該當(dāng)前候選項(xiàng)集的時效值。即R(X,Tq)=R(Tq),其中,R(X,Tq)用于表示當(dāng)前候選項(xiàng)集X在指定事務(wù)Tq中的時效值,R(X)用于表示當(dāng)前候選項(xiàng)集X的時效值。[0137]例如,參見表1,該事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目|D|為10,假設(shè)δ=0.15,則RC^)=(1-0.15)1°工=0·2316,R(T3)=(1-0.15)1°3=0·32057,R(T3)大于RCr!)。對于項(xiàng)集{bee}來說,包括項(xiàng)集{bee}的事務(wù)為?\、Τ3、Τ5、?\。,則R(bce)=R(bce,TD+lUbce,T3)+R(bce,T5)+R(bee,T10)=0·2316+0.32057+0.4437+1.0=1.9959。[0138]204、判斷該當(dāng)前候選項(xiàng)集的時效值是否大于第一閾值,并判斷該當(dāng)前候選項(xiàng)集的加權(quán)支持度是否大于第二閾值,執(zhí)行步驟205或步驟206。[0139]在本發(fā)明實(shí)施例中,時效值大于該第一閾值的項(xiàng)集可以認(rèn)為是近期內(nèi)出現(xiàn)頻繁的項(xiàng)集,時效值不大于該第一閾值的項(xiàng)集可以認(rèn)為是近期內(nèi)出現(xiàn)不頻繁的項(xiàng)集。該第一閾值可以由數(shù)據(jù)挖掘人員根據(jù)時效性需求預(yù)先設(shè)定,本發(fā)明實(shí)施例對此不做限定。[0140]另外,加權(quán)支持度大于第二閾值的項(xiàng)集可以認(rèn)為是重要且在該事務(wù)數(shù)據(jù)庫中出現(xiàn)頻繁的項(xiàng)集,即高權(quán)重頻繁項(xiàng)集,而加權(quán)支持度不大于第二閾值的項(xiàng)集可以認(rèn)為不是高權(quán)重頻繁項(xiàng)集。該第二閾值可以由數(shù)據(jù)挖掘人員根據(jù)每個項(xiàng)目的權(quán)重和該事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目確定。可選地,確定預(yù)設(shè)最小加權(quán)支持度閾值,將該預(yù)設(shè)最小加權(quán)支持度閾值與該事務(wù)數(shù)目的乘積作為該第二閾值。則對于不同的事務(wù)數(shù)據(jù)庫來說,可以采用相同的預(yù)設(shè)最小加權(quán)支持度閾值進(jìn)行數(shù)據(jù)挖掘。[0141]那么,為了挖掘出近期的高權(quán)重頻繁項(xiàng)集,判斷當(dāng)前候選項(xiàng)集的時效值是否大于第一閾值,并判斷該當(dāng)前候選項(xiàng)集的加權(quán)支持度是否大于第二閾值,如果當(dāng)前候選項(xiàng)集的時效值大于第一閾值且加權(quán)支持度大于第二閾值,表示當(dāng)前候選項(xiàng)集是高權(quán)重頻繁項(xiàng)集,且在近期內(nèi)出現(xiàn)頻繁,則將當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。如果當(dāng)前候選項(xiàng)集的時效值不大于該第一閾值,表示當(dāng)前候選項(xiàng)集近期內(nèi)出現(xiàn)不頻繁,沒有實(shí)際應(yīng)用價值,則過濾掉當(dāng)前候選項(xiàng)集。如果當(dāng)前候選項(xiàng)集的加權(quán)支持度不大于該第二閾值,表示當(dāng)前候選項(xiàng)集不是高權(quán)重頻繁項(xiàng)集,則過濾掉當(dāng)前候選項(xiàng)集。[0142]205、當(dāng)前候選項(xiàng)集的時效值大于第一閾值且加權(quán)支持度大于第二閾值時,將該當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集,執(zhí)行步驟207。[0143]本發(fā)明實(shí)施例獲取到的近期高權(quán)重頻繁項(xiàng)集滿足以下條件:[0144](l)wsup⑴〉αX|D|;⑵R(X)>β。[0145]其中,β用于表示該第一閾值,α用于表示該預(yù)設(shè)最小加權(quán)支持度閾值,αX|D為該第二閾值。[0146]與現(xiàn)有技術(shù)中的高權(quán)重頻繁項(xiàng)集相比,本發(fā)明實(shí)施例所獲取到的近期高權(quán)重頻繁項(xiàng)集不僅滿足條件wsup(X)>aX|D|,還滿足R(X)>β,保證了獲取到的近期高權(quán)重頻繁項(xiàng)集是近期內(nèi)頻繁出現(xiàn)的項(xiàng)集。[0147]參見上述表1,確定的近期高權(quán)重頻繁項(xiàng)集的加權(quán)支持度和時效值如下表2所示,該第一閾值為2.5,該預(yù)設(shè)最小加權(quán)支持度閾值為0.18,則該第二閾值為1.8,可以看出表2中每個項(xiàng)集的加權(quán)支持度都大于1.8,時效值都大于2.5。[0148]表2[0149][0150]206、當(dāng)前候選項(xiàng)集的時效值不大于第一閾值或者加權(quán)支持度不大于第二閾值時,過濾該當(dāng)前候選項(xiàng)集,執(zhí)行步驟207。[0151]參見上述表1所計算出的項(xiàng)集{be}的時效值為1.9959,小于該第一閾值2.5,則過濾掉項(xiàng)集{be}。[0152]207、按照預(yù)設(shè)項(xiàng)目排列順序,將排在該當(dāng)前候選項(xiàng)集中的最后一個項(xiàng)目之后的項(xiàng)目與該當(dāng)前候選項(xiàng)集合并,將合并后的項(xiàng)集作為下一層的候選項(xiàng)集,對每個下一層的候選項(xiàng)集繼續(xù)執(zhí)行步驟203。[0153]對當(dāng)前候選項(xiàng)集的判斷過程完成后,可以繼續(xù)獲取當(dāng)前候選項(xiàng)集的真超集,作為下一層的候選項(xiàng)集,對下一層的候選項(xiàng)集進(jìn)行判斷。其中,如果第一項(xiàng)集包括第二項(xiàng)集中的每個項(xiàng)目且第一項(xiàng)集中至少有一個項(xiàng)目不屬于該第二項(xiàng)集,則第一項(xiàng)集是第二項(xiàng)集的真超集。[0154]不同項(xiàng)集可能具有相同的真超集,則為了避免重復(fù)獲取,減小計算量,可以采用投影機(jī)制,按照預(yù)設(shè)項(xiàng)目排列順序獲取下一層的候選項(xiàng)集。其中,該預(yù)設(shè)項(xiàng)目排列順序可以預(yù)先根據(jù)英文字母表順序和每個項(xiàng)目的名稱確定,或者由數(shù)據(jù)挖掘人員自定義設(shè)置,本發(fā)明實(shí)施例對此不做限定。[0155]具體地,先將每個項(xiàng)目構(gòu)成的項(xiàng)集作為第一候選項(xiàng)集,在后續(xù)每次迭代時,將當(dāng)前候選項(xiàng)集中的每個項(xiàng)目按照該預(yù)設(shè)項(xiàng)目排列順序進(jìn)行排列,并將排在該當(dāng)前候選項(xiàng)集中的最后一個項(xiàng)目之后的項(xiàng)目與該當(dāng)前候選項(xiàng)集合并,將合并后得到的項(xiàng)集作為下一層的候選項(xiàng)集。如果按照該預(yù)設(shè)項(xiàng)目排列順序,該當(dāng)前候選項(xiàng)集中最后一個項(xiàng)目之后還有多個項(xiàng)目,則將這多個項(xiàng)目分別與該當(dāng)前候選項(xiàng)集合并,得到多個項(xiàng)集,將得到的多個項(xiàng)集均作為下一層的候選項(xiàng)集。如果該當(dāng)前候選項(xiàng)集中最后一個項(xiàng)目為該預(yù)設(shè)項(xiàng)目排列順序中的最后一個項(xiàng)目,則不再對當(dāng)前候選項(xiàng)集進(jìn)行合并操作。[0156]圖3是本發(fā)明實(shí)施例提供的候選項(xiàng)集樹形圖,參見圖3,以該事務(wù)數(shù)據(jù)庫中共包括5個項(xiàng)目a、b、c、d、e為例進(jìn)行說明,則每次獲取候選項(xiàng)集的過程可以包括:[0157](3-1)將每個項(xiàng)目分別構(gòu)成第一候選項(xiàng)集,并按照預(yù)設(shè)項(xiàng)目排列順序"a-b-c-d-e"進(jìn)行排列,則得到的第一候選項(xiàng)集為{a}、、{c}、dlxzpnr5p5f、{e}。[0158](3-2)對于每個第一候選項(xiàng)集,將第一候選項(xiàng)集與排在該第一候選項(xiàng)集的項(xiàng)目之后的每個項(xiàng)目合并,得到第二候選項(xiàng)集,則根據(jù)第一候選項(xiàng)集{a}得到第二候選項(xiàng)集{ab}、{ac}、{ad}、{ae},根據(jù)第一候選項(xiàng)集{a}得到第二候選項(xiàng)集{be}、{bd}、{be},根據(jù)第一候選項(xiàng)集{c}得到第二候選項(xiàng)集led}、{ce},根據(jù)第一候選項(xiàng)集dlxzpnr5p5f得到第二候選項(xiàng)集{de}。[0159](3-3)對于每個第二候選項(xiàng)集,將第二候選項(xiàng)集與排在該第二候選項(xiàng)集的第二個項(xiàng)目之后的每個項(xiàng)目合并,得到第三候選項(xiàng)集。則根據(jù)第二候選項(xiàng)集{ab}得到第三候選項(xiàng)集{abc}、{abd}、{abe},根據(jù)第二候選項(xiàng)集{ac}得到第三候選項(xiàng)集{acd}、{ace},根據(jù)第二候選項(xiàng)集{ad}得到第三候選項(xiàng)集{ade},根據(jù)第二候選項(xiàng)集{be}得到第三候選項(xiàng)集{bed}、{bee},根據(jù)第二候選項(xiàng)集{bd}得到第三候選項(xiàng)集{bde},根據(jù)第二候選項(xiàng)集{cd}得到第三候選項(xiàng)集{cde}。[0160](3-4)對于每個第三候選項(xiàng)集,將第三候選項(xiàng)集與排在該第三候選項(xiàng)集的第三個項(xiàng)目之后的每個項(xiàng)目合并,得到第四候選項(xiàng)集。則根據(jù)第三候選項(xiàng)集{abc}得到第四候選項(xiàng)集{abed}、{abce},根據(jù)第三候選項(xiàng)集{abd}得到第四候選項(xiàng)集{abde},根據(jù)第三候選項(xiàng)集{acd}得到第四候選項(xiàng)集{aede},根據(jù)第三候選項(xiàng)集{bed}得到第四候選項(xiàng)集{bede}。[0161](3-5)對于每個第四候選項(xiàng)集,將第四候選項(xiàng)集與排在第四候選項(xiàng)集的第四個項(xiàng)目之后的項(xiàng)目合并,得到第五候選項(xiàng)集。則根據(jù)第四候選項(xiàng)集{abed}得到第五候選項(xiàng)集{abede}〇[0162]需要說明的是,本發(fā)明實(shí)施例以該步驟207在步驟204之后執(zhí)行為例,也即是每獲取到一個候選項(xiàng)集,先判斷該候選項(xiàng)集是否為近期高權(quán)重頻繁項(xiàng)集,再獲取下一個候選項(xiàng)集,而在實(shí)際應(yīng)用中也可以先獲取到所有的候選項(xiàng)集,再對獲取到的每個候選項(xiàng)集分別進(jìn)行判斷,或者,采用迭代的方式,先獲取到每一層的候選項(xiàng)集,對這一層的每個候選項(xiàng)集進(jìn)行判斷之后,再獲取下一層的候選項(xiàng)集,本發(fā)明實(shí)施例對獲取候選項(xiàng)集過程與判斷過程的先后順序不做限定。[0163]在獲取到多個近期高權(quán)重頻繁項(xiàng)集之后,該方法還包括:基于獲取到的多個近期高權(quán)重頻繁項(xiàng)集和用戶當(dāng)前選擇的項(xiàng)目進(jìn)行推薦。[0164]在本發(fā)明實(shí)施例中,可以認(rèn)為近期高權(quán)重頻繁項(xiàng)集中的每個項(xiàng)目之間具有關(guān)聯(lián)關(guān)系,則當(dāng)用戶選擇了一個或多個項(xiàng)目時,可以基于獲取到的多個近期高權(quán)重頻繁項(xiàng)集,找出該一個或多個項(xiàng)目所屬的近期高權(quán)重頻繁項(xiàng)集,將該近期高權(quán)重頻繁項(xiàng)集中用戶未選擇的項(xiàng)目推薦給該用戶??紤]到了每個用戶選擇項(xiàng)目的需求,自動為用戶推薦關(guān)聯(lián)的項(xiàng)目,實(shí)現(xiàn)了個性化推薦。[0165]本發(fā)明實(shí)施例提供的方法,通過根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,從而挖掘出時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘方法不僅考慮到項(xiàng)集的權(quán)重因素,還考慮到了項(xiàng)集的時效性因素,能夠過濾掉在很長時間之前出現(xiàn)的高權(quán)重頻繁項(xiàng)集,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性。[0166]本領(lǐng)域的技術(shù)人員可以獲知,目標(biāo)項(xiàng)集具有向下閉合特性是指目標(biāo)項(xiàng)集的任意子集都是目標(biāo)項(xiàng)集,也即是,如果一個項(xiàng)集不是目標(biāo)項(xiàng)集,該項(xiàng)集的真超集也不是目標(biāo)項(xiàng)集。[0167]而在本發(fā)明實(shí)施例中,近期高權(quán)重頻繁項(xiàng)集不具有向下閉合特性,如果一個項(xiàng)集不是近期高權(quán)重頻繁項(xiàng)集,不能確定該項(xiàng)集的真超集是不是近期高權(quán)重頻繁項(xiàng)集。例如,參見上述表1和表2,項(xiàng)集{a}不是近期高權(quán)重頻繁項(xiàng)集,但項(xiàng)集{ac}和{acf}都是近期高權(quán)重頻繁項(xiàng)集。在近期高權(quán)重頻繁項(xiàng)集不具有向下閉合特性的情況下只能將每個項(xiàng)集的真超集作為候選項(xiàng)集,通過計算該真超集的時效值和加權(quán)支持度來判斷其是否為近期高權(quán)重頻繁項(xiàng)集。那么,在整個數(shù)據(jù)挖掘過程中,需要對該事務(wù)數(shù)據(jù)庫中的任一個或多個項(xiàng)目能夠組成的每一個項(xiàng)集均執(zhí)行計算時效值和加權(quán)支持度、根據(jù)時效值和加權(quán)支持度進(jìn)行判斷的步驟,計算量很大,數(shù)據(jù)挖掘過程需要耗費(fèi)很長時間,挖掘效率很低。[0168]為了減小計算量,提高數(shù)據(jù)挖掘效率,本發(fā)明實(shí)施例提出了近期高權(quán)重頻繁高估項(xiàng)集的概念,近期高權(quán)重頻繁項(xiàng)集都是近期高權(quán)重頻繁高估項(xiàng)集,且近期高權(quán)重頻繁高估項(xiàng)集具有向下閉合特性。在挖掘近期高權(quán)重頻繁項(xiàng)集時,可以先進(jìn)行第一個挖掘步驟,挖掘出近期高權(quán)重頻繁高估項(xiàng)集,再進(jìn)行第二個挖掘步驟,從近期高權(quán)重頻繁高估項(xiàng)集中挖掘近期高權(quán)重頻繁項(xiàng)集。在上述第一個挖掘步驟中,由于近期高權(quán)重頻繁高估項(xiàng)集具有向下閉合特性,對于已確定不是近期高權(quán)重頻繁高估項(xiàng)集的項(xiàng)集來說,不僅可以將該項(xiàng)集過濾掉,還能將該項(xiàng)集的真超集過濾掉,無需再計算該項(xiàng)集的真超集的時效值和加權(quán)支持度,無需再對該項(xiàng)集的真超集進(jìn)行判斷,大大減小了計算量。具體過程詳見下述實(shí)施例。[0169]圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘方法的流程圖,參見圖4,該方法包括:[0170]401、掃描事務(wù)數(shù)據(jù)庫,得到該事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目。[0171]402、將每個項(xiàng)目所構(gòu)成的項(xiàng)集分別作為第一候選項(xiàng)集,對每個第一候選項(xiàng)集執(zhí)行步驟403。[0172]403、根據(jù)包括當(dāng)前候選項(xiàng)集的指定事務(wù)中的項(xiàng)目權(quán)重的最大值,計算當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重,并根據(jù)每個指定事務(wù)的發(fā)生時間,計算該當(dāng)前候選項(xiàng)集的時效值。[0173]具體地,將包括該當(dāng)前候選項(xiàng)集的事務(wù)作為指定事務(wù),指定事務(wù)中包括至少一個項(xiàng)目,獲取該至少一個項(xiàng)目的權(quán)重的最大值,作為該指定事務(wù)的事務(wù)高估權(quán)重,計算每個指定事務(wù)的事務(wù)高估權(quán)重之和,作為該當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重。[0174]也即是,tubw(Ta)=maxiwQ!,Tq),w(i2,Tq),···,w(in,Tq)},[0175]其中,tubw(Tq)用于表示指定事務(wù)Tq的事務(wù)高估權(quán)重,n用于指定事務(wù)Tq的項(xiàng)目數(shù)目,taubw(X)用于表示當(dāng)前候選項(xiàng)集X的事務(wù)累積高估權(quán)重。[0176]參見表1,事務(wù)?\的事務(wù)高估權(quán)重可以確定為:tubw(T^=max{w(b,I\),w(c,?\),w(d,?\),w(e,?\)}=max{0·7,1·0,0·5,0·45}=1·0。對于項(xiàng)集{bee}來說,taubw(bee)=taubw(Ti)+taubw(T3)+taubw(T5)+taubw(T10)=5.0〇[0177]另外,本發(fā)明實(shí)施例中計算當(dāng)前候選項(xiàng)集的時效值的過程與上述步驟203中計算時效值的過程類似,在此不再贅述。[0178]404、判斷當(dāng)前候選項(xiàng)集的時效值是否大于第一閾值,并判斷當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重是否大于該第二閾值,執(zhí)行步驟405或步驟406。[0179]與上述步驟203-204的不同之處在于,本發(fā)明實(shí)施例沒有直接計算當(dāng)前候選項(xiàng)集的加權(quán)支持度,而是先計算出當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重,判斷該事務(wù)累積高估權(quán)重是否大于該第二閾值。如果當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重大于該第二閾值且時效值大于該第一閾值,則將當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集,如果當(dāng)前候選項(xiàng)集的事務(wù)累積高估權(quán)重不大于該第二閾值,則確定當(dāng)前候選項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,如果當(dāng)前候選項(xiàng)集的時效值不大于該第一閾值,則確定當(dāng)前候選項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集。則可以保證獲取到的近期高權(quán)重頻繁高估項(xiàng)集滿足以下條件:[0180](l)taubw(X)>αX|D|;(2)R(X)>β。[0181]其中,β用于表示該第一閾值,αX|D|用于表示該第二閾值。[0182]405、當(dāng)前候選項(xiàng)集的時效值不大于該第一閾值或者事務(wù)累積高估權(quán)重不大于該第二閾值時,過濾掉該當(dāng)前候選項(xiàng)集,并過濾掉該當(dāng)前候選項(xiàng)集的真超集,結(jié)束。[0183]在本發(fā)明實(shí)施例中,根據(jù)近期高權(quán)重頻繁高估項(xiàng)集的定義以及近期高權(quán)重頻繁項(xiàng)集的定義,可以得到規(guī)則1:如果一個項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,則該項(xiàng)集不是近期高權(quán)重頻繁項(xiàng)集。那么,確定當(dāng)前候選項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集后,可以直接確定當(dāng)前候選項(xiàng)集不是近期高權(quán)重頻繁項(xiàng)集,無需再計算當(dāng)前候選項(xiàng)集的加權(quán)支持度,直接過濾掉該當(dāng)前候選項(xiàng)集即可。[0184]規(guī)則1的證明過程如下:[0185]對于該事務(wù)數(shù)據(jù)庫中的一個或多個項(xiàng)目所組成的任一項(xiàng)集X來說,由于項(xiàng)集X的事務(wù)高估權(quán)重tubw(Tq)=max{w(i!,Tq),w(i2,Tq),···,w(in,Tq)},則W(X,Tq)彡tubw(Tq),[0186]如果項(xiàng)集X是近期高權(quán)重頻繁項(xiàng)集,表示wsup(X)>αX|D|且R(X)>β,由于wsup(X)彡taubw(X),則可以確定taubw(X)>aX|D|,項(xiàng)集X是近期高權(quán)重頻繁高估項(xiàng)集。[0187]相應(yīng)的,如果項(xiàng)集X不是近期高權(quán)重頻繁高估項(xiàng)集,則項(xiàng)集X不是近期高權(quán)重頻繁項(xiàng)集,規(guī)則1證明完成。[0188]另外,由于近期高權(quán)重頻繁高估項(xiàng)集具有向下閉合特性:如果一個項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,則該項(xiàng)集的真超集也不是近期高權(quán)重頻繁高估項(xiàng)集。根據(jù)該向下閉合特性,在確定當(dāng)前候選項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集時,可以確定該當(dāng)前候選項(xiàng)集的真超集不是近期高權(quán)重頻繁高估項(xiàng)集,而根據(jù)規(guī)則1可以確定該當(dāng)前候選項(xiàng)集的真超集也不是近期高權(quán)重頻繁項(xiàng)集,則過濾掉該當(dāng)前候選項(xiàng)集的真超集。[0189]近期高權(quán)重頻繁高估項(xiàng)集的向下閉合特性證明如下:[0190]項(xiàng)集炒的項(xiàng)目數(shù)目為k,項(xiàng)集Xk1的項(xiàng)目數(shù)目為k-Ι,且feX%即炒是Xk1的真超集,炒在該事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù)不大于xk1在該事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù),則[0191]如果項(xiàng)集Xk是近期高權(quán)重頻繁高估項(xiàng)集,表示taubw(Xk)>aX|D|且R(Xk)>β,由于taubw(Xk)<taubw(Xk工),可以確定taubw(Xk3>aXIDI,由于R(Xk)<R(Xk3,可以確定R(Xkl)>β,即項(xiàng)集Xkl是近期高權(quán)重頻繁高估項(xiàng)集,同理地,Xk2也是近期高權(quán)重頻繁高估項(xiàng)集,以此類推,#的任意子集都是近期高權(quán)重頻繁高估項(xiàng)集。[0192]相應(yīng)的,如果項(xiàng)集X不是近期高權(quán)重頻繁高估項(xiàng)集,則項(xiàng)集X的任意真超集都不是近期高權(quán)重頻繁高估項(xiàng)集,近期高權(quán)重頻繁高估項(xiàng)集的向下閉合特性證明完成。[0193]在本發(fā)明實(shí)施例中,近期高權(quán)重頻繁項(xiàng)集都是近期高權(quán)重頻繁高估項(xiàng)集,先獲取近期高權(quán)重頻繁高估項(xiàng)集,利用近期高權(quán)重頻繁高估項(xiàng)集的向下閉合特性,預(yù)先過濾掉已確定不是近期高權(quán)重頻繁高估項(xiàng)集的項(xiàng)集以及該項(xiàng)集的真超集,縮小了搜索空間,且無需計算這些真超集的加權(quán)支持度和時效值,大大減小了計算量,再從近期高權(quán)重頻繁高估項(xiàng)集中獲取近期高權(quán)重頻繁項(xiàng)集。整個數(shù)據(jù)挖掘過程計算量小,縮短了數(shù)據(jù)挖掘時間,提高了數(shù)據(jù)挖掘效率。[0194]406、當(dāng)前候選項(xiàng)集的時效值大于該第一閾值且事務(wù)累積高估權(quán)重大于該第二閾值時,將當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集。[0195]407、根據(jù)當(dāng)前候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括該當(dāng)前候選項(xiàng)集的指定事務(wù)的數(shù)目,計算該當(dāng)前候選項(xiàng)集的加權(quán)支持度,判斷該加權(quán)支持度是否大于該第二閾值,如果當(dāng)前候選項(xiàng)集的加權(quán)支持度大于該第二閾值,將當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集。[0196]當(dāng)前候選項(xiàng)集的時效值大于該第一閾值且事務(wù)累積高估權(quán)重大于該第二閾值時,將當(dāng)前候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集,表示當(dāng)前候選項(xiàng)集可能是近期高權(quán)重頻繁項(xiàng)集。由于已確定當(dāng)前候選項(xiàng)集的時效值大于該第一閾值,只需計算當(dāng)前候選項(xiàng)集的加權(quán)支持度,并判斷當(dāng)前候選項(xiàng)集的加權(quán)支持度是否大于該第二閾值即可,具體過程與上述步驟203-204類似,在此不再贅述。[0197]408、按照預(yù)設(shè)項(xiàng)目排列順序,將排在該當(dāng)前候選項(xiàng)集中的最后一個項(xiàng)目之后的項(xiàng)目與該當(dāng)前候選項(xiàng)集合并,將合并后的項(xiàng)集中不包含已被過濾項(xiàng)集的項(xiàng)集作為下一層的候選項(xiàng)集,對每個下一層的候選項(xiàng)集繼續(xù)執(zhí)行步驟403。[0198]確定當(dāng)前候選項(xiàng)集是近期高權(quán)重頻繁項(xiàng)集后,表示當(dāng)前候選項(xiàng)集的真超集也有可能是近期高權(quán)重頻繁項(xiàng)集,則獲取當(dāng)前候選項(xiàng)集的真超集,作為下一層的候選項(xiàng)集。而為了避免重復(fù)獲取,減小計算量,可以采用投影機(jī)制,按照預(yù)設(shè)項(xiàng)目排列順序獲取下一層的候選項(xiàng)集。[0199]具體地,將當(dāng)前候選項(xiàng)集中的每個項(xiàng)目按照該預(yù)設(shè)項(xiàng)目排列順序進(jìn)行排列,并將排在該當(dāng)前候選項(xiàng)集中的最后一個項(xiàng)目之后的項(xiàng)目與該當(dāng)前候選項(xiàng)集合并,得到當(dāng)前候選項(xiàng)集的真超集,判斷該真超集是否包含已被過濾的項(xiàng)集,如果該真超集包含已被過濾的項(xiàng)集,則將該真超集過濾掉,如果該真超集不包含已被過濾的項(xiàng)集,則將該真超集作為下一層的候選項(xiàng)集。[0200]不同項(xiàng)集可能具有相同的真超集,以第一項(xiàng)集和第二項(xiàng)集為例,如果第三項(xiàng)集是第一項(xiàng)集的真超集,也是第二項(xiàng)集的真超集,如果已確定該第一項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,則過濾掉該第三項(xiàng)集,此時即使確定該第二項(xiàng)集是近期高權(quán)重頻繁高估項(xiàng)集,也無需再將該第三項(xiàng)集作為下一層的候選項(xiàng)集。[0201]例如,項(xiàng)集{ac}不是近期高權(quán)重頻繁項(xiàng)集,則項(xiàng)集{abc}也不是近期高權(quán)重頻繁項(xiàng)集,而項(xiàng)集{ab}是近期高權(quán)重頻繁項(xiàng)集,在獲取項(xiàng)集{ab}的真超集時無需將項(xiàng)集{abc}作為下一層的候選項(xiàng)集,直接將項(xiàng)集{abc}過濾掉。[0202]圖5是本發(fā)明實(shí)施例提供的候選項(xiàng)集過濾示意圖,圖5中以斜線陰影表示根據(jù)項(xiàng)集的事務(wù)累積高估權(quán)重和時效值確定該項(xiàng)集不是近期高權(quán)重頻繁高估項(xiàng)集,以網(wǎng)格陰影表示項(xiàng)集直接被過濾而沒有計算事務(wù)累積高估權(quán)重和時效值。參見圖5,該數(shù)據(jù)挖掘方法可以包括:[0203](5-1)將每個項(xiàng)目分別構(gòu)成第一候選項(xiàng)集,則得到的第一候選項(xiàng)集為{a}、、{c}、dlxzpnr5p5f、{e},分別計算這5個第一候選項(xiàng)集的事務(wù)累積高估權(quán)重和時效值,判斷每個第一候選項(xiàng)集是否是近期高權(quán)重頻繁高估項(xiàng)集。[0204](5-2)假設(shè)5個第一候選項(xiàng)集都是近期高權(quán)重頻繁高估項(xiàng)集,則獲取每個第一候選項(xiàng)集的真超集,得到第二候選項(xiàng)集,則根據(jù)第一候選項(xiàng)集{a}得到第二候選項(xiàng)集{ab}、{ac}、{ad}、{ae},根據(jù)第一候選項(xiàng)集{a}得到第二候選項(xiàng)集{be}、{bd}、{be},根據(jù)第一候選項(xiàng)集{c}得到第二候選項(xiàng)集led}、{ce},根據(jù)第一候選項(xiàng)集dlxzpnr5p5f得到第二候選項(xiàng)集{de}。分別計算這10個第二候選項(xiàng)集的事務(wù)累積高估權(quán)重和時效值,判斷每個第二候選項(xiàng)集是否是近期高權(quán)重頻繁高估項(xiàng)集。[0205](5-3)假設(shè)這10個第二候選項(xiàng)集中的項(xiàng)集{ac}不是近期高權(quán)重頻繁高估項(xiàng)集,則可以確定項(xiàng)集{ac}的真超集{abc}、{acd}、{ace}、{abed}、{abce}、{abede}都不是近期高權(quán)重頻繁高估項(xiàng)集,這些真超集可以直接過濾掉。[0206]對于除項(xiàng)集{ac}之外的第二候選項(xiàng)集,獲取這些第二候選項(xiàng)集的真超集中不包含項(xiàng)集{ac}的項(xiàng)集,得到第三候選項(xiàng)集。則根據(jù)第二候選項(xiàng)集{ab}得到第三候選項(xiàng)集{abd}、{abe},根據(jù)第二候選項(xiàng)集{ad}得到第三候選項(xiàng)集{ade},根據(jù)第二候選項(xiàng)集{be}得到第三候選項(xiàng)集{bee},根據(jù)第二候選項(xiàng)集{bd}得到第三候選項(xiàng)集{bde},根據(jù)第二候選項(xiàng)集led}得到第三候選項(xiàng)集{ede}。分別計算這7個第三候選項(xiàng)集的事務(wù)累積高估權(quán)重和時效值,判斷每個第三候選項(xiàng)集是否是近期高權(quán)重頻繁高估項(xiàng)集。[0207](5-4)假設(shè)這7個第三候選項(xiàng)集中的項(xiàng)集{bed}不是近期高權(quán)重頻繁高估項(xiàng)集,則可以確定項(xiàng)集{bed}的真超集{bede}不是近期高權(quán)重頻繁高估項(xiàng)集,可以直接過濾掉。[0208]對于除項(xiàng)集{bed}之外的第三候選項(xiàng)集,獲取這些第三候選項(xiàng)集的真超集中不包含項(xiàng)集{ac}和{bed}的項(xiàng)集,得到第四候選項(xiàng)集,則根據(jù)第三候選項(xiàng)集{abd}得到第四候選項(xiàng)集{abde}。[0209](5-5)計算第四候選項(xiàng)集{abde}的事務(wù)累積高估權(quán)重和時效值,判斷第四候選項(xiàng)集{abde}是否是近期高權(quán)重頻繁高估項(xiàng)集。[0210]通過對圖3與圖5、上述步驟(3-1)至(3-5)與步驟(5-1)至(5-5)進(jìn)行對比可以看出,采用先獲取近期高權(quán)重頻繁高估項(xiàng)集再獲取近期高權(quán)重頻繁項(xiàng)集的方式,預(yù)先過濾掉了很多候選項(xiàng)集,無需計算這些項(xiàng)集的加權(quán)支持度和時效值,縮小了搜索空間,大大減小了計算量,縮短了數(shù)據(jù)挖掘時間,提高了數(shù)據(jù)挖掘效率。[0211]可選地,在過濾第二候選項(xiàng)集時,可以先將不同的項(xiàng)目分別作為行元素和列元素,建立EW2S(EstimatedWeightof2-itemsetStructure,2-項(xiàng)集的高估權(quán)重結(jié)構(gòu))。對于EW2S中的任一指定位置來說,在該指定位置添加該位置所對應(yīng)的行元素與該指定位置所對應(yīng)的列元素所組成的項(xiàng)集的事務(wù)累積高估權(quán)重。其中,該指定位置是指根據(jù)該預(yù)設(shè)項(xiàng)目排列順序,對應(yīng)的行元素排在對應(yīng)的列元素之后的位置。[0212]例如,創(chuàng)建的EW2S可以如下表3所示,表3中包括每個項(xiàng)目數(shù)目為2的項(xiàng)集的事務(wù)累積高估權(quán)重,通過判斷表3中每個事務(wù)累積高估權(quán)重是否大于該第二閾值,可以不重復(fù)地獲取到第二候選項(xiàng)集。例如EW2S中包括指定位置[c,b]的事務(wù)累積高估權(quán)重,而不包括位置[b,c]的事務(wù)累積高估權(quán)重,則只需對項(xiàng)集{be}的事務(wù)累積高估權(quán)重進(jìn)行一次判斷過程,避免了重復(fù)判斷。[0213]表3[0214][0215]本發(fā)明實(shí)施例提供的方法,通過根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,從而挖掘出時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘方法不僅考慮到項(xiàng)集的權(quán)重因素,還考慮到了項(xiàng)集的時效性因素,能夠過濾掉在很長時間之前出現(xiàn)的高權(quán)重頻繁項(xiàng)集,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性。進(jìn)一步地,采用先獲取近期高權(quán)重頻繁高估項(xiàng)集再獲取近期高權(quán)重頻繁項(xiàng)集的方式,能夠預(yù)先對候選項(xiàng)集進(jìn)行過濾,無需計算這些被過濾項(xiàng)集的加權(quán)支持度和時效值,縮小了搜索空間,大大減小了計算量,縮短了數(shù)據(jù)挖掘時間,提高了數(shù)據(jù)挖掘效率。[0216]本發(fā)明實(shí)施例提供了兩種用于挖掘近期高權(quán)重頻繁項(xiàng)集的算法:RWF頂-P(RecentWeightedFrequentItemsetProjected-based,基于投影機(jī)制的近期高權(quán)重頻繁項(xiàng)集挖掘)算法和RWFIM-PE(RecentWeightedFrequentItemsetProjected-basedwithEarlypruning,基于投影和預(yù)先修剪機(jī)制的近期高權(quán)重頻繁項(xiàng)集挖掘)算法。[0217]RWF頂-P算法的偽代碼如下:[0218]Input:D,事務(wù)數(shù)據(jù)庫,wtable,預(yù)設(shè)項(xiàng)目權(quán)重表,δ,預(yù)設(shè)時間衰減因子,α,預(yù)設(shè)最小加權(quán)支持度閾值,β,最小時效值。[0219]Output:RWFIs//近期高權(quán)重頻繁項(xiàng)集(RecentWeightedFr.eq前ntItemset:);[0220][0221]其中,Mining-RWFI(ij,dbij,1)為數(shù)據(jù)挖掘函數(shù),用于挖掘由項(xiàng)目組成的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘函數(shù)的偽代碼如下:[0222]Input:X,aprefixitemset;dbX,theprojecteddbofX;k,thelengthofk-itemsetX[02231[0224][0225]RWF頂-P算法在步驟1-9中先獲取是近期高權(quán)重頻繁項(xiàng)集的項(xiàng)目,即項(xiàng)目數(shù)目為1的近期高權(quán)重頻繁項(xiàng)集。在步驟10-14中,對于每個項(xiàng)目數(shù)目為1的近期高權(quán)重頻繁項(xiàng)集,采用投影機(jī)制(project),獲取該項(xiàng)集的真超集,從真超集中再獲取近期高權(quán)重頻繁項(xiàng)集。但是,RWF頂-P算法中未預(yù)先對項(xiàng)集的真超集進(jìn)行過濾,對每個項(xiàng)集進(jìn)行判斷之后,會對每個項(xiàng)集的每個真超集分別進(jìn)行判斷。[0226]RWF頂-PE算法的偽代碼如下:[0227][0228]RWF頂-PE算法在執(zhí)行完數(shù)據(jù)挖掘函數(shù)Mining-RWFI(X,dbX,k)中的1-3步后,先建立了EW2S(EstimatedWeightof2-itemsetStructure,2-項(xiàng)集的高估權(quán)重結(jié)構(gòu)),在獲取到項(xiàng)集的真超集時,如果真超集的事務(wù)累積高估權(quán)重小于該第二閾值,則直接將該真超集過濾掉,采用了預(yù)先修剪機(jī)制,無需計算該真超集的事務(wù)累積高估權(quán)重和時效值,大大減小了計算量。[0229]通過米用現(xiàn)有技術(shù)的PWA算法(Projected-basedWeightedfrequentitemsetsminingA1gorithm,基于投影機(jī)制的高權(quán)重頻繁項(xiàng)集挖掘算法)、本發(fā)明實(shí)施例提供的RWFIM-P算法和RWFIM-PE算法,分別對三個真實(shí)的事務(wù)數(shù)據(jù)庫:foodmart數(shù)據(jù)庫、retail數(shù)據(jù)庫和chess數(shù)據(jù)庫,以及一個模擬數(shù)據(jù)庫T1014D100K進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),所得到的挖掘結(jié)果如下:[0230](1)運(yùn)行時間:在不同的最小加權(quán)支持度閾值的情況下,PWA算法、RWFIM-P算法和RWF頂-PE算法在各個數(shù)據(jù)庫中的運(yùn)行時間如圖6a、6b、6c和6d所示。圖中的橫軸表示最小加權(quán)支持度閾值,縱軸表示運(yùn)行時間,且圖中以不同的標(biāo)記表示不同的算法,星形表示PWA算法,圓形表示RWFIM-P算法,方形表示RWFIM-PE算法。[0231]與PWA算法相比,RWF頂-P算法和RWF頂-PE算法的運(yùn)行時間更短,數(shù)據(jù)挖掘效率更高。這是由于:RWFIM-P算法和RWFIM-PE算法考慮了時效性因素,縮小了搜索空間,挖掘出了更少的項(xiàng)集。[0232]與RWF頂-P算法相比,RWF頂-PE算法的運(yùn)行時間更短,這是由于:RWF頂-P算法中為了保證向下閉合特性先挖掘出近期高權(quán)重頻繁高估項(xiàng)集,再從中挖掘近期高權(quán)重頻繁項(xiàng)集但未采用預(yù)先過濾的策略,消耗了更多的計算量。而RWFIM-PE算法采用了預(yù)先過濾的策略,對過濾的項(xiàng)集提前終止了操作,大大減小了計算量。[0233](2)運(yùn)行時間:在不同的最小時效值閾值(即第一閾值)的情況下,PWA算法、RWFIM-P算法和RWFIM-PE算法在各個數(shù)據(jù)庫中的運(yùn)行時間如圖7a、7b、7c和7d所示。圖中的橫軸表示最小時效值閾值,縱軸表示運(yùn)行時間,且圖中以不同的標(biāo)記表示不同的算法,星形表示PWA算法,圓形表示RWFIM-P算法,方形表示RWFIM-PE算法。[0234]PWA算法未考慮項(xiàng)集的時效性因素,因此最小時效值閾值對PWA算法的運(yùn)彳丁時間未產(chǎn)生影響,在不同的最小時效值閾值的情況下PWA算法的運(yùn)行時間未發(fā)生變化,[0235]與PWA算法相比,RWF頂-P算法和RWF頂-PE算法的運(yùn)行時間更短,當(dāng)最小時效值閾值設(shè)置的較高時,RWF頂-P算法和RWF頂-PE算法的運(yùn)行時間甚至要比PWA算法的運(yùn)行時間要快一或兩個數(shù)量級,這是由于當(dāng)最小時效值閾值設(shè)置的較高時,可以獲取到更少的近期高權(quán)重頻繁項(xiàng)集,壓縮了搜索空間,提高了挖掘效率。[0236](3)項(xiàng)集數(shù)量:在不同的最小加權(quán)支持度閾值的情況下,在各個數(shù)據(jù)庫中挖掘出的高權(quán)重頻繁項(xiàng)集和近期高權(quán)重頻繁項(xiàng)集的數(shù)量如圖8a、8b、8c和8d所示。圖中的橫軸表示最小加權(quán)支持度閾值,縱軸表示項(xiàng)集數(shù)量,且圖中以不同的標(biāo)記表示不同的項(xiàng)集,星形表示高權(quán)重頻繁項(xiàng)集(WFIs),圓形表示近期高權(quán)重頻繁項(xiàng)集(RWFIs)。[0237]當(dāng)最小加權(quán)支持度閾值增大時,生成的項(xiàng)集數(shù)量減小。且無論在稀疏項(xiàng)集還是密集項(xiàng)集中,RWFI的數(shù)量小于WFI的數(shù)量,這是由于雖然能夠獲取到大量的高權(quán)重頻繁項(xiàng)集,但考慮到事務(wù)的時效性,只能獲取到較少的近期高權(quán)重頻繁項(xiàng)集。尤其是當(dāng)該最小加權(quán)支持度閾值較小時會獲取到許多冗余的WFI,使得RWFI的數(shù)量遠(yuǎn)小于WFI的數(shù)量。[0238](4)項(xiàng)集數(shù)量:在不同的最小時效值閾值的情況下,在各個數(shù)據(jù)庫中挖掘出的高權(quán)重頻繁項(xiàng)集和近期高權(quán)重頻繁項(xiàng)集的數(shù)量如圖9a、9b、9c和9d所示。圖中的橫軸表示最小時效值閾值,縱軸表示項(xiàng)集數(shù)量,且圖中以不同的標(biāo)記表示不同的項(xiàng)集,星形表示高權(quán)重頻繁項(xiàng)集(WFIs),圓形表示近期高權(quán)重頻繁項(xiàng)集(RWFIs)。[0239]當(dāng)最小時效值閾值增大時,獲取到的RWFI的數(shù)量急劇減小,而WFI的數(shù)量保持穩(wěn)定。雖然RWFI的數(shù)量很小,但所獲取到的RWFI更有實(shí)用價值。[0240](5)可擴(kuò)展性:在項(xiàng)集長度(即項(xiàng)集中的項(xiàng)目數(shù)目)不同的情況下,PWA算法、RWF頂-P算法和RWF頂-PE算法在T1014D100K數(shù)據(jù)庫中的運(yùn)行時間如圖10a所示,內(nèi)存消耗如圖10b所示。圖10a的橫軸表示項(xiàng)集長度,縱軸表示運(yùn)行時間,且以不同的標(biāo)記表示不同的算法,星形表示PWA算法,圓形表示RWFIM-P算法,方形表示RWFIM-PE算法。圖10b中的橫軸表示項(xiàng)集長度,縱軸表示內(nèi)存消耗,每個項(xiàng)集長度下按照從左至右的順序依次為PWA算法、RWFIM-P算法和RWFIM-PE算法的內(nèi)存消耗柱形圖。[0241]在項(xiàng)集長度不同的情況下,在T1014D100K數(shù)據(jù)庫中挖掘出的高權(quán)重頻繁項(xiàng)集和近期高權(quán)重頻繁項(xiàng)集的數(shù)量如圖l〇c所示,圖l〇c的橫軸表示項(xiàng)集長度,縱軸表示項(xiàng)集,且,圖10c中以不同的標(biāo)記表示不同的項(xiàng)集,星形表示高權(quán)重頻繁項(xiàng)集(WFIs),圓形表示近期高權(quán)重頻繁項(xiàng)集(RWFIs)。[0242]圖11是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)挖掘裝置結(jié)構(gòu)示意圖,參見圖11,該裝置包括:[0243]掃描模塊1101,用于掃描事務(wù)數(shù)據(jù)庫,得到該事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目;[0244]候選項(xiàng)集獲取模塊1102,用于根據(jù)該事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集;[0245]第一計算模塊1103,用于對于每個候選項(xiàng)集,根據(jù)該候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括該候選項(xiàng)集的指定事務(wù)的數(shù)目,計算該候選項(xiàng)集的加權(quán)支持度;[0246]第二計算模塊1104,用于根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值;[0247]判斷模塊1105,用于判斷該候選項(xiàng)集的時效值是否大于第一閾值;[0248]該判斷模塊1105,還用于判斷該候選項(xiàng)集的加權(quán)支持度是否大于第二閾值;[0249]確定模塊1106,用于當(dāng)該時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值時,將該候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。[0250]本發(fā)明實(shí)施例提供的裝置,通過根據(jù)每個指定事務(wù)的發(fā)生時間,計算該候選項(xiàng)集的時效值,從而挖掘出時效值大于該第一閾值且該加權(quán)支持度大于該第二閾值的近期高權(quán)重頻繁項(xiàng)集。該數(shù)據(jù)挖掘方法不僅考慮到項(xiàng)集的權(quán)重因素,還考慮到了項(xiàng)集的時效性因素,能夠過濾掉在很長時間之前出現(xiàn)的高權(quán)重頻繁項(xiàng)集,降低了出現(xiàn)干擾的可能性,且挖掘出的近期高權(quán)重頻繁項(xiàng)集中的項(xiàng)目之間的關(guān)聯(lián)規(guī)則可以準(zhǔn)確體現(xiàn)近期的關(guān)聯(lián)規(guī)則,提高了準(zhǔn)確性和實(shí)用性。[0251]可選地,該第一計算模塊1103包括:[0252]權(quán)重計算單元,用于計算該候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為該候選項(xiàng)集的權(quán)重;[0253]支持度計算單元,用于計算該事務(wù)數(shù)據(jù)庫中包括該候選項(xiàng)集的指定事務(wù)的數(shù)目,作為該候選項(xiàng)集的支持度;[0254]加權(quán)支持度計算單元,用于計算該候選項(xiàng)集的權(quán)重與支持度的乘積,作為該候選項(xiàng)集的加權(quán)支持度。[0255]可選地,該第二計算模塊1104用于根據(jù)每個指定事務(wù)的發(fā)生時間,計算每個指定事務(wù)的時效值;將計算出的每個指定事務(wù)的時效值之和作為該候選項(xiàng)集的時效值。[0256]可選地,該第二計算模塊1104還用于對于每個指定事務(wù),根據(jù)該指定事務(wù)的序號,應(yīng)用以下公式,計算該指定事務(wù)的時效值:[0257]R(Tq)=(1-δ)|D|q;[0258]其中,Tq用于表示該指定事務(wù),R(Tq)用于表示該指定事務(wù)Tq的時效值,δ用于表示預(yù)設(shè)時間衰減因子,〇<s<1,D用于表示該事務(wù)數(shù)據(jù)庫,|D|用于表示該事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目,q用于表示該指定事務(wù)Tq的序號,該指定事務(wù)Tq的序號由該指定事務(wù)Tq的發(fā)生時間確定。[0259]可選地,該裝置還包括:[0260]高估權(quán)重計算模塊,用于將每個指定事務(wù)中項(xiàng)目權(quán)重的最大值作為對應(yīng)指定事務(wù)的事務(wù)高估權(quán)重;[0261]累積計算模塊,用于計算每個指定事務(wù)的事務(wù)高估權(quán)重之和,作為該候選項(xiàng)集的事務(wù)累積尚估權(quán)重;[0262]該判斷模塊1105,還用于判斷該候選項(xiàng)集的事務(wù)累積高估權(quán)重是否大于該第二閾值;[0263]高估確定模塊,用于當(dāng)該時效值大于該第一閾值且該候選項(xiàng)集的事務(wù)累積高估權(quán)重大于該第二閾值時,將該候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集。[0264]可選地,該候選項(xiàng)集獲取模塊1102還用于當(dāng)?shù)谝缓蜻x項(xiàng)集的時效值大于該第一閾值且該第一候選項(xiàng)集的事務(wù)累積高估權(quán)重大于該第二閾值時,將該第一候選項(xiàng)集的真超集作為近期高權(quán)重頻繁高估項(xiàng)集的第二候選項(xiàng)集。[0265]可選地,該高估確定模塊還用于當(dāng)該候選項(xiàng)集的時效值不大于該第一閾值或者該候選項(xiàng)集的事務(wù)累積高估權(quán)重不大于該第二閾值時,過濾該候選項(xiàng)集和該候選項(xiàng)集的真超集。[0266]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再--贅述。[0267]需要說明的是:上述實(shí)施例提供的數(shù)據(jù)挖掘裝置在進(jìn)行數(shù)據(jù)挖掘時,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的數(shù)據(jù)挖掘裝置與數(shù)據(jù)挖掘方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。[0268]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。[0269]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)?!局鳈?quán)項(xiàng)】1.一種數(shù)據(jù)挖掘方法,其特征在于,所述方法包括:掃描事務(wù)數(shù)據(jù)庫,得到所述事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目;根據(jù)所述事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集;對于每個候選項(xiàng)集,根據(jù)所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,計算所述候選項(xiàng)集的加權(quán)支持度;根據(jù)每個指定事務(wù)的發(fā)生時間,計算所述候選項(xiàng)集的時效值;判斷所述候選項(xiàng)集的時效值是否大于第一閾值;判斷所述候選項(xiàng)集的加權(quán)支持度是否大于第二閾值;當(dāng)所述時效值大于所述第一閾值且所述加權(quán)支持度大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,計算所述候選項(xiàng)集的加權(quán)支持度,包括:計算所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為所述候選項(xiàng)集的權(quán)重;計算所述事務(wù)數(shù)據(jù)庫中包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,作為所述候選項(xiàng)集的支持度;計算所述候選項(xiàng)集的權(quán)重與支持度的乘積,作為所述候選項(xiàng)集的加權(quán)支持度。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)每個指定事務(wù)的發(fā)生時間,計算所述候選項(xiàng)集的時效值,包括:根據(jù)每個指定事務(wù)的發(fā)生時間,計算每個指定事務(wù)的時效值;將計算出的每個指定事務(wù)的時效值之和作為所述候選項(xiàng)集的時效值。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)每個指定事務(wù)的發(fā)生時間,計算包括每個指定事務(wù)的時效值,包括:對于每個指定事務(wù),根據(jù)所述指定事務(wù)的序號,應(yīng)用以下公式,計算所述指定事務(wù)的時效值:R(Tq)=(1-5)|D|q;其中,Tq用于表示所述指定事務(wù),R(Tq)用于表示所述指定事務(wù)Tq的時效值,δ用于表示預(yù)設(shè)時間衰減因子,〇<s<1,D用于表示所述事務(wù)數(shù)據(jù)庫,|D|用于表示所述事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目,q用于表示所述指定事務(wù)Tq的序號,所述指定事務(wù)Tq的序號由所述指定事務(wù)Tq的發(fā)生時間確定。5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷所述候選項(xiàng)集的加權(quán)支持度是否大于第二閾值之前,所述方法還包括:將每個指定事務(wù)中項(xiàng)目權(quán)重的最大值作為對應(yīng)指定事務(wù)的事務(wù)高估權(quán)重;計算每個指定事務(wù)的事務(wù)高估權(quán)重之和,作為所述候選項(xiàng)集的事務(wù)累積高估權(quán)重;判斷所述候選項(xiàng)集的事務(wù)累積高估權(quán)重是否大于所述第二閾值;當(dāng)所述時效值大于所述第一閾值且所述候選項(xiàng)集的事務(wù)累積高估權(quán)重大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集;執(zhí)行判斷已確定的近期高權(quán)重頻繁高估項(xiàng)集的加權(quán)支持度是否大于所述第二閾值的步驟。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:當(dāng)?shù)谝缓蜻x項(xiàng)集的時效值大于所述第一閾值且所述第一候選項(xiàng)集的事務(wù)累積高估權(quán)重大于所述第二閾值時,將所述第一候選項(xiàng)集的真超集作為近期高權(quán)重頻繁高估項(xiàng)集的第二候選項(xiàng)集。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:當(dāng)所述候選項(xiàng)集的時效值不大于所述第一閾值或者所述候選項(xiàng)集的事務(wù)累積高估權(quán)重不大于所述第二閾值時,過濾所述候選項(xiàng)集和所述候選項(xiàng)集的真超集。8.-種數(shù)據(jù)挖掘裝置,其特征在于,所述裝置包括:掃描模塊,用于掃描事務(wù)數(shù)據(jù)庫,得到所述事務(wù)數(shù)據(jù)庫中的多個事務(wù)以及每個事務(wù)包括的至少一個項(xiàng)目;候選項(xiàng)集獲取模塊,用于根據(jù)所述事務(wù)數(shù)據(jù)庫中的至少一個項(xiàng)目,獲取多個候選項(xiàng)集;第一計算模塊,用于對于每個候選項(xiàng)集,根據(jù)所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重以及包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,計算所述候選項(xiàng)集的加權(quán)支持度;第二計算模塊,用于根據(jù)每個指定事務(wù)的發(fā)生時間,計算所述候選項(xiàng)集的時效值;判斷模塊,用于判斷所述候選項(xiàng)集的時效值是否大于第一閾值;所述判斷模塊,還用于判斷所述候選項(xiàng)集的加權(quán)支持度是否大于第二閾值;確定模塊,用于當(dāng)所述時效值大于所述第一閾值且所述加權(quán)支持度大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁項(xiàng)集。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一計算模塊包括:權(quán)重計算單元,用于計算所述候選項(xiàng)集中每個項(xiàng)目的權(quán)重平均值,作為所述候選項(xiàng)集的權(quán)重;支持度計算單元,用于計算所述事務(wù)數(shù)據(jù)庫中包括所述候選項(xiàng)集的指定事務(wù)的數(shù)目,作為所述候選項(xiàng)集的支持度;加權(quán)支持度計算單元,用于計算所述候選項(xiàng)集的權(quán)重與支持度的乘積,作為所述候選項(xiàng)集的加權(quán)支持度。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二計算模塊用于根據(jù)每個指定事務(wù)的發(fā)生時間,計算每個指定事務(wù)的時效值;將計算出的每個指定事務(wù)的時效值之和作為所述候選項(xiàng)集的時效值。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第二計算模塊還用于對于每個指定事務(wù),根據(jù)所述指定事務(wù)的序號,應(yīng)用以下公式,計算所述指定事務(wù)的時效值:R(Tq)=(1-5)|D|q;其中,Tq用于表示所述指定事務(wù),R(Tq)用于表示所述指定事務(wù)Tq的時效值,δ用于表示預(yù)設(shè)時間衰減因子,〇<s<1,D用于表示所述事務(wù)數(shù)據(jù)庫,|D|用于表示所述事務(wù)數(shù)據(jù)庫的事務(wù)數(shù)目,q用于表示所述指定事務(wù)Tq的序號,所述指定事務(wù)Tq的序號由所述指定事務(wù)Tq的發(fā)生時間確定。12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括:高估權(quán)重計算模塊,用于將每個指定事務(wù)中項(xiàng)目權(quán)重的最大值作為對應(yīng)指定事務(wù)的事務(wù)尚估權(quán)重;累積計算模塊,用于計算每個指定事務(wù)的事務(wù)高估權(quán)重之和,作為所述候選項(xiàng)集的事務(wù)累積高估權(quán)重;所述判斷模塊,還用于判斷所述候選項(xiàng)集的事務(wù)累積高估權(quán)重是否大于所述第二閾值;高估確定模塊,用于當(dāng)所述時效值大于所述第一閾值且所述候選項(xiàng)集的事務(wù)累積高估權(quán)重大于所述第二閾值時,將所述候選項(xiàng)集確定為近期高權(quán)重頻繁高估項(xiàng)集。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述候選項(xiàng)集獲取模塊還用于當(dāng)?shù)谝缓蜻x項(xiàng)集的時效值大于所述第一閾值且所述第一候選項(xiàng)集的事務(wù)累積高估權(quán)重大于所述第二閾值時,將所述第一候選項(xiàng)集的真超集作為近期高權(quán)重頻繁高估項(xiàng)集的第二候選項(xiàng)集。14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述高估確定模塊還用于當(dāng)所述候選項(xiàng)集的時效值不大于所述第一閾值或者所述候選項(xiàng)集的事務(wù)累積高估權(quán)重不大于所述第二閾值時,過濾所述候選項(xiàng)集和所述候選項(xiàng)集的真超集?!疚臋n編號】G06F17/30GK106033424SQ201510106336【公開日】2016年10月19日【申請日】2015年3月11日【發(fā)明人】林浚瑋,王巨宏,陳偉,甘文生【申請人】哈爾濱工業(yè)大學(xué)深圳研究生院,深圳市騰訊計算機(jī)系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1