日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法

文檔序號:10655461閱讀:461來源:國知局
基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法
【專利摘要】本發(fā)明提供了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法,該方法包括:預(yù)處理用戶檢索詞,計算文本向量逆向詞頻和近似度矩陣,得到對用戶輸入的檢索詞的分類結(jié)果,根據(jù)分類結(jié)果進(jìn)行檢索。本發(fā)明提出了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法,利用搜索詞的特征表示理解用戶意圖,并通過改進(jìn)的索引機(jī)制提高了搜索引擎的效率,增強(qiáng)了用戶體驗。
【專利說明】
基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設(shè)及數(shù)據(jù)捜索,特別設(shè)及一種基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,捜索引擎要處理的數(shù)據(jù)量越來越大,對捜索引擎的性能要求 越來越高。高效的針對用戶的捜索詞,可W挖掘出一些潛在的用戶意圖,其中根據(jù)捜索詞的 分類可W得知用戶想捜索到哪個領(lǐng)域的結(jié)果,針對用戶意圖及運(yùn)個領(lǐng)域的特點可W給用戶 推薦滿足用戶需求的應(yīng)用,來優(yōu)化捜索結(jié)果。為了提高信息檢索效率,信息檢索系統(tǒng)一般都 采用基于云的并行計算平臺和索引技術(shù)。索引的結(jié)構(gòu)設(shè)計、存儲方式、檢索操作和動態(tài)更新 算法對信息檢索的效率有很大的影響。然而,現(xiàn)有技術(shù)的捜索引擎對捜索詞的處理不夠完 善,沒有特別對用戶意圖進(jìn)行有效預(yù)測。并且在索引處理上,索引的添加需要將新增的記錄 與原有的索引的相同項合并。在皿FS中運(yùn)項操作需要重新創(chuàng)建塊。每個化taNode上的副本 信息也需要更新。而且在索引中的刪除內(nèi)容只能刪除整個塊,并產(chǎn)生大量的I/O通信,浪費(fèi) 大量的時間和資源。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索 方法,包括:
[0004] 預(yù)處理用戶檢索詞,計算文本向量逆向詞頻和近似度矩陣,得到對用戶輸入的檢 索詞的分類結(jié)果,根據(jù)分類結(jié)果進(jìn)行檢索。
[0005] 優(yōu)選地,所述計算文本向量逆向詞頻和近似度矩陣,進(jìn)一步包括:
[0006] 結(jié)合分詞特性與結(jié)合領(lǐng)域知識的語義權(quán)值,在所有的DataNode均部署分詞工具 包,在分詞后獲得文本的檢索詞W及該檢索詞在本文檔的出現(xiàn)次數(shù),W統(tǒng)計詞頻,掃描領(lǐng)域 知識庫,計算出該詞的位置權(quán)值和語義跨度權(quán)值,再在第一個Map階段調(diào)用語義近似度函數(shù) 進(jìn)行統(tǒng)計;然后在Reduce階段計算每個詞的逆向詞頻,將運(yùn)些信息輸出為第二個MapReduce 的輸入;在第二個Map階段,計算語義近似度結(jié)果,如果近似度大于預(yù)設(shè)語義闊值,則返回語 義權(quán)值,否則不加權(quán),再組合所有的權(quán)值,得到最終語義權(quán)值;第二個Reduce階段,對向量規(guī) 格化處理;
[0007] 對于每一個文本,只計算編號大于自己文本的近似度,即可計算出整個矩陣,其 MapReduce環(huán)境下并行過程為:
[000引 Map階段:首先進(jìn)行數(shù)據(jù)分割,將分割的數(shù)據(jù)由NameNode分配給化taNode,同時給 DataNode編號,同時計算文本的近似度,當(dāng)Map階段結(jié)束后,將中間結(jié)果輸出到本地作為 Reduce階段的輸入;
[0009] Reduce階段:收集每一行的數(shù)據(jù),并且匯總輸出矩陣;
[0010] 然后采用優(yōu)化劃片的輸入方式,將高維矩陣分塊成小矩陣運(yùn)算;Map階段進(jìn)行數(shù)據(jù) 劃片,根據(jù)劃片偏移信息讀取子矩陣A和B在本地做乘法,結(jié)果為矩陣C的一個子矩陣,輸出 到指定偏移位置;Reduce階段計算矩陣C=AB;將對稱矩陣通過正交相似變換表示成對稱= 對角矩陣;求解對稱=對角矩陣的前K個最小特征向量,將對稱=對角矩陣的運(yùn)算最終轉(zhuǎn)化 為拉普拉斯矩陣與向量的相乘運(yùn)算,得到矩陣的最小特征值和特征向量后,計算每個文本 到某一集合的近似度。
[0011] 本發(fā)明相比現(xiàn)有技術(shù),具有W下優(yōu)點:
[0012] 本發(fā)明提出了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法,利用捜索詞的特征表示理解用 戶意圖,并通過改進(jìn)的索引機(jī)制提高了捜索引擎的效率,增強(qiáng)了用戶體驗。
【附圖說明】
[0013] 圖1是根據(jù)本發(fā)明實施例的基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法的流程圖。
【具體實施方式】
[0014] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描 述。結(jié)合運(yùn)樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利 要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)W 便提供對本發(fā)明的透徹理解。出于示例的目的而提供運(yùn)些細(xì)節(jié),并且無運(yùn)些具體細(xì)節(jié)中的 一些或者所有細(xì)節(jié)也可W根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0015] 本發(fā)明的一方面提供了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法。圖1是根據(jù)本發(fā)明實 施例的基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法流程圖。
[0016] 本發(fā)明根據(jù)用戶輸入的檢索詞,使用預(yù)先訓(xùn)練好的分類器對檢索詞的擴(kuò)充文本進(jìn) 行分類,將分類結(jié)果發(fā)送給應(yīng)用系統(tǒng),識別檢索詞的屬性和用戶意圖,獲得模板和數(shù)據(jù),再 WWeb應(yīng)用的形式呈現(xiàn)到捜索引擎中。
[0017] 所述應(yīng)用系統(tǒng)包括:
[0018] 代理服務(wù)器,保護(hù)內(nèi)部系統(tǒng)端口不對外暴露,并且支持高并發(fā)、負(fù)載均衡,也有助 于提高訪問速度。
[0019] Web服務(wù)器:采用MVC的架構(gòu),調(diào)用各個服務(wù),將數(shù)據(jù)進(jìn)行聚集,最終與頁面樣式進(jìn) 行整合。
[0020] 緩存服務(wù)器:將一些更新頻率低的信息存儲在緩存服務(wù)器中,而不需要反復(fù)檢索 數(shù)據(jù)庫,緩解數(shù)據(jù)庫的壓力。
[0021] 屬性識別服務(wù):識別出子類別及用戶意圖,來選擇適合于用戶需求的應(yīng)用模板。
[0022] 分領(lǐng)域資源庫:根據(jù)不同的領(lǐng)域,建立自己的資源庫。
[0023] 數(shù)據(jù)庫:采用主庫和從庫的結(jié)構(gòu),主庫負(fù)責(zé)寫入,從庫負(fù)責(zé)讀取,實現(xiàn)讀寫分離。另 外主庫之間需要同步,從庫也要與主庫的數(shù)據(jù)保持同步。
[0024] 檢索服務(wù)器:當(dāng)檢索是帶有一定條件,或有排序的需求時,使用索引的技術(shù)來快速 根據(jù)檢索條件得到結(jié)果。
[0025] 針對檢索詞的分類,本發(fā)明利用捜索引擎對檢索詞進(jìn)行文本擴(kuò)充,將檢索詞擴(kuò)充 為捜索引擎結(jié)果中的前k條摘要信息,k為擴(kuò)充后的詞條數(shù),將擴(kuò)充文本的分類結(jié)果作為原 捜索文本的分類結(jié)果。
[0026] 在檢索詞預(yù)處理階段,是將檢索詞進(jìn)行擴(kuò)充,用向量的形式存儲,丟棄廣告、圖片、 Web應(yīng)用等信息量較少的結(jié)果,過濾網(wǎng)頁標(biāo)簽,提取前k條摘要為文本的擴(kuò)充結(jié)果,然后對擴(kuò) 充文本進(jìn)行預(yù)處理,預(yù)處理分為分詞、丟棄停用詞。每個摘要,即一個文檔,里面包含的是特 征項集合,將它用向量來表示。然后在訓(xùn)練階段,根據(jù)訓(xùn)練集中的文本的擴(kuò)充信息,進(jìn)行特 征選擇、特征加權(quán)、建立分類器。具體包括將訓(xùn)練集中的檢索詞擴(kuò)充為在檢索詞預(yù)處理階段 中獲取到的該檢索詞的擴(kuò)充文本。利用特征選擇方法選擇代表性特征項,將大數(shù)量級的特 征項降維,使用本發(fā)明改進(jìn)的適用于文本分類的改進(jìn)逆向詞頻方法進(jìn)行特征加權(quán),最后使 用文本分類的方法建立分類器,供測試階段使用。在分類階段,將待分類的檢索詞進(jìn)行分 類。具體包括先將待分類檢索詞擴(kuò)充為擴(kuò)充文本,然后利用在訓(xùn)練階段提取出來的特征進(jìn) 行降維,用特征加權(quán)方法將特征用向量表示,最后利用訓(xùn)練階段優(yōu)化好的分類器對擴(kuò)充信 息的特征向量進(jìn)行分類,得到的結(jié)果為該檢索詞的分類。
[0027] 通過反饋訓(xùn)練的算法調(diào)整分類器模型。分類器判斷一個文本屬于哪個分類的同 時,給出一個可信度,如果該值低于闊值,則判定它的可信度不高,會記錄到反饋訓(xùn)練的數(shù) 據(jù)文本集。通過大數(shù)據(jù)平臺離線分析用戶行為日志,獲取點擊量小于預(yù)定點擊量闊值的Web 應(yīng)用對應(yīng)的檢索詞,將運(yùn)些詞也記錄到反饋訓(xùn)練的數(shù)據(jù)文本集當(dāng)中。然后人工進(jìn)行篩選、標(biāo) 注,將一部分高訪問量的檢索詞直接放入高頻詞表中,下一次捜索的時候會先與高頻詞表 中的詞進(jìn)行匹配,一部分作為學(xué)習(xí)反饋的最終數(shù)據(jù)。依次對比訓(xùn)練分類器中的向量與原分 類器中向量的近似度,如果相似,就刪除原分類器中的運(yùn)條向量,用新向量替代,如果沒有 找到相似的向量,就添加到新的分類器向量中。
[0028] 其中利用訓(xùn)練階段優(yōu)化好的分類器對擴(kuò)充信息的特征向量進(jìn)行文本分類,進(jìn)一步 分為文本向量逆向詞頻建立和計算近似度矩陣。本發(fā)明結(jié)合分詞特性與結(jié)合領(lǐng)域知識的語 義權(quán)值,在所有的化taNode均部署分詞工具包,在分詞后獲得文本的檢索詞W及該檢索詞 在本文檔的出現(xiàn)次數(shù),W統(tǒng)計詞頻,掃描領(lǐng)域知識庫,計算出該詞的位置權(quán)值和語義跨度權(quán) 值,再在第一個Map階段調(diào)用語義近似度函數(shù)進(jìn)行統(tǒng)計。然后,在Reduce階段計算每個詞的 逆向詞頻,將運(yùn)些信息輸出為第二個MapReduce的輸入。在第二個Map階段,計算語義近似度 結(jié)果,如果近似度大于預(yù)設(shè)語義闊值,則返回語義權(quán)值,否則不加權(quán),再組合所有的權(quán)值,得 到最終語義權(quán)值。第二個Reduce階段,對向量規(guī)格化處理。
[0029] 對于每一個文本,只需要計算編號大于自己文本的近似度,即可計算出整個矩陣。 MapReduce環(huán)境下并行化設(shè)計方案如下:
[0030] Map階段:首先進(jìn)行數(shù)據(jù)分割,將分割的數(shù)據(jù)由NameNode分配給化taNode,同時給 DataNode編號,同時計算文本的近似度,當(dāng)Map階段結(jié)束后,將中間結(jié)果輸出到本地作為 Reduce階段的輸入;
[0031] Reduce階段:收集每一行的數(shù)據(jù),并且匯總輸出矩陣。
[0032] 然后采用優(yōu)化劃片的輸入方式,將高維矩陣分塊成小矩陣運(yùn)算。Map階段進(jìn)行數(shù)據(jù) 劃片,根據(jù)劃片偏移信息讀取子矩陣A和B在本地做乘法,結(jié)果為矩陣C的一個子矩陣,輸出 到指定偏移位置。Reduce階段計算矩陣C=AB。將對稱矩陣通過正交相似變換表示成對稱= 對角矩陣。求解對稱=對角矩陣的前K個最小特征向量,將對稱=對角矩陣的運(yùn)算最終轉(zhuǎn)化 為拉普拉斯矩陣與向量的相乘運(yùn)算。得到矩陣的最小特征值和特征向量后,計算每個文本 到某一集合的近似度。
[0033] 在索引結(jié)構(gòu)的改進(jìn)方面,本發(fā)明的索引結(jié)構(gòu)包括基本索引、增量索引、差分索引和 詞庫。根據(jù)上述結(jié)構(gòu),采用基于詞頻大小和詞頻排序的文件存儲策略,W及項中數(shù)據(jù)的壓縮 編碼。針對上述索引結(jié)構(gòu),設(shè)計了在云平臺下進(jìn)行相應(yīng)的索引建立、更新、刪除和檢索。
[0034] 索引結(jié)構(gòu)由運(yùn)行在皿FS的化meNode上的增量索引、差分索引W及詞庫和運(yùn)行于 化taNode上的基本索引構(gòu)成?;舅饕啥鄠€文檔組成。文檔由多個索引項構(gòu)成。每個索引 項包含一個檢索詞和多個文件列表。文件列表由文件ID和該檢索詞在運(yùn)個文檔中出現(xiàn)的次 數(shù)和位置信息構(gòu)成。文件保存在皿FS中,被分塊后存儲于集群中不同的化taNode。差分索引 保存在HDFS的化meNode上。無效文檔列表記錄所有文檔庫中要被刪除的文檔ID,響應(yīng)檢索 請求時,系統(tǒng)根據(jù)該列表,從檢索結(jié)果中過濾掉該列表中的所有ID對應(yīng)的文件。差分索引在 文檔庫中有文件被刪除時生成。到差分索引文件達(dá)到一定闊值時,系統(tǒng)根據(jù)該索引文件更 新基本索引。增量索引運(yùn)行在HDFS的各個化化Node上,用于保存新增的索引項。當(dāng)文件庫中 有新增文件時,由該文件生成一條獨(dú)立索引。獨(dú)立索引用于記錄一個文檔中出現(xiàn)的所有檢 索詞在該文檔中出現(xiàn)的信息。當(dāng)獨(dú)立索引的數(shù)量到達(dá)一定的闊值,會觸發(fā)合并過程,將所有 獨(dú)立索引合并為一個整體,即一個增量索引。當(dāng)增量索引的數(shù)量達(dá)到一定闊值時,也會觸發(fā) 合并操作,將多個增量索引合并到基本索引中。索引結(jié)構(gòu)中,將詞庫中的詞按頻率劃分為高 頻詞和低頻詞,對不同頻率的詞采用不同的方式存儲在HDFS的化meNode內(nèi)存中,W散列表 的形式組織。對于高頻詞,每個詞用一個獨(dú)立的文件保存其索引,對于低頻詞,將多個檢索 詞的表保存到同一個文件中。通過散列函數(shù)將每一個高頻詞的索引信息映射到獨(dú)立的文件 中,并將多個低頻詞的索引信息映射到一個文件中。檢索時,根據(jù)詞的頻率屬性,采用不同 的方式進(jìn)行分布式檢索。
[0035] 索引項的結(jié)構(gòu)如下:
[0036] <wordid,docnum,<doCid,freq,<pi,p2, . . . ,Pn?, . . . ,<docid,freq,<pi,p2, . . .pn> ?
[0037] Wordid表示檢索詞,docnum代表檢索詞wordid在docnum個文檔中出現(xiàn)過。后面為 docnum個Doclist,每個Doclist表示wordid在一個文件中出現(xiàn)的次數(shù)和位置信息。Docid代 表該檢索詞出現(xiàn)的一個文件編號,freq表示檢索詞在運(yùn)個文件中出現(xiàn)的次數(shù),隨后是一個 長度為打eq的列表,表示檢索詞每次出現(xiàn)的位置信息。
[0038] 上述結(jié)構(gòu)中存在兩個遞增的列表:
[0039] 遞增的文檔ID號:(doci,doC2,doC3,. . .,doCn)。
[0040] 遞增的位置信息序列:(P1,P2,P3, . . .,pn)。
[0041] 保留序列中的第一項,后面的每一項用它與前一項的差值來代替。處理之后的序 列如下:
[0042] 文檔ID差值序列:(doci,doC2-doci,doc:3-doC2. . .,doCn-doCn-i)。
[00創(chuàng)一個文件中位置差值序列:(P1,P2-P1,P3-P2. . .,Pn-pn-l)。
[0044] 變換處理后的序列,樣本空間縮小并能使用更高效的壓縮方法。
[0045] 當(dāng)捜索引擎抓取到一定數(shù)量的網(wǎng)頁本地文本庫之后,需要建立初始索引。建立索 引前,需要對抓取的文本文件進(jìn)行預(yù)處理,最重要的一步即是分詞處理。建立索引的基本過 程描述如下:
[0046] 步驟1.首先對抓取到的文本進(jìn)行分詞,然后將分詞后的文件存放到皿FS的各個 Da1:aNode 中。
[0047] 步驟2.接著創(chuàng)建一個MapReduce的作業(yè)處理器,負(fù)責(zé)控制建立作業(yè)的執(zhí)行。
[004引步驟3.作業(yè)處理器根據(jù)情況創(chuàng)建map任務(wù),map任務(wù)運(yùn)行在DataNode上,每個分塊 中的文檔分別進(jìn)行處理,產(chǎn)生中間文件。
[0049] 步驟4 .map任務(wù)執(zhí)行完后,多個reduce任務(wù)開始執(zhí)行,將map任務(wù)產(chǎn)生的中間文件 合并,生成索引文件。
[0050] 步驟5.根據(jù)檢索詞的頻率屬性和在詞庫中的詞頻排序,采用W下散列函數(shù),將不 同的檢索詞的索引保存到不同文件。
[0051] 所述散列函數(shù)表示為SHAUf (r)),將低頻詞的頻率排序作為函數(shù)的輸入,輸出保 存該詞索引的文件名。r是該檢索詞在詞庫中詞頻排序,f(r)將多個檢索詞根據(jù)詞頻排序映 射到一個正整數(shù)值,表達(dá)為:
[0化2]
[0053] N是一個闊值,表示在詞庫中,排序大于N的檢索詞屬于低頻詞,排序小于或等于N 的詞是高頻詞。其中a為預(yù)定義正實數(shù)參數(shù)。
[0054] 在捜索引擎不斷爬取互聯(lián)網(wǎng)信息時,索引更新過程如下:
[0055] 當(dāng)文本庫中的新增文本達(dá)到一定數(shù)量時,觸發(fā)系統(tǒng)調(diào)用對文本分析生成一定數(shù)量 的獨(dú)立增量索引,獨(dú)立增量索引保存于內(nèi)存中。
[0056] 當(dāng)內(nèi)存中的獨(dú)立增量索引增加到一定數(shù)量時,觸發(fā)獨(dú)立增量索引合并程序,將相 同檢索詞的多項索引合并為一項,保存到相應(yīng)的增量索引文件中去。
[0057] 當(dāng)增量索引文件達(dá)到一定的數(shù)量,觸發(fā)主文件合并程序。
[0058] 其中,生成單一增量索引的操作由網(wǎng)絡(luò)爬蟲觸發(fā),對網(wǎng)絡(luò)爬蟲系統(tǒng)新添加的文本 進(jìn)行分析,生成該文本中所有檢索詞的項。該操作WMapReduce的方式運(yùn)行在皿FS中的不同 化taNode上,盡量滿足數(shù)據(jù)本地化,生成的單一增量索引分布在不同的化taNode上。增量索 引合并操作由生成單一增量索引的操作觸發(fā)。當(dāng)一個化taNode內(nèi)存上的數(shù)據(jù)達(dá)到闊值,該 操作會將單一增量索引合并到皿FS中的增量索引文件。檢索詞與增量索引文件名的映射關(guān) 系同樣由上述散列函數(shù)來完成。增量索引與基本索引的合并操作由單一增量索引和增量索 引合并操作觸發(fā)。
[0059] 本發(fā)明進(jìn)行信息刪除的策略是基于差分索引的。增量索引合并時觸發(fā)刪除操作的 闊值Pl定義如下:
[0060] P1=N1/N2
[0061] NI表示增量索引含有的被刪除文檔個數(shù),N2為差分索引中無效文檔列表中元素個 數(shù)。
[0062] 增量索引與基本索引的合并時觸發(fā)刪除操作的闊值P2定義如下:
[0063] P2 = N1/N3
[0064] NI同樣是差分索引中無效文檔列表中元素個數(shù)。N3是文檔集中所有文檔數(shù)。
[0065] 當(dāng)增量索引合并操作發(fā)生時,先判斷是否達(dá)到闊值P1。如果達(dá)到,首先從差分索引 文件中讀取所有的差分索引,將增量索引中所有包含運(yùn)些差分索引的信息刪除,然后再合 并到基本索引。如果沒有達(dá)到闊值,就直接合并到基本索引。合并到基本索引W后,再判斷 是否達(dá)到闊值P2。如果達(dá)到,就將基本索引信息中刪除所有差分索引中的信息。
[0066] 運(yùn)樣,系統(tǒng)響應(yīng)檢索請求時,先從基本索引和增量索引信息獲取檢索結(jié)果,再根據(jù) 刪除文檔中的無效文檔列表過濾掉已經(jīng)被刪除了的文檔信息。當(dāng)某個時間段的差分索引用 來更新了增量索引和基本索引中的所有信息后,就將該時間段的差分索引從文件中刪掉并 將該事件段刪除的所有文檔ID從無效文檔列表中刪除。
[0067] 索引的檢索是捜索引擎系統(tǒng)響應(yīng)檢索請求的關(guān)鍵操作。捜索引擎收到檢索請求 后,對輸入的檢索詞信息進(jìn)行分析處理,然后用處理后的檢索詞來對索引進(jìn)行檢索。操作步 驟描述如下:
[0068] 步驟1.用檢索詞檢索詞庫。先根據(jù)散列函數(shù)獲取到該檢索詞基本信息在內(nèi)存中的 位置,然后讀取到基本信息。判斷詞庫中基本信息的高低頻字段。如果是高頻詞,轉(zhuǎn)到步驟 2,如果是低頻詞,則轉(zhuǎn)到步驟3。
[0069] 步驟2.調(diào)用散列函數(shù)將檢索詞作為輸入,得到保存該檢索詞索引的文件名。
[0070] 步驟3.調(diào)用散列函數(shù),將檢索詞的詞頻排序信息作為函數(shù)輸入,得到保存該檢索 詞索引的文件名。
[0071] 步驟4.根據(jù)得到的HDFS的文件名,對基本索引進(jìn)行檢索。首先創(chuàng)建任務(wù)管理器,執(zhí) 行MapReduce任務(wù),在系統(tǒng)的各個化taNode上分別運(yùn)行一定數(shù)量的Map任務(wù)和Reduce任務(wù)。 Map任務(wù)處理文件在本地的分塊數(shù)據(jù),從中獲取到數(shù)據(jù)項,保存為中間數(shù)據(jù)。然后傳遞給 Reduce任務(wù)進(jìn)行合并處理。Reduce任務(wù)的輸出即為檢索的初始結(jié)果。
[0072] 步驟5.用與步驟4相同的方法,對增量索引文件進(jìn)行MapReduce檢索,查到的結(jié)果 與上一步得到的初始結(jié)果合并。
[0073] 步驟6.從內(nèi)存中檢索獨(dú)立增量索引,檢索結(jié)果與上一步得到的結(jié)果合并。
[0074] 步驟7.檢索化meNode中的差分索引,根據(jù)無效文檔列表,對上一步得到的結(jié)果進(jìn) 行過濾處理。
[0075] 步驟8.將得到的所有文檔列表通過預(yù)定義算法進(jìn)行排序。
[0076] 步驟9.返回排序后的結(jié)果。
[0077] 綜上所述,本發(fā)明提出了一種基于數(shù)據(jù)挖掘的數(shù)據(jù)捜索方法,利用捜索詞的特征 表示理解用戶意圖,并通過改進(jìn)的索引機(jī)制提高了捜索引擎的效率,增強(qiáng)了用戶體驗。
[0078] 顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可W用通用 的計算系統(tǒng)來實現(xiàn),它們可W集中在單個的計算系統(tǒng)上,或者分布在多個計算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可W用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn),從而,可W將它們存儲 在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。運(yùn)樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0079] 應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者運(yùn)種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項】
1. 一種基于數(shù)據(jù)挖掘的數(shù)據(jù)搜索方法,其特征在于,包括: 預(yù)處理用戶檢索詞,計算文本向量逆向詞頻和近似度矩陣,得到對用戶輸入的檢索詞 的分類結(jié)果,根據(jù)分類結(jié)果進(jìn)行檢索。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算文本向量逆向詞頻和近似度矩 陣,進(jìn)一步包括: 結(jié)合分詞特性與結(jié)合領(lǐng)域知識的語義權(quán)值,在所有的DataNode均部署分詞工具包,在 分詞后獲得文本的檢索詞以及該檢索詞在本文檔的出現(xiàn)次數(shù),以統(tǒng)計詞頻,掃描領(lǐng)域知識 庫,計算出該詞的位置權(quán)值和語義跨度權(quán)值,再在第一個Map階段調(diào)用語義近似度函數(shù)進(jìn)行 統(tǒng)計;然后在Reduce階段計算每個詞的逆向詞頻,將這些信息輸出為第二個MapReduce的輸 入;在第二個Map階段,計算語義近似度結(jié)果,如果近似度大于預(yù)設(shè)語義閾值,則返回語義權(quán) 值,否則不加權(quán),再組合所有的權(quán)值,得到最終語義權(quán)值;第二個Reduce階段,對向量規(guī)格化 處理; 對于每一個文本,只計算編號大于自己文本的近似度,即可計算出整個矩陣,其 MapReduce環(huán)境下并行過程為: Map階段:首先進(jìn)行數(shù)據(jù)分割,將分割的數(shù)據(jù)由NameNode分配給DataNode,同時給 DataNode編號,同時計算文本的近似度,當(dāng)Map階段結(jié)束后,將中間結(jié)果輸出到本地作為 Reduce階段的輸入; Reduce階段:收集每一行的數(shù)據(jù),并且匯總輸出矩陣; 然后采用優(yōu)化劃片的輸入方式,將高維矩陣分塊成小矩陣運(yùn)算;Map階段進(jìn)行數(shù)據(jù)劃 片,根據(jù)劃片偏移信息讀取子矩陣A和B在本地做乘法,結(jié)果為矩陣C的一個子矩陣,輸出到 指定偏移位置;Reduce階段計算矩陣C = AB;將對稱矩陣通過正交相似變換表示成對稱三對 角矩陣;求解對稱三對角矩陣的前K個最小特征向量,將對稱三對角矩陣的運(yùn)算最終轉(zhuǎn)化為 拉普拉斯矩陣與向量的相乘運(yùn)算,得到矩陣的最小特征值和特征向量后,計算每個文本到 某一集合的近似度。
【文檔編號】G06F17/30GK106021626SQ201610600204
【公開日】2016年10月12日
【申請日】2016年7月27日
【發(fā)明人】賴真霖, 文君
【申請人】成都四象聯(lián)創(chuàng)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1