日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種URL處理方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號:39720264發(fā)布日期:2024-10-22 13:10閱讀:2來源:國知局
一種URL處理方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

本申請涉及數(shù)據(jù)處理,尤其涉及一種url處理方法、裝置、存儲介質(zhì)及電子設(shè)備。


背景技術(shù):

1、在全網(wǎng)搜索引擎中收錄的統(tǒng)一資源定位符(uniform?resource?locator,url)數(shù)量級通常在pb級,搜索引擎中一些場景下需要建立一些url的黑、白名單,可簡稱為url名單。

2、目前,在判別需要查詢的url是否命中url名單時(shí),可基于倒排求交的方案。具體首先反轉(zhuǎn)url,按設(shè)定的長度對url切片成關(guān)鍵字,按照這種方式基于整個(gè)url名單包含的url數(shù)據(jù)集建立倒排鏈表,然后對需要查詢的url以同樣的方式進(jìn)行關(guān)鍵字切片,再與該倒排鏈表進(jìn)行倒排求交,如果求交結(jié)果為空,則表示不命中url名單。

3、然而,倒排索引求交的方式在為海量url數(shù)據(jù)建立索引時(shí),倒排鏈表的長度會發(fā)生爆炸性地增長,導(dǎo)致倒排求交的計(jì)算時(shí)間復(fù)雜度高,計(jì)算相對耗時(shí),對用戶體驗(yàn)的影響較大。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本申請?zhí)峁┝艘环Nurl處理方法、裝置、存儲介質(zhì)及電子設(shè)備,主要目的在于改善目前倒排索引求交的方式計(jì)算相對耗時(shí),造成url名單匹配效率較低,影響用戶體驗(yàn)的技術(shù)問題。

2、第一方面,本申請?zhí)峁┝艘环Nurl處理方法,包括:

3、獲取待查詢url的特征信息,所述特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);

4、根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段;

5、基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,所述第一b+樹索引維護(hù)url名單中不同url的索引字段與索引標(biāo)識之間的映射關(guān)系,所述第二b+樹索引維護(hù)所述不同url與所述索引標(biāo)識之間的映射關(guān)系;

6、依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單。

7、第二方面,本申請?zhí)峁┝艘环Nurl處理裝置,包括:

8、獲取模塊,被配置為獲取待查詢url的特征信息,所述特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);

9、構(gòu)建模塊,被配置為根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段;

10、查詢模塊,被配置為基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,所述第一b+樹索引維護(hù)url名單中不同url的索引字段與索引標(biāo)識之間的映射關(guān)系,所述第二b+樹索引維護(hù)所述不同url與所述索引標(biāo)識之間的映射關(guān)系;

11、確定模塊,被配置為依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單。

12、第三方面,本申請?zhí)峁┝艘环N計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。

13、第四方面,本申請?zhí)峁┝艘环N電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。

14、第五方面,本申請?zhí)峁┝艘环N計(jì)算機(jī)程序產(chǎn)品,其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。

15、借由上述技術(shù)方案,本申請?zhí)峁┑囊环Nurl處理方法、裝置、存儲介質(zhì)及電子設(shè)備,首先獲取待查詢url的特征信息,特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);然后根據(jù)特征信息,構(gòu)建待查詢url對應(yīng)的目標(biāo)索引字段;再基于目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢;最后依據(jù)查詢結(jié)果確定待查詢url是否命中url名單。與目前現(xiàn)有技術(shù)相比,本申請通過構(gòu)建url索引字段,基于查詢復(fù)雜度相對較低的b+樹索引提出了一種適合用于查詢url是否命中url名單的索引方案,提高了搜索引擎中url名單匹配的效率,降低了搜索引擎單次搜索的計(jì)算耗時(shí),提升了用戶的搜索體驗(yàn)。

16、上述說明僅是本申請技術(shù)方案的概述,為了能夠更清楚了解本申請的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請的具體實(shí)施方式。



技術(shù)特征:

1.一種url處理方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單,包括:

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述第一b+樹索引中查詢與所述目標(biāo)索引字段對應(yīng)的目標(biāo)索引標(biāo)識,包括:

5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段,包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一b+樹索引和所述第二b+樹索引的創(chuàng)建過程包括:

7.一種url處理裝置,其特征在于,包括:

8.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。

9.一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請公開了一種URL處理方法、裝置、存儲介質(zhì)及電子設(shè)備,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,包括:首先獲取待查詢URL的特征信息,特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);然后根據(jù)特征信息,構(gòu)建待查詢URL對應(yīng)的目標(biāo)索引字段;再基于目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢;最后依據(jù)查詢結(jié)果確定待查詢URL是否命中URL名單。與目前現(xiàn)有技術(shù)相比,本申請通過構(gòu)建URL索引字段,基于查詢復(fù)雜度相對較低的b+樹索引提出了一種適合用于查詢URL是否命中URL名單的索引方案,提高了搜索引擎中URL名單匹配的效率,降低了搜索引擎單次搜索的計(jì)算耗時(shí),提升了用戶的搜索體驗(yàn)。

技術(shù)研發(fā)人員:張鴻波
受保護(hù)的技術(shù)使用者:中移(蘇州)軟件技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1