一種web站點(diǎn)資源管理方法及裝置制造方法
【專利摘要】本發(fā)明提出一種web站點(diǎn)資源管理方法及裝置,其中方法包括以下步驟:獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);獲取web站點(diǎn)的url層次關(guān)系;以及根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法,通過(guò)對(duì)web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)及URL層次關(guān)系生成索引瀏覽路徑,方便了用戶在高端機(jī)上瀏覽web站點(diǎn)。
【專利說(shuō)明】一種web站點(diǎn)資源管理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及web app化【技術(shù)領(lǐng)域】,特別涉及一種web站點(diǎn)資源管理方法及裝置。【背景技術(shù)】
[0002]現(xiàn)如今,隨著進(jìn)入web2.0時(shí)代,PC網(wǎng)站之間的指向變得更加復(fù)雜化,web app (webapplication,通過(guò)使用Web和Web瀏覽器技術(shù),跨越網(wǎng)絡(luò)完成一個(gè)或多個(gè)任務(wù)的應(yīng)用程序,通常需要使用Web瀏覽器)是將傳統(tǒng)web網(wǎng)頁(yè)轉(zhuǎn)化為便于用戶在高端機(jī)設(shè)備上瀏覽的一種技術(shù),讓用戶在高端機(jī)只能設(shè)備上瀏覽web頁(yè)的效果的體驗(yàn)類似native app (nativeapplication,本地應(yīng)用程序)展現(xiàn)效果。
[0003]Web app化技術(shù)分為page app和site app,page app主要是頁(yè)面結(jié)構(gòu)化技術(shù),從單頁(yè)面的分析重構(gòu)web頁(yè)展現(xiàn)適合于高端機(jī)瀏覽設(shè)備上;site app主要是針對(duì)pc站點(diǎn)重構(gòu)web站點(diǎn)在高端機(jī)設(shè)備上的在線效果。
[0004]目前所有的技術(shù)中的site構(gòu)建至少存在以下缺點(diǎn):
[0005](I)無(wú)法通過(guò)線下挖掘構(gòu)建資源結(jié)構(gòu)圖,不方便用戶在高端機(jī)上瀏覽;
[0006](2)無(wú)法保證瀏覽路徑上的頁(yè)面都能夠被page app結(jié)構(gòu)化。
【發(fā)明內(nèi)容】
[0007]本發(fā)明旨在至少解決上述技術(shù)問(wèn)題之一。
[0008]為此,本發(fā)明的第一個(gè)目的在于提出一種web站點(diǎn)資源管理方法。
[0009]本發(fā)明的第二個(gè)目的在于提出一種web站點(diǎn)資源管理裝置。
[0010]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面實(shí)施例的web站點(diǎn)資源管理方法包括以下步驟:獲取所述web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);獲取所述web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);獲取所述web站點(diǎn)的url層次關(guān)系;以及根據(jù)所述導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、所述面包屑瀏覽路徑結(jié)構(gòu)及所述url層次關(guān)系生成所述web站點(diǎn)的索引瀏覽路徑。
[0011]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法,通過(guò)對(duì)web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)及URL層次關(guān)系生成索引瀏覽路徑,方便了用戶在高端機(jī)上瀏覽web站點(diǎn)。
[0012]為實(shí)現(xiàn)上述目的,本發(fā)明第二方面的實(shí)施例的web站點(diǎn)資源管理裝置包括:第一獲取模塊,所述第一獲取模塊用于獲取所述web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);第二獲取模塊,所述第二獲取模塊用于獲取所述web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊,所述第三獲取模塊用于獲取所述web站點(diǎn)的url層次關(guān)系;以及生成模塊,所述生成模塊用于根據(jù)所述導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、所述面包屑瀏覽路徑結(jié)構(gòu)及所述url層次關(guān)系生成所述web站點(diǎn)的索引瀏覽路徑。
[0013]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,通過(guò)三個(gè)獲取模塊獲取站點(diǎn)的導(dǎo)航樹(shù)結(jié)構(gòu),面包屑瀏覽路徑結(jié)構(gòu)及web站點(diǎn)的url層次關(guān)系再通過(guò)生成模塊來(lái)生成web站點(diǎn)的索引瀏覽路徑,方便了用戶在高端機(jī)上瀏覽web站點(diǎn)。
[0014]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說(shuō)明】
[0015]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理方法的流程圖;
[0017]圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理方法的流程圖;
[0018]圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理方法的流程圖;
[0019]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖;
[0020]圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖;以及
[0021]圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例的一種web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0023]參照下面的描述和附圖,將清楚本發(fā)明的實(shí)施例的這些和其他方面。在這些描述和附圖中,具體公開(kāi)了本發(fā)明的實(shí)施例中的一些特定實(shí)施方式,來(lái)表示實(shí)施本發(fā)明的實(shí)施例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例的范圍不受此限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0024]下面參考說(shuō)明書(shū)附圖描述根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法
[0025]一種用于方法,包括以下步驟:獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);獲取web站點(diǎn)的url層次關(guān)系;以及根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0026]圖1為本發(fā)明一個(gè)實(shí)施例的web站點(diǎn)資源管理方法的流程圖。
[0027]如圖1所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法包括下述步驟。
[0028]步驟SlOl:獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0029]具體地,首先從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;然后從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0030]更具體地,從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。
[0031]步驟S102:獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)。
[0032]具體地,首先從用戶搜索日志中挖掘web站點(diǎn)的資源頁(yè)以計(jì)算面包屑;然后根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu)。
[0033]更具體地,通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。[0034]步驟S103:獲取web站點(diǎn)的url層次關(guān)系。
[0035]具體地,對(duì)web站點(diǎn)進(jìn)行url層次結(jié)構(gòu)關(guān)系分析,獲取web站點(diǎn)的url層次關(guān)系。
[0036]步驟S104:根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0037]具體地,結(jié)合導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系分析出web站點(diǎn)中到達(dá)各資源頁(yè)的路徑及各個(gè)頁(yè)面之間層次關(guān)系,生成該web站點(diǎn)的索引瀏覽路徑。
[0038]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法,通過(guò)對(duì)web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)及URL層次關(guān)系生成索引瀏覽路徑,方便了用戶在高端機(jī)上瀏覽web站點(diǎn)。
[0039]圖2為本發(fā)明又一個(gè)實(shí)施例的web站點(diǎn)資源管理方法的流程圖。
[0040]如圖2所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法包括下述步驟。
[0041 ] 步驟S201:獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0042]具體地,首先從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;然后從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0043]更具體地,從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。
[0044]步驟S202:獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)。
[0045]具體地,首先從用戶搜索日志中挖掘web站點(diǎn)的資源頁(yè)以計(jì)算面包屑;然后根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu)。
[0046]更具體地,通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。
[0047]步驟S203:獲取web站點(diǎn)的url層次關(guān)系。
[0048]具體地,對(duì)web站點(diǎn)進(jìn)行url層次結(jié)構(gòu)關(guān)系分析,獲取web站點(diǎn)的url層次關(guān)系。
[0049]步驟S204:根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0050]具體地,結(jié)合導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系分析出web站點(diǎn)中到達(dá)各資源頁(yè)的路徑及各個(gè)頁(yè)面之間層次關(guān)系,生成該web站點(diǎn)的索引瀏覽路徑。
[0051]步驟S205:對(duì)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率進(jìn)行識(shí)別。
[0052]具體地,首先對(duì)索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘;然后對(duì)后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;最后根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取后鏈頁(yè)面類型的結(jié)構(gòu)化率。
[0053]更具體地,對(duì)生成的web站點(diǎn)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面進(jìn)行頁(yè)面挖掘,獲取該后鏈指向的頁(yè)面類型,根據(jù)該頁(yè)面類型對(duì)所有屬于該頁(yè)面類型的頁(yè)面進(jìn)行結(jié)構(gòu)化類型識(shí)別,從屬于該頁(yè)面類型的所有頁(yè)面中獲取能被結(jié)構(gòu)化的頁(yè)面,最后根據(jù)這些能夠被結(jié)構(gòu)化的頁(yè)面在該頁(yè)面類型的所有頁(yè)面中所占的數(shù)量的百分比確定該后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率。
[0054]在本發(fā)明的一個(gè)實(shí)施例中,頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
[0055]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法,通過(guò)對(duì)生成的web站點(diǎn)索引瀏覽路徑的節(jié)點(diǎn)后鏈上的頁(yè)面的結(jié)構(gòu)化率進(jìn)行判斷,能夠方便對(duì)頁(yè)面類型的過(guò)濾,確定能夠被結(jié)構(gòu)化的頁(yè)面,提高用戶的體驗(yàn)感。
[0056]圖3為本發(fā)明又一個(gè)實(shí)施例的web站點(diǎn)資源管理方法的流程圖。
[0057]如圖3所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法包括下述步驟。
[0058]步驟S301:獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0059]具體地,首先從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;然后從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。
[0060]更具體地,從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。
[0061]步驟S302:獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)。
[0062]具體地,首先從用戶搜索日志中挖掘web站點(diǎn)的資源頁(yè)以計(jì)算面包屑;然后根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu)。
[0063]更具體地,通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。
[0064]步驟S303:獲取web站點(diǎn)的url層次關(guān)系。
[0065]具體地,對(duì)web站點(diǎn)進(jìn)行url層次結(jié)構(gòu)關(guān)系分析,獲取web站點(diǎn)的url層次關(guān)系。
[0066]步驟S304:根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0067]具體地,結(jié)合導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系分析出web站點(diǎn)中到達(dá)各資源頁(yè)的路徑及各個(gè)頁(yè)面之間層次關(guān)系,生成該web站點(diǎn)的索引瀏覽路徑。
[0068]步驟S305:對(duì)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率進(jìn)行識(shí)別。
[0069]具體地,首先對(duì)索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘;然后對(duì)后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;最后根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取后鏈頁(yè)面類型的結(jié)構(gòu)化率。
[0070]更具體地,對(duì)生成的web站點(diǎn)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面進(jìn)行頁(yè)面挖掘,獲取該后鏈指向的頁(yè)面類型,根據(jù)該頁(yè)面類型對(duì)所有屬于該頁(yè)面類型的頁(yè)面進(jìn)行結(jié)構(gòu)化類型識(shí)別,從屬于該頁(yè)面類型的所有頁(yè)面中獲取能被結(jié)構(gòu)化的頁(yè)面,最后根據(jù)這些能夠被結(jié)構(gòu)化的頁(yè)面在該頁(yè)面類型的所有頁(yè)面中所占的數(shù)量的百分比確定該后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率。
[0071]步驟S306:對(duì)頁(yè)面類型進(jìn)行過(guò)濾以過(guò)濾掉結(jié)構(gòu)化率低于預(yù)定閾值的頁(yè)面類型。[0072]具體地,根據(jù)已確定的節(jié)點(diǎn)后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率與預(yù)定的閾值進(jìn)行對(duì)t匕,對(duì)結(jié)構(gòu)化率低于閾值的頁(yè)面類型標(biāo)注為需要消去,結(jié)構(gòu)化率高于閾值的頁(yè)面類型標(biāo)注為需要保留,然后根據(jù)標(biāo)注對(duì)頁(yè)面類型進(jìn)行過(guò)濾,過(guò)濾掉需要消去的頁(yè)面類型。
[0073]在本發(fā)明的一個(gè)實(shí)施例中,預(yù)定閾值為80%。
[0074]在本發(fā)明的一個(gè)實(shí)施例中,頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
[0075]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理方法,通過(guò)對(duì)頁(yè)面類型的過(guò)濾,將結(jié)構(gòu)化率不高的頁(yè)面類型或不能處理的頁(yè)面類型過(guò)濾掉,能夠方便頁(yè)面結(jié)構(gòu)化,使網(wǎng)站結(jié)構(gòu)更加清晰,提聞?dòng)脩舻捏w驗(yàn)感。
[0076]下面參考說(shuō)明書(shū)附圖描述根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置。
[0077]一種web站點(diǎn)資源管理裝置包括:第一獲取模塊,用于獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);第二獲取模塊,用于獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊,用于獲取web站點(diǎn)的url層次關(guān)系;以及生成模塊,用于根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0078]圖4為本發(fā)明一個(gè)實(shí)施例的web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖。
[0079]如圖4所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130以及生成模塊140。
[0080]具體地,第一獲取模塊110用于獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);第二獲取模塊120用于獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊130用于獲取web站點(diǎn)的url層次關(guān)系;以及生成模塊140用于根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。
[0081]更具體地,第一獲取模塊110用于:從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;以及從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。第二獲取模塊用于:從web站點(diǎn)的日志中挖掘資源頁(yè)以計(jì)算面包屑;以及根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu)。
[0082]例如,第一獲取模塊110從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。第二獲取模塊120通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。
[0083]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,過(guò)三個(gè)獲取模塊獲取站點(diǎn)的導(dǎo)航樹(shù)結(jié)構(gòu),面包屑瀏覽路徑結(jié)構(gòu)及web站點(diǎn)的url層次關(guān)系再通過(guò)生成模塊來(lái)生成web站點(diǎn)的索引瀏覽路徑,方便了用戶在高端機(jī)上瀏覽web站點(diǎn)。
[0084]圖5為本發(fā)明另一個(gè)實(shí)施例的web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖。
[0085]如圖5所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130、生成模塊140以及識(shí)別模塊150。
[0086]具體地,第一獲取模塊110用于獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);第二獲取模塊120用于獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊130用于獲取web站點(diǎn)的url層次關(guān)系;以及生成模塊140用于根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑;
[0087]識(shí)別模塊150用于對(duì)索引瀏覽路徑上的節(jié)點(diǎn)指向的后鏈的頁(yè)面類型進(jìn)行識(shí)別。
[0088]更具體地,第一獲取模塊110用于:從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;以及從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。第二獲取模塊用于:從web站點(diǎn)的日志中挖掘資源頁(yè)以計(jì)算面包屑;以及根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu);
[0089]識(shí)別模塊150用于對(duì)索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘;對(duì)后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;以及根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取后鏈頁(yè)面類型的結(jié)構(gòu)化率。
[0090]例如,第一獲取模塊110從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。第二獲取模塊120通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。識(shí)別模塊150對(duì)生成的web站點(diǎn)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面進(jìn)行頁(yè)面挖掘,獲取該后鏈指向的頁(yè)面類型,根據(jù)該頁(yè)面類型對(duì)所有屬于該頁(yè)面類型的頁(yè)面進(jìn)行結(jié)構(gòu)化類型識(shí)別,從屬于該頁(yè)面類型的所有頁(yè)面中獲取能被結(jié)構(gòu)化的頁(yè)面,最后根據(jù)這些能夠被結(jié)構(gòu)化的頁(yè)面在該頁(yè)面類型的所有頁(yè)面中所占的數(shù)量的百分比確定該后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率。
[0091]在本發(fā)明的一個(gè)實(shí)施例中,頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
[0092]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,通過(guò)對(duì)生成的web站點(diǎn)索引瀏覽路徑的節(jié)點(diǎn)后鏈上的頁(yè)面的結(jié)構(gòu)化率進(jìn)行判斷,能夠方便對(duì)頁(yè)面類型的過(guò)濾,提高用戶的體驗(yàn)感。
[0093]圖6為本發(fā)明另一個(gè)實(shí)施例的web站點(diǎn)資源管理裝置的結(jié)構(gòu)示意圖。
[0094]如圖6所示,根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,包括:第一獲取模塊110,第二獲取模塊120,第三獲取模塊130、生成模塊140、識(shí)別模塊150以及標(biāo)注模塊160。
[0095]具體地,第一獲取模塊110用于獲取web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu);第二獲取模塊120用于獲取web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊130用于獲取web站點(diǎn)的url層次關(guān)系;以及生成模塊140用于根據(jù)導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、面包屑瀏覽路徑結(jié)構(gòu)及url層次關(guān)系生成web站點(diǎn)的索引瀏覽路徑。識(shí)別模塊150用于對(duì)索引瀏覽路徑上的節(jié)點(diǎn)指向的后鏈的頁(yè)面類型進(jìn)行識(shí)別;
[0096]標(biāo)注模塊160用于對(duì)頁(yè)面類型進(jìn)行標(biāo)注,對(duì)結(jié)構(gòu)化率低于預(yù)定閾值的頁(yè)面類型標(biāo)
注為需要去掉。
[0097]更具體地,第一獲取模塊110用于:從web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;以及從web站點(diǎn)的首頁(yè)沿著導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成導(dǎo)航樹(shù)狀結(jié)構(gòu)。第二獲取模塊用于:從web站點(diǎn)的日志中挖掘資源頁(yè)以計(jì)算面包屑;以及根據(jù)面包屑生成面包屑瀏覽路徑結(jié)構(gòu)。識(shí)別模塊150用于對(duì)索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘;對(duì)后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;以及根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取后鏈頁(yè)面類型的結(jié)構(gòu)化率;
[0098]標(biāo)注模塊160根據(jù)識(shí)別模塊150出的頁(yè)面類型的結(jié)構(gòu)化率進(jìn)行標(biāo)注,將結(jié)構(gòu)化率低于預(yù)定閾值的頁(yè)面類型標(biāo)注為需要消去,將結(jié)構(gòu)化率高于預(yù)定閾值的頁(yè)面類型標(biāo)注為需要保留,然后再根據(jù)標(biāo)注將需要消去的頁(yè)面類型過(guò)濾掉。
[0099]例如,第一獲取模塊110從web站點(diǎn)的首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的各個(gè)導(dǎo)航鏈接所指向的頁(yè)面位置來(lái)計(jì)算導(dǎo)航塊內(nèi)的鏈接指向,然后從web站點(diǎn)首頁(yè)開(kāi)始,根據(jù)導(dǎo)航塊中的鏈接指向進(jìn)行定向挖掘,從這些鏈接中,挖掘出導(dǎo)航塊指向的具體頁(yè)面,并根據(jù)挖掘出的頁(yè)面,從網(wǎng)頁(yè)內(nèi)容中抽取信息建立起導(dǎo)航樹(shù)形結(jié)構(gòu)。第二獲取模塊120通過(guò)挖掘用戶的搜索日志,根據(jù)用戶訪問(wèn)日志記錄挖掘web站點(diǎn)底層資源頁(yè)來(lái)計(jì)算出面包屑,同時(shí)從用戶瀏覽記錄中提取出面包屑,根據(jù)該面包屑記錄構(gòu)建起面包屑瀏覽路徑結(jié)構(gòu)。識(shí)別模塊150對(duì)生成的web站點(diǎn)索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面進(jìn)行頁(yè)面挖掘,獲取該后鏈指向的頁(yè)面類型,根據(jù)該頁(yè)面類型對(duì)所有屬于該頁(yè)面類型的頁(yè)面進(jìn)行結(jié)構(gòu)化類型識(shí)別,從屬于該頁(yè)面類型的所有頁(yè)面中獲取能被結(jié)構(gòu)化的頁(yè)面,最后根據(jù)這些能夠被結(jié)構(gòu)化的頁(yè)面在該頁(yè)面類型的所有頁(yè)面中所占的數(shù)量的百分比確定該后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率。
[0100]在本發(fā)明的一個(gè)實(shí)施例中,預(yù)定閾值為80%。
[0101]在本發(fā)明的一個(gè)實(shí)施例中,頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
[0102]根據(jù)本發(fā)明實(shí)施例的web站點(diǎn)資源管理裝置,通過(guò)標(biāo)注模塊,對(duì)頁(yè)面類型的進(jìn)行標(biāo)注,將然后將標(biāo)注為需要消去的頁(yè)面類型或不能處理的頁(yè)面類型過(guò)濾掉,能夠方便頁(yè)面結(jié)構(gòu)化,使網(wǎng)站結(jié)構(gòu)更加清晰,提高用戶的體驗(yàn)感。
[0103]在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0104]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同限定。
【權(quán)利要求】
1.一種web站點(diǎn)資源管理方法,其特征在于,包括以下步驟: 獲取所述web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu); 獲取所述web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu); 獲取所述web站點(diǎn)的url層次關(guān)系;以及 根據(jù)所述導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、所述面包屑瀏覽路徑結(jié)構(gòu)及所述url層次關(guān)系生成所述web站點(diǎn)的索引瀏覽路徑。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括步驟:對(duì)所述索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率進(jìn)行識(shí)別。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,進(jìn)一步包括步驟: 對(duì)所述頁(yè)面類型進(jìn)行過(guò)濾以過(guò)濾掉結(jié)構(gòu)化率低于預(yù)定閾值的頁(yè)面類型。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,對(duì)所述索引瀏覽路徑上的節(jié)點(diǎn)的后鏈指向的頁(yè)面類型的結(jié)構(gòu)化率進(jìn)行識(shí)別包括: 對(duì)所述索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘; 對(duì)所述后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;以及 根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在所述頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取所述后鏈頁(yè)面類型的結(jié)構(gòu)化率。
5.根據(jù)權(quán)利要求3或4所`述的方法,其特征在于,所述預(yù)定閾值為80%。
6.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
7.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,獲取所述web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu)的步驟包括: 從所述web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;以及 從所述web站點(diǎn)的首頁(yè)沿著所述導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成所述導(dǎo)航樹(shù)狀結(jié)構(gòu)。
8.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,獲取所述web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu)的步驟包括: 從用戶搜索日志中挖掘所述web站點(diǎn)的資源頁(yè)以計(jì)算面包屑;以及 根據(jù)所述面包屑生成所述面包屑瀏覽路徑結(jié)構(gòu)。
9.一種web站點(diǎn)資源管理裝置,其特征在于,包括以下步驟: 第一獲取模塊,所述第一獲取模塊用于獲取所述web站點(diǎn)的導(dǎo)航樹(shù)狀結(jié)構(gòu); 第二獲取模塊,所述第二獲取模塊用于獲取所述web站點(diǎn)的面包屑瀏覽路徑結(jié)構(gòu);第三獲取模塊,所述第三獲取模塊用于獲取所述web站點(diǎn)的url層次關(guān)系;以及生成模塊,所述生成模塊用于根據(jù)所述導(dǎo)航樹(shù)狀路徑結(jié)構(gòu)、所述面包屑瀏覽路徑結(jié)構(gòu)及所述url層次關(guān)系生成所述web站點(diǎn)的索引瀏覽路徑。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,進(jìn)一步包括: 識(shí)別模塊,所述識(shí)別模塊用于對(duì)所述索引瀏覽路徑上的節(jié)點(diǎn)指向的后鏈的頁(yè)面類型進(jìn)行識(shí)別。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,進(jìn)一步包括:標(biāo)注模塊,對(duì)所述頁(yè)面類型進(jìn)行標(biāo)注,對(duì)結(jié)構(gòu)化率低于預(yù)定閾值的頁(yè)面類型標(biāo)注為需要去掉。
12.根據(jù)權(quán)利要求10或11所述的裝置,其特征在于,所述識(shí)別模塊用于: 對(duì)所述索引瀏覽路徑上的節(jié)點(diǎn)進(jìn)行后鏈挖掘; 對(duì)所述后鏈指向的頁(yè)面類型的所有頁(yè)面進(jìn)行識(shí)別,以確定每個(gè)頁(yè)面是否具有預(yù)定的結(jié)構(gòu)化類型;以及 根據(jù)具有預(yù)定的結(jié)構(gòu)化類型的頁(yè)面在所述頁(yè)面類型的所有頁(yè)面中所占的百分比確定獲取所述后鏈頁(yè)面類型的結(jié)構(gòu)化率。
13.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,所述預(yù)定閾值為80%。
14.根據(jù)權(quán)利要求11或12所述的裝置,其特征在于,所述頁(yè)面類型包括小說(shuō)閱讀頁(yè)、小說(shuō)封面頁(yè)、小說(shuō)列表頁(yè)、新聞標(biāo)題頁(yè)、新聞內(nèi)容頁(yè)、視頻標(biāo)題頁(yè)及視頻觀看頁(yè)。
15.根據(jù)權(quán)利要求9-10中任一項(xiàng)所述的裝置,其特征在于,所述第一獲取模塊用于: 從所述web站點(diǎn)的首頁(yè)開(kāi)始計(jì)算導(dǎo)航塊內(nèi)的鏈接指向;以及 從所述web站點(diǎn)的首頁(yè)沿著所述導(dǎo)航塊內(nèi)的鏈接指向定向挖掘以生成所述導(dǎo)航樹(shù)狀結(jié)構(gòu)。
16.根據(jù)權(quán)利要求9-10中任一項(xiàng)所述的裝置,其特征在于,所述第二獲取模塊用于: 從所述web站點(diǎn)的日志中挖掘資源頁(yè)以計(jì)算面包屑;以及 根據(jù)所述面包屑生成所述面包屑瀏覽路徑結(jié)構(gòu)。
【文檔編號(hào)】G06F17/30GK103514232SQ201210227112
【公開(kāi)日】2014年1月15日 申請(qǐng)日期:2012年6月29日 優(yōu)先權(quán)日:2012年6月29日
【發(fā)明者】王正華, 李偉剛, 薛晶晶, 王佳 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司