日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

熱點(diǎn)新聞的挖掘方法及裝置的制造方法

文檔序號(hào):10655265閱讀:484來源:國知局
熱點(diǎn)新聞的挖掘方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種熱點(diǎn)新聞的挖掘方法及裝置。其中,方法包括:收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。本發(fā)明提供的熱點(diǎn)新聞的挖掘方法及裝置,相對(duì)于現(xiàn)有技術(shù),提升了熱點(diǎn)新聞的時(shí)效性,實(shí)現(xiàn)了高效率和均衡化的熱點(diǎn)新聞推送。
【專利說明】
熱點(diǎn)新聞的挖掘方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種熱點(diǎn)新聞的挖掘方法及裝置?!颈尘凹夹g(shù)】
[0002]隨著信息化技術(shù)的迅速發(fā)展,每時(shí)每刻都會(huì)產(chǎn)生大量的新聞,新聞是指最新發(fā)生的、人們未知、欲知、應(yīng)知的事實(shí)的報(bào)道,如何將新聞快速而有效的傳播出去,成為當(dāng)今社會(huì)一個(gè)非常重要的問題。除了傳統(tǒng)的報(bào)紙、電視等可以用來作為新聞傳播的媒介之外,網(wǎng)絡(luò)也是新聞傳播的一個(gè)重要媒介。
[0003]熱點(diǎn)新聞的挖掘與提供極大地方便了用戶對(duì)新聞信息的獲取。然而,現(xiàn)有技術(shù)中, 通常采用人工整理的方式來確定熱點(diǎn)新聞,這種方式顯然需要較大人力成本,且時(shí)效性較差,不能及時(shí)為用戶提供熱點(diǎn)新聞,相應(yīng)地,也降低了用戶獲取熱點(diǎn)新聞的效率。
【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的熱點(diǎn)新聞的挖掘方法及裝置。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供了一種熱點(diǎn)新聞的挖掘方法,包括:
[0006]收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);
[0007]按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);
[0008]將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。
[0009]根據(jù)本發(fā)明的另一方面,提供了一種熱點(diǎn)新聞的挖掘裝置,包括:
[0010]收集模塊,適于收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);[〇〇11]挖掘模塊,適于按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);[〇〇12]推送模塊,適于將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。
[0013]根據(jù)本發(fā)明提供的熱點(diǎn)新聞的挖掘方法及裝置,預(yù)先收集新聞?wù)军c(diǎn)的用戶訪問行為日志,得到新聞數(shù)據(jù),按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù)進(jìn)行推送,相對(duì)于現(xiàn)有技術(shù),提升了熱點(diǎn)新聞的時(shí)效性,實(shí)現(xiàn)了高效率和均衡化的熱點(diǎn)新聞推送。
[0014]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。【附圖說明】
[0015]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0016]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘方法的流程圖;
[0017]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘方法的流程圖;
[0018]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘裝置的功能框圖?!揪唧w實(shí)施方式】
[0019]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0020]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘方法的流程圖。如圖1所示, 該方法包括如下步驟:
[0021]步驟S101,收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù)。
[0022]新聞?wù)军c(diǎn)是專門提供新聞信息的網(wǎng)站,可以包括國家大型新聞門戶(如新華網(wǎng)、人民網(wǎng)等)、商業(yè)門戶(新浪新聞、網(wǎng)易新聞等)、地方新聞門戶(長江網(wǎng)、大洋網(wǎng)等)、以及行業(yè)門戶網(wǎng)站;還可以包括一些社交平臺(tái)(新浪微博等)。這些新聞?wù)军c(diǎn)的用戶訪問量很大,通過收集這些新聞?wù)军c(diǎn)的用戶訪問行為日志,可以獲取用戶感興趣的、熱度極高的新聞數(shù)據(jù)。
[0023]本發(fā)明實(shí)施例中,可預(yù)先維護(hù)新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn),將這些新聞?wù)军c(diǎn)的用戶訪問行為收攏起來,每隔預(yù)設(shè)時(shí)間形成一個(gè)日志。由于新聞對(duì)時(shí)效性要求較高,新聞數(shù)據(jù)的收集需要是及時(shí)的,可要求每分鐘收集得到一個(gè)日志,獲取其中的新聞數(shù)據(jù)作為后續(xù)熱點(diǎn)新聞的數(shù)據(jù)來源。根據(jù)本步驟獲取的新聞數(shù)據(jù),能實(shí)現(xiàn)后續(xù)多種時(shí)間粒度的熱點(diǎn)新聞推送。
[0024]步驟S102,按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù)。
[0025]本發(fā)明實(shí)施例按照時(shí)間粒度調(diào)度挖掘程序,時(shí)間粒度規(guī)定了調(diào)度挖掘程序的時(shí)間間隔段。通過設(shè)置多種時(shí)間粒度,實(shí)現(xiàn)向用戶推送多種時(shí)間范圍內(nèi)的熱點(diǎn)新聞。例如,預(yù)先設(shè)置多種時(shí)間粒度,分別為1天、1小時(shí)和15分鐘,這表示每15分鐘、每1小時(shí)和每天都需要調(diào)度一次挖掘程序。其中每15分鐘調(diào)度的挖掘程序用來挖掘15分鐘內(nèi)的熱點(diǎn)新聞,每1小時(shí)調(diào)度的挖掘程序用來挖掘1小時(shí)內(nèi)的熱點(diǎn)新聞,每天調(diào)度的挖掘程序用來挖掘1天內(nèi)的熱點(diǎn)新聞。通過較小的時(shí)間粒度,可提升熱點(diǎn)新聞的實(shí)時(shí)性;通過較大的時(shí)間粒度,可擴(kuò)大熱點(diǎn)新聞的覆蓋范圍。
[0026]通過調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù)。對(duì)于新聞來說,類別很重要,不同類別的新聞的熱度或關(guān)注度具有顯著差別。通常情況下,娛樂類和體育類的新聞熱度偏高,科技類和教育類的新聞熱度偏低,如果不進(jìn)行分類和參數(shù)化設(shè)置,熱度高的新聞會(huì)將熱度低的新聞淹沒掉。本步驟通過多分類和參數(shù)化設(shè)置可避免熱度低的新聞被淹沒,實(shí)現(xiàn)均衡化的推送。[〇〇27]步驟S103,將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。
[0028]根據(jù)本發(fā)明提供的熱點(diǎn)新聞的挖掘方法,預(yù)先收集新聞?wù)军c(diǎn)的用戶訪問行為日志,得到新聞數(shù)據(jù),按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù)進(jìn)行推送,相對(duì)于現(xiàn)有技術(shù),提升了熱點(diǎn)新聞的時(shí)效性,實(shí)現(xiàn)了高效率和均衡化的熱點(diǎn)新聞推送。
[0029]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘方法的流程圖。如圖2所示,該方法包括如下步驟:
[0030]步驟S201,定時(shí)收集用戶訪問預(yù)先維護(hù)的新聞?wù)军c(diǎn)列表中各個(gè)新聞?wù)军c(diǎn)的日志, 得到用戶訪問行為日志。
[0031]本發(fā)明中預(yù)先維護(hù)有新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn), 包括但不限于:國家大型新聞門戶、商業(yè)門戶、地方新聞門戶、行業(yè)門戶網(wǎng)站以及社交平臺(tái)。 定時(shí)收集新聞?wù)军c(diǎn)列表中各個(gè)新聞?wù)军c(diǎn)的訪問日志,得到用戶訪問行為日志。其中用戶訪問行為日志記錄了用戶訪問的頁面、頁面URL、訪問時(shí)間等信息,根據(jù)用戶訪問行為日志可了解用戶感興趣的、熱度高的新聞數(shù)據(jù)。[〇〇32]步驟S202,從用戶訪問行為日志中挖掘與新聞相關(guān)的數(shù)據(jù)。
[0033]從用戶訪問行為日志中挖掘出與新聞相關(guān)的數(shù)據(jù),例如新聞頁面、頁面標(biāo)題、新聞頁面URL以及訪問時(shí)間等等數(shù)據(jù)。[〇〇34] 步驟S203,判斷任一定時(shí)器的定時(shí)時(shí)間是否超過定時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段,若是,則執(zhí)行步驟S204;若否,則等待后繼續(xù)判斷。
[0035]本實(shí)施例按照時(shí)間粒度調(diào)度挖掘程序,時(shí)間粒度規(guī)定了調(diào)度挖掘程序的時(shí)間間隔段。而且,本實(shí)施例設(shè)置有多種時(shí)間粒度,實(shí)現(xiàn)向用戶推送多種時(shí)間范圍內(nèi)的熱點(diǎn)新聞。具體來說,每種時(shí)間粒度對(duì)應(yīng)有一定時(shí)器,通過判斷定時(shí)器的定時(shí)時(shí)間否超過定時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段來決定是否調(diào)度挖掘程序。[〇〇36]例如,預(yù)先設(shè)置多種時(shí)間粒度,分別為1天、1小時(shí)和15分鐘,即分別對(duì)應(yīng)設(shè)置三個(gè)定時(shí)器,定時(shí)時(shí)間分別為1天、1小時(shí)和15分鐘。如果任一個(gè)定時(shí)器的定時(shí)時(shí)間到達(dá),則認(rèn)為該調(diào)度一次挖掘程序。其中每15分鐘調(diào)度的挖掘程序用來挖掘15分鐘內(nèi)的熱點(diǎn)新聞,每1小時(shí)調(diào)度的挖掘程序用來挖掘1小時(shí)內(nèi)的熱點(diǎn)新聞,每天調(diào)度的挖掘程序用來挖掘1天內(nèi)的熱點(diǎn)新聞。通過較小的時(shí)間粒度,可提升熱點(diǎn)新聞的實(shí)時(shí)性;通過較大的時(shí)間粒度,可擴(kuò)大熱點(diǎn)新聞的覆蓋范圍。
[0037]步驟S204,調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù)。
[0038]對(duì)于新聞來說,類別很重要,不同類別的新聞的熱度或關(guān)注度具有顯著差別。通常情況下,娛樂類和體育類的新聞熱度偏高,科技類和教育類的新聞熱度偏低,如果不進(jìn)行分類和參數(shù)化設(shè)置,熱度高的新聞會(huì)將熱度低的新聞淹沒掉。具體的,新聞分類可根據(jù)頁面標(biāo)題進(jìn)行分類,如果根據(jù)頁面標(biāo)題不能判斷出新聞?lì)悇e,可進(jìn)一步爬取新聞頁面的具體內(nèi)容, 根據(jù)內(nèi)容進(jìn)行判斷。
[0039]在對(duì)新聞數(shù)據(jù)進(jìn)行分類后,還需按照不同分類設(shè)置參數(shù),其中不同分類設(shè)置的參數(shù)包括以下參數(shù)的一項(xiàng)或多項(xiàng):不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù);不同分類的最小熱度值;不同分類的熱度增長倍數(shù)閾值;以及,不同分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值。以上參數(shù)均為預(yù)設(shè)參數(shù),設(shè)置參數(shù)的目的是按照參數(shù)化配置對(duì)每個(gè)分類的新聞數(shù)據(jù)進(jìn)行區(qū)別化的挖掘,其中區(qū)別化體現(xiàn)在以下幾個(gè)方面:
[0040](1)按照不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù),挖掘?qū)?yīng)分類下預(yù)設(shè)個(gè)數(shù)的熱點(diǎn)新聞。
[0041]對(duì)于娛樂類和體育類新聞,預(yù)設(shè)個(gè)數(shù)較高,如設(shè)置為100個(gè);對(duì)于科技類和教育類新聞,預(yù)設(shè)個(gè)數(shù)較低,如設(shè)置為30個(gè)。其中,個(gè)數(shù)的設(shè)置還與時(shí)間粒度有關(guān),15分鐘調(diào)度的挖掘程序挖掘的個(gè)數(shù)要低于1小時(shí)調(diào)度的挖掘程序挖掘的個(gè)數(shù),而且都要低于1天調(diào)度的挖掘程序挖掘的個(gè)數(shù)。
[0042](2)計(jì)算每個(gè)分類下各新聞的熱度值,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱度值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度值為該新聞的所有關(guān)聯(lián)URL的熱度之和。
[0043]在新聞數(shù)據(jù)分類后,計(jì)算每個(gè)分類下各新聞的熱度值,具體為該新聞的所有關(guān)聯(lián) URL的熱度之和。例如,新聞“人機(jī)大戰(zhàn)”會(huì)關(guān)聯(lián)很多URL,每個(gè)URL的熱度定義為對(duì)應(yīng)時(shí)段內(nèi)的UV(Unique Visitor,獨(dú)立訪客),計(jì)算所有關(guān)聯(lián)URL的熱度之和即為該新聞的熱度值。然后,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱度值的新聞作為熱點(diǎn)新聞。不同新聞分類對(duì)熱點(diǎn)新聞的要求是不同的,一些分類會(huì)要求熱度高些,另一些要求低些,通過此參數(shù)化配置,更符合推送熱點(diǎn)新聞的需求。
[0044](3)計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),挖掘出熱度增長倍數(shù)大于或等于對(duì)應(yīng)分類的熱度增長倍數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度增長倍數(shù)為最近時(shí)段的熱度值與起始時(shí)段的熱度值相除的結(jié)果。
[0045]不同新聞分類,對(duì)熱度增長倍數(shù)的要求也是不同的。計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),具體為最近時(shí)段的熱度值與起始時(shí)段的熱度值相除的結(jié)果。其中,時(shí)段為時(shí)間粒度規(guī)定的時(shí)間間隔段。以1小時(shí)的時(shí)間粒度為例,熱度增長倍數(shù)為最近1小時(shí)的熱度值與起始時(shí)段的熱度值相除的結(jié)果,其中起始時(shí)段為該新聞被挖掘出作為熱點(diǎn)新聞的開始時(shí)段計(jì)算的熱度值。如果該新聞是剛被挖掘出的數(shù)據(jù),則默認(rèn)熱度增長倍數(shù)為1。
[0046](4)獲取每個(gè)分類下各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),挖掘出熱度連續(xù)增長時(shí)段個(gè)數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞。
[0047]統(tǒng)計(jì)各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),如連續(xù)k個(gè)時(shí)段熱度保持增長,則熱度連續(xù)增長時(shí)段個(gè)數(shù)為k。然后,挖掘出熱度連續(xù)增長時(shí)段個(gè)數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞。[〇〇48]步驟S205,將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。
[0049]本實(shí)施例提供的熱點(diǎn)新聞的挖掘方案是基于多時(shí)間粒度、多分類和參數(shù)化配置的方案,通過設(shè)置多種時(shí)間粒度保證熱點(diǎn)新聞的時(shí)效性,還能一定程度擴(kuò)大熱點(diǎn)新聞的覆蓋范圍。通過多分類以及參數(shù)化配置,能避免熱度低的新聞被淹沒,實(shí)現(xiàn)均衡化推送;而且根據(jù)參數(shù)化配置對(duì)每個(gè)分類的新聞數(shù)據(jù)進(jìn)行區(qū)別化挖掘,更能符合熱點(diǎn)新聞的要求,進(jìn)而滿足用戶需求。
[0050]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的熱點(diǎn)新聞的挖掘裝置的功能框圖。如圖3所示,該裝置包括:收集模塊301,挖掘模塊302,以及推送模塊303。[〇〇51]收集模塊301,適于收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);新聞?wù)军c(diǎn)是專門提供新聞信息的網(wǎng)站,可以包括國家大型新聞門戶(如新華網(wǎng)、人民網(wǎng)等)、商業(yè)門戶 (新浪新聞、網(wǎng)易新聞等)、地方新聞門戶(長江網(wǎng)、大洋網(wǎng)等)、以及行業(yè)門戶網(wǎng)站;還可以包括一些社交平臺(tái)(新浪微博等)。這些新聞?wù)军c(diǎn)的用戶訪問量很大,通過收集這些新聞?wù)军c(diǎn)的用戶訪問行為日志,可以獲取用戶感興趣的、熱度極高的新聞數(shù)據(jù)。
[0052]挖掘模塊302,適于按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);
[0053]推送模塊303,適于將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。
[0054]進(jìn)一步的,該裝置還包括:維護(hù)模塊304,適于預(yù)先維護(hù)新聞?wù)军c(diǎn)列表。收集模塊301進(jìn)一步適于:定時(shí)收集用戶訪問所述新聞?wù)军c(diǎn)列表中各個(gè)新聞?wù)军c(diǎn)的日志,得到用戶訪問行為日志;從用戶訪問行文日志中挖掘與新聞相關(guān)的數(shù)據(jù)。維護(hù)模塊304維護(hù)有新聞?wù)军c(diǎn)列表,其中記錄了幾千個(gè)訪問量較高的新聞?wù)军c(diǎn),包括但不限于:國家大型新聞門戶、商業(yè)門戶、地方新聞門戶、行業(yè)門戶網(wǎng)站以及社交平臺(tái)。收集模塊301定時(shí)收集新聞?wù)军c(diǎn)列表中各個(gè)新聞?wù)军c(diǎn)的訪問日志,得到用戶訪問行為日志。其中用戶訪問行為日志記錄了用戶訪問的頁面、頁面URL、訪問時(shí)間等信息,根據(jù)用戶訪問行為日志可了解用戶感興趣的、熱度高的新聞數(shù)據(jù)。收集模塊301從用戶訪問行為日志中挖掘出與新聞相關(guān)的數(shù)據(jù),例如新聞頁面、頁面標(biāo)題、新聞頁面URL以及訪問時(shí)間等等數(shù)據(jù)。
[0055]可選地,本裝置中,所述時(shí)間粒度為多個(gè),所述裝置還包括:與多個(gè)時(shí)間粒度對(duì)應(yīng)的多個(gè)定時(shí)器305。挖掘模塊302進(jìn)一步適于:判斷任一定時(shí)器的定時(shí)時(shí)間是否超過定時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段,若是,則調(diào)度挖掘程序。
[0056]本裝置實(shí)施例按照時(shí)間粒度調(diào)度挖掘程序,時(shí)間粒度規(guī)定了調(diào)度挖掘程序的時(shí)間間隔段。而且,本裝置實(shí)施例設(shè)置有多種時(shí)間粒度,實(shí)現(xiàn)向用戶推送多種時(shí)間范圍內(nèi)的熱點(diǎn)新聞。具體來說,每種時(shí)間粒度對(duì)應(yīng)有一定時(shí)器,挖掘模塊302通過判斷定時(shí)器的定時(shí)時(shí)間否超過定時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段來決定是否調(diào)度挖掘程序。例如,預(yù)先設(shè)置多種時(shí)間粒度,分別為I天、I小時(shí)和15分鐘,即分別對(duì)應(yīng)設(shè)置三個(gè)定時(shí)器,定時(shí)時(shí)間分別為I天、I小時(shí)和15分鐘。如果任一個(gè)定時(shí)器的定時(shí)時(shí)間到達(dá),則認(rèn)為該調(diào)度一次挖掘程序。其中每15分鐘調(diào)度的挖掘程序用來挖掘15分鐘內(nèi)的熱點(diǎn)新聞,每I小時(shí)調(diào)度的挖掘程序用來挖掘I小時(shí)內(nèi)的熱點(diǎn)新聞,每天調(diào)度的挖掘程序用來挖掘I天內(nèi)的熱點(diǎn)新聞。通過較小的時(shí)間粒度,可提升熱點(diǎn)新聞的實(shí)時(shí)性;通過較大的時(shí)間粒度,可擴(kuò)大熱點(diǎn)新聞的覆蓋范圍。
[0057]進(jìn)一步的,挖掘模塊302在對(duì)新聞數(shù)據(jù)進(jìn)行分類后,還需按照不同分類設(shè)置的參數(shù)進(jìn)行挖掘,其中不同分類設(shè)置的參數(shù)包括以下參數(shù)的一項(xiàng)或多項(xiàng):不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù);不同分類的最小熱度值;不同分類的熱度增長倍數(shù)閾值;以及,不同分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值。以上參數(shù)均為預(yù)設(shè)參數(shù),設(shè)置參數(shù)的目的是使得挖掘模塊302按照參數(shù)化配置對(duì)每個(gè)分類的新聞數(shù)據(jù)進(jìn)行區(qū)別化的挖掘,其中區(qū)別化體現(xiàn)在以下幾個(gè)方面:
[0058](I)按照不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù),挖掘?qū)?yīng)分類下預(yù)設(shè)個(gè)數(shù)的熱點(diǎn)新聞。
[0059]對(duì)于娛樂類和體育類新聞,預(yù)設(shè)個(gè)數(shù)較高,如設(shè)置為100個(gè);對(duì)于科技類和教育類新聞,預(yù)設(shè)個(gè)數(shù)較低,如設(shè)置為30個(gè)。其中,個(gè)數(shù)的設(shè)置還與時(shí)間粒度有關(guān),15分鐘調(diào)度的挖掘程序挖掘的個(gè)數(shù)要低于I小時(shí)調(diào)度的挖掘程序挖掘的個(gè)數(shù),而且都要低于I天調(diào)度的挖掘程序挖掘的個(gè)數(shù)。
[0060](2)計(jì)算每個(gè)分類下各新聞的熱度值,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱度值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度值為該新聞的所有關(guān)聯(lián)URL的熱度之和。
[0061]在新聞數(shù)據(jù)分類后,計(jì)算每個(gè)分類下各新聞的熱度值,具體為該新聞的所有關(guān)聯(lián)URL的熱度之和。例如,新聞“人機(jī)大戰(zhàn)”會(huì)關(guān)聯(lián)很多URL,每個(gè)URL的熱度定義為對(duì)應(yīng)時(shí)段內(nèi)的UV(Unique Visitor,獨(dú)立訪客),計(jì)算所有關(guān)聯(lián)URL的熱度之和即為該新聞的熱度值。然后,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱度值的新聞作為熱點(diǎn)新聞。不同新聞分類對(duì)熱點(diǎn)新聞的要求是不同的,一些分類會(huì)要求熱度高些,另一些要求低些,通過此參數(shù)化配置,更符合推送熱點(diǎn)新聞的需求。
[0062](3)計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),挖掘出熱度增長倍數(shù)大于或等于對(duì)應(yīng)分類的熱度增長倍數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度增長倍數(shù)為最近時(shí)段的熱度值與起始時(shí)段的熱度值相除的結(jié)果。
[0063]不同新聞分類,對(duì)熱度增長倍數(shù)的要求也是不同的。計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),具體為最近時(shí)段的熱度值與起始時(shí)段的熱度值相除的結(jié)果。其中,時(shí)段為時(shí)間粒度規(guī)定的時(shí)間間隔段。以I小時(shí)的時(shí)間粒度為例,熱度增長倍數(shù)為最近I小時(shí)的熱度值與起始時(shí)段的熱度值相除的結(jié)果,其中起始時(shí)段為該新聞被挖掘出作為熱點(diǎn)新聞的開始時(shí)段計(jì)算的熱度值。如果該新聞是剛被挖掘出的數(shù)據(jù),則默認(rèn)熱度增長倍數(shù)為I。
[0064](4)獲取每個(gè)分類下各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),挖掘出熱度連續(xù)增長時(shí)段個(gè)數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞。
[0065]統(tǒng)計(jì)各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),如連續(xù)k個(gè)時(shí)段熱度保持增長,則熱度連續(xù)增長時(shí)段個(gè)數(shù)為k。然后,挖掘出熱度連續(xù)增長時(shí)段個(gè)數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞。
[0066]本實(shí)施例提供的熱點(diǎn)新聞的挖掘裝置是基于多時(shí)間粒度、多分類和參數(shù)化配置的挖掘裝置,通過設(shè)置多種時(shí)間粒度保證熱點(diǎn)新聞的時(shí)效性,還能一定程度擴(kuò)大熱點(diǎn)新聞的覆蓋范圍。通過多分類以及參數(shù)化配置,能避免熱度低的新聞被淹沒,實(shí)現(xiàn)均衡化推送;而且根據(jù)參數(shù)化配置對(duì)每個(gè)分類的新聞數(shù)據(jù)進(jìn)行區(qū)別化挖掘,更能符合熱點(diǎn)新聞的要求,進(jìn)而滿足用戶需求。
[0067]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0068]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0069]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0070]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0071]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0072]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的熱點(diǎn)新聞的挖掘裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0073]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
【主權(quán)項(xiàng)】
1.一種熱點(diǎn)新聞的挖掘方法,包括:收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置的參數(shù),挖掘每 個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。2.根據(jù)權(quán)利要求1所述的方法,在所述收集新聞?wù)军c(diǎn)的用戶訪問行為日志之前,所述方 法還包括:預(yù)先維護(hù)新聞?wù)军c(diǎn)列表;所述收集新聞?wù)军c(diǎn)的用戶訪問行為日志進(jìn)一步包括:定時(shí)收集用戶訪問所述新聞?wù)军c(diǎn) 列表中各個(gè)新聞?wù)军c(diǎn)的日志,得到用戶訪問行為日志;所述獲取新聞數(shù)據(jù)進(jìn)一步包括:從用戶訪問行為日志中挖掘與新聞相關(guān)的數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的方法,所述時(shí)間粒度為多個(gè),每個(gè)時(shí)間粒度對(duì)應(yīng)有一個(gè)定時(shí) 器;所述按照時(shí)間粒度調(diào)度挖掘程序進(jìn)一步包括:判斷任一定時(shí)器的定時(shí)時(shí)間是否超過定 時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段,若是,則調(diào)度挖掘程序。4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,所述不同分類設(shè)置的參數(shù)包括以下參數(shù)的一 項(xiàng)或多項(xiàng):不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù);不同分類的最小熱度值;不同分類的熱度 增長倍數(shù)閾值;以及,不同分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值。5.根據(jù)權(quán)利要求4所述的方法,所述按照不同分類設(shè)置的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新 聞數(shù)據(jù)進(jìn)一步包括:按照不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù),挖掘?qū)?yīng)分類下預(yù)設(shè)個(gè)數(shù)的熱點(diǎn)新聞;和/或,計(jì)算每個(gè)分類下各新聞的熱度值,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱 度值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度值為該新聞的所有關(guān)聯(lián)URL的熱度之和;和/或,計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),挖掘出熱度增長倍數(shù)大于或等于對(duì)應(yīng) 分類的熱度增長倍數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度增長倍數(shù)為最近時(shí)段的 熱度值與起始時(shí)段的熱度值相除的結(jié)果;和/或,獲取每個(gè)分類下各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),挖掘出熱度連續(xù)增長時(shí)段個(gè) 數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,時(shí)段為時(shí)間粒度規(guī)定的時(shí)間間隔段。6.—種熱點(diǎn)新聞的挖掘裝置,包括:收集模塊,適于收集新聞?wù)军c(diǎn)的用戶訪問行為日志,獲取新聞數(shù)據(jù);挖掘模塊,適于按照時(shí)間粒度調(diào)度挖掘程序,將新聞數(shù)據(jù)進(jìn)行分類,按照不同分類設(shè)置 的參數(shù),挖掘每個(gè)分類的熱點(diǎn)新聞數(shù)據(jù);推送模塊,適于將所有分類的熱點(diǎn)新聞數(shù)據(jù)推送給用戶終端。7.根據(jù)權(quán)利要求6所述的裝置,還包括:維護(hù)模塊,適于預(yù)先維護(hù)新聞?wù)军c(diǎn)列表;所述收集模塊進(jìn)一步適于:定時(shí)收集用戶訪問所述新聞?wù)军c(diǎn)列表中各個(gè)新聞?wù)军c(diǎn)的日 志,得到用戶訪問行為日志;從用戶訪問行文日志中挖掘與新聞相關(guān)的數(shù)據(jù)。8.根據(jù)權(quán)利要求6所述的裝置,所述時(shí)間粒度為多個(gè),所述裝置還包括:與多個(gè)時(shí)間粒 度對(duì)應(yīng)的多個(gè)定時(shí)器;所述挖掘模塊進(jìn)一步適于:判斷任一定時(shí)器的定時(shí)時(shí)間是否超過定時(shí)器對(duì)應(yīng)的時(shí)間粒度規(guī)定的時(shí)間間隔段,若是,則調(diào)度挖掘程序。9.根據(jù)權(quán)利要求6-8任一項(xiàng)所述的裝置,所述不同分類設(shè)置的參數(shù)包括以下參數(shù)的一 項(xiàng)或多項(xiàng):不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù);不同分類的最小熱度值;不同分類的熱度 增長倍數(shù)閾值;以及,不同分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值。10.根據(jù)權(quán)利要求9所述的裝置,所述挖掘模塊進(jìn)一步適于:按照不同分類輸出的熱點(diǎn)新聞的預(yù)設(shè)個(gè)數(shù),挖掘?qū)?yīng)分類下預(yù)設(shè)個(gè)數(shù)的熱點(diǎn)新聞;和/或,計(jì)算每個(gè)分類下各新聞的熱度值,挖掘出熱度值大于或等于對(duì)應(yīng)分類的最小熱 度值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度值為該新聞的所有關(guān)聯(lián)URL的熱度之和;和/或,計(jì)算每個(gè)分類下各新聞的熱度增長倍數(shù),挖掘出熱度增長倍數(shù)大于或等于對(duì)應(yīng) 分類的熱度增長倍數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,新聞的熱度增長倍數(shù)為最近時(shí)段的 熱度值與起始時(shí)段的熱度值相除的結(jié)果;和/或,獲取每個(gè)分類下各新聞的熱度連續(xù)增長時(shí)段個(gè)數(shù),挖掘出熱度連續(xù)增長時(shí)段個(gè) 數(shù)大于或等于對(duì)應(yīng)分類的熱度連續(xù)增長時(shí)段個(gè)數(shù)閾值的新聞作為熱點(diǎn)新聞;其中,時(shí)段為時(shí)間粒度規(guī)定的時(shí)間間隔段。
【文檔編號(hào)】G06K9/62GK106021425SQ201610320176
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】彭力揚(yáng), 韓明輝, 王肖磊, 陳勁, 魏自立, 李 浩
【申請(qǐng)人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1