專利名稱::基于元數(shù)據(jù)分析的新聞事件檢測方法
技術(shù)領(lǐng)域:
:基于元數(shù)據(jù)分析的新聞事件檢測方法屬于數(shù)據(jù)挖掘領(lǐng)域
背景技術(shù):
:新聞報(bào)道常常被看作人們最重要的信息來源,新聞信息具有數(shù)量大、增長快、時(shí)效強(qiáng)、關(guān)聯(lián)性高等特性。人們越來越迫切的希望從海量新聞中快速準(zhǔn)確地獲得更多自己感興趣的高層次新聞信息,雖然目前各大門戶網(wǎng)站及主要的搜索引擎公司都提供了在線新聞閱讀服務(wù),Google和百度等網(wǎng)站還支持基本的新聞分類(如國內(nèi),國外,政治,體育等)瀏覽功能,用戶可以通過這些服務(wù)瀏覽當(dāng)日或者過去所發(fā)生的新聞。但是,由于新聞報(bào)道的更新頻繁,及其龐大的數(shù)據(jù)量,使得用戶常常有信息過量的感覺,他們很難快速準(zhǔn)確的檢索到高質(zhì)量的新聞信息。除了簡單的分類瀏覽以外,目前仍然沒有進(jìn)一步輔助用戶閱讀相對粒度更細(xì)的新聞事件的工具。目前,新聞事件檢測技術(shù)通過利用文本聚類等技術(shù)可以將新聞報(bào)道按照相關(guān)事件有機(jī)的進(jìn)行組織,方便用戶瀏覽和選擇使用。新聞事件檢測技術(shù)的應(yīng)用主要體現(xiàn)在以海量文本處理為核心的內(nèi)容管理系統(tǒng)中,利用新聞事件檢測技術(shù)用戶在檢索新聞時(shí)可以更直觀的瀏覽檢索結(jié)果的概貌。對于各大新聞通訊社,事件檢測技術(shù)還可以幫助記者和編輯更為方便的完成新聞報(bào)道的采寫工作。目前己知的新聞事件檢測技術(shù)可以被歸類為兩種形式也就是回溯事件檢測和在線事件檢測(或稱為新事件檢測)。前者是在歷史新聞報(bào)道中發(fā)現(xiàn)尚未被確認(rèn)的事件,后者則是實(shí)時(shí)的從新聞流中識別新事件的開始,即新事件的第一個新聞。這兩種事件檢測方法都不需要有關(guān)(新)事件的任何先驗(yàn)知識,但都需要訪問未經(jīng)標(biāo)注的歷史新聞報(bào)道作為分析之用?,F(xiàn)有的事件檢測技術(shù)檢測事件的精度不高,劃分事件較寬泛,而且事件所包含的新聞在時(shí)間和內(nèi)容上的內(nèi)聚性不強(qiáng),在新聞信息的建模和相似度計(jì)算中仍然沒有較好的利用時(shí)間、地點(diǎn)等元數(shù)據(jù)信息,而描述某個新聞事件的新聞報(bào)道往往與事件所發(fā)生的時(shí)間和地點(diǎn)等信息強(qiáng)烈相關(guān)。基于元數(shù)據(jù)分析的事件檢測方法則試圖借助新聞報(bào)道中提取的時(shí)間、類別信息以及新聞的內(nèi)容和標(biāo)題,利用層次聚類的方式改進(jìn)回溯事件檢測的效果,更準(zhǔn)確的識別出新聞報(bào)道所對應(yīng)的新聞事件。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種基于元數(shù)據(jù)分析的新聞事件檢測方法。本發(fā)明的特征在于采用多維向量空間模型來表示新聞文檔,在特征表示的權(quán)重計(jì)算時(shí)充分考慮的新聞的時(shí)間特性,修改了新聞特征詞的IDF(逆文本頻率指數(shù))計(jì)算方式,在計(jì)算新聞之間相似度時(shí)綜合考慮時(shí)間、類別和新聞的具體內(nèi)容等信息,并且利用關(guān)鍵字抽取對新聞文檔進(jìn)行預(yù)處理,有效地降低了向量的維度。并且在此基礎(chǔ)上,利用層次聚類方法將新聞報(bào)道進(jìn)行聚類,通過對聚類結(jié)果樹的動態(tài)劃分,使得由新聞報(bào)道所構(gòu)成的聚類簇對應(yīng)為相應(yīng)的新聞事件。與現(xiàn)有的新聞事件檢測技術(shù)相比,基于時(shí)間特性相似度計(jì)算的聚類方式可以更加有效的劃分新聞事件。該方法是在計(jì)算機(jī)上依次按下列步驟實(shí)現(xiàn)的(1)預(yù)處理將新聞報(bào)道全部輸入計(jì)算機(jī),首先進(jìn)行預(yù)處理。這里新聞報(bào)道的具體表現(xiàn)形式是XML文檔,目前世界上主要的新聞機(jī)構(gòu)都采用XML文檔來描述新聞稿件。本文中介紹的方法主要是對新聞XML文檔進(jìn)行預(yù)處理,進(jìn)行預(yù)處理的過程包括利用XML解析器將新聞的元數(shù)據(jù)(包括新聞的內(nèi)容和標(biāo)題、時(shí)間和類別信息)從新聞文檔中提取出來,并利用中文分詞程序包(中科院計(jì)算所的ICTCLAS)對新聞的內(nèi)容和標(biāo)題分別進(jìn)行分詞,在計(jì)算詞頻(即詞在文檔中出現(xiàn)的次數(shù))時(shí),標(biāo)題中詞的詞頻給以3-5倍的加權(quán)。預(yù)處理的結(jié)果可表示為如下的集合S:5=脇)},/=1卞|其中S中的任一個元組W")表示集合S中第i個時(shí)間(本文中提到的時(shí)間皆為新聞文檔中提取的時(shí)間信息即文檔的撰寫時(shí)間)為,,.(形如YYYY/MM/DDhh:mm:ss)的文檔。這里《表示第i個新聞文檔,具體為由文檔特征詞構(gòu)成的多維特征向量~1,2,...,^...,^},w,則為每個特征詞的權(quán)重,其值在預(yù)處理中先為詞在文檔中的詞頻,計(jì)算結(jié)束時(shí)為后面利用TF-IDF(單文本詞匯頻率/逆文本頻率指數(shù))公式計(jì)算的結(jié)果。本發(fā)明提出的方法同樣可以應(yīng)用于其他新聞數(shù)據(jù),只要在新聞數(shù)據(jù)預(yù)處理時(shí)根據(jù)不同的新聞標(biāo)準(zhǔn)更換文檔的解析器即可。這一步后我們將使用關(guān)鍵詞抽取的方式降低所選取的特征詞的數(shù)量使其更具代表性,關(guān)鍵詞抽取方式所抽取候選的關(guān)鍵詞是通過評價(jià)函數(shù)來評價(jià)的,分?jǐn)?shù)越高越可能是關(guān)鍵詞,這個評價(jià)函數(shù)是在TF-IDF的基礎(chǔ)上增加若干機(jī)制來設(shè)計(jì),包括有單詞的各種特征(長度、位置、詞頻等)。(2)結(jié)合時(shí)間信息計(jì)算新聞信息的向量模型向量空間模型的基本思想是以向量來表示文本(^^2,...,,,..氣),其中W,為第i個特征項(xiàng)的權(quán)重,其計(jì)算方法采用TF-IDF公式,目前存在多種TF-IDF公式,我們采用了一種比較普遍的TF-IDF公式分別對標(biāo)題和內(nèi)容計(jì)算得到帶有詞元權(quán)重信息的向量空間模型。其中,『(c,S)為詞c在新聞文檔S中的權(quán)重,而仏(c,S)為詞c在新聞文檔^中的詞頻,/"F(c)是特征詞c考慮其倒排文檔頻率的計(jì)算公式,一般來講特征詞的倒排文檔頻率是指出現(xiàn)特征詞的文檔個數(shù),分母為歸一化因子,在本文的方法中除了考慮倒排文檔頻率以外我們還結(jié)合了時(shí)間信息。這里我們需要對新聞文檔按時(shí)間順序進(jìn)行升序排序,得到新聞序列這里我們按照升序排列,即最近發(fā)生的新聞其序號n越大。排序后新聞文檔所對應(yīng)的序號表示其撰寫時(shí)間,對某個特征詞c,其IDF的計(jì)算方式為其中,、.表示特征詞c出現(xiàn)的文檔所對應(yīng)的發(fā)生時(shí)間(即排序后新聞文檔所對應(yīng)的序號),Jc表示在新聞序列中出現(xiàn)特征詞c的文檔的個數(shù),N是所有新聞文檔的個數(shù)。(3)計(jì)算相似度在計(jì)算相似度時(shí),本文提出的方法考慮了多個方面,包括新聞內(nèi)容、新聞時(shí)間和新聞的分類,最后利用加權(quán)求和的方式得到最終的新聞相似度計(jì)算方式。對于新聞內(nèi)容的相似度計(jì)算,我們在關(guān)鍵詞抽取的基礎(chǔ)上采用傳統(tǒng)的向量夾角的方式來計(jì)算/£)F(c)=log:其中,《和《為新聞文檔i和j的特征向量,N為特征向量的維數(shù),『a為新聞文檔i所對應(yīng)的特征向量的第k維,其計(jì)算方式采用前面的步驟。其中,《和《為由文檔特征詞構(gòu)成的多維特征向量^,w2,…,MU和{Wl,w2,,,}對于新聞分類間的相似度計(jì)算,按其在分類樹中的距離進(jìn)行計(jì)算。需要說明的是,這里的新聞分類指的新聞數(shù)據(jù)中的知識屬性分類法對應(yīng)的類別,其類別如表1所示。表1知識屬性分類法<table>tableseeoriginaldocumentpage8</column></row><table>新聞文檔,經(jīng)過預(yù)處理可以得到類別信息是由類別號構(gòu)成的字串,如"1114",其所代表的類別是醫(yī)藥衛(wèi)生領(lǐng)域的突發(fā)事件,即14是11的子類別。在計(jì)算分類的相似度時(shí)我們首先將字串切割為兩位數(shù)字構(gòu)成的序列,^2,…,、e'為類別號,然后,依次從左至右判斷類別號是否相等,若相等則將其相似度加上1/2的s次方,其中s指的是兩個新聞其類別號中從左至右連續(xù)相同的個數(shù),即^...,^1都相等時(shí)^也相等,當(dāng)c,不相等時(shí),s為0,類別間的相似度公式如下所示<formula>formulaseeoriginaldocumentpage9</formula>對于新聞報(bào)道的時(shí)間之間相似度,我們考慮采用指數(shù)衰減的方式來計(jì)算:其中k,-。l是新聞撰寫時(shí)間所相差的天數(shù),^根據(jù)實(shí)驗(yàn)結(jié)果設(shè)為0.15。最后新聞間的相似度可由下面的公式得出<formula>formulaseeoriginaldocumentpage9</formula>其中",A^是由實(shí)驗(yàn)得出的參數(shù),這里我們分別設(shè)為6、3和9,參數(shù)可以依據(jù)不同的數(shù)據(jù)集做略微的調(diào)整,",Ar對應(yīng)的范圍分別為[6,6.5]、[2.7,3.5]禾口[9,9.7]。(4)聚類輸入新聞間相似度構(gòu)成的二維矩陣M[l..N][P-N],N即為所有新聞文檔的個數(shù)輸出聚類簇的集合1.開始時(shí)將每一個新聞文檔i都定義為一個聚類簇(即由新聞文檔聚集而成的集合)《2.令萬=《,.."為聚類簇的集合,其中每個聚類簇《又可以是一顆由聚類簇結(jié)點(diǎn)構(gòu)成的樹狀結(jié)構(gòu),《從內(nèi)容上是所有結(jié)點(diǎn)中聚類簇內(nèi)新聞文檔的集合3.判斷是否5中非空的元素個數(shù)大于1,若是則繼續(xù)執(zhí)行第4到9步,否則退出程序4.在相似度矩陣找到相似度最大(這里設(shè)為M)的一對聚類《和《5.建立一個新的子樹《用以表示聚類簇/,并將聚類簇《和《作為其孩子結(jié)點(diǎn)6.對于所有的m(mW,》,m為新聞文檔的編號,利用以下方式計(jì)算新得,J的聚類,/與其它聚類簇的相似度<formula>formulaseeoriginaldocumentpage9</formula>婦,+問M一],M^,其中合并成聚類簇,的孩子結(jié)點(diǎn)7.從集合萬中刪除聚類簇S和《8.將《賦值給《9.當(dāng)M小于閾值c時(shí),計(jì)算終止,跳出循環(huán)在操作相似度矩陣時(shí)為了避免重復(fù)計(jì)算,我們使用了QuadTree(四叉樹)算法對步驟6進(jìn)行了優(yōu)化,極大地提高了層次聚類的速度。另外通過大量的實(shí)驗(yàn)表明,閾值"設(shè)為0.11可以有效的將結(jié)果控制在10-15類,且對比實(shí)驗(yàn)的結(jié)果最好。實(shí)驗(yàn)證明實(shí)驗(yàn)結(jié)果表明本方法要好于傳統(tǒng)的事件檢測方法。圖l方法流程框圖圖2新聞檢索系統(tǒng)的流程框圖具體實(shí)施例方式見圖l。取若干新聞文檔,步驟如下(1)進(jìn)行預(yù)處理對每篇新聞文檔利用XML解析器(常用的如DOM4j)將新聞內(nèi)容、標(biāo)題、撰寫時(shí)間、作者和類別信息提取出來,利用中文分詞程序包ICTCLAS對新聞的內(nèi)容和標(biāo)題分別進(jìn)行分詞,同時(shí)計(jì)算詞頻,在計(jì)算詞頻時(shí),標(biāo)題中詞的詞頻給以5倍的加權(quán)。將標(biāo)題中的特征詞與新聞內(nèi)容的特征詞合并,并利用關(guān)鍵詞抽取技術(shù)將每篇文檔的特征詞限制在50個以內(nèi)。(2)計(jì)算向量模型根據(jù)新聞的時(shí)間先后順序?qū)π侣勥M(jìn)行升序排列,并標(biāo)以相應(yīng)的序號,按照本文修改過的IDF計(jì)算公式計(jì)算特征詞的IDF。隨后,與(1)中計(jì)算得到的詞頻計(jì)算出,每篇新聞文檔中各特征詞的權(quán)重。(3)計(jì)算相似度在新聞集合中,就新聞的特征詞計(jì)算得到的向量、時(shí)間和類別按照前述的公式計(jì)算兩兩之間的相似度。(4)聚類利用聚類算法將新聞集合中相似度相近的新聞文檔合并在一起,聚類算法中的閾值設(shè)為O.ll,最終得到12類新聞。為了評測我們發(fā)明的基于元數(shù)據(jù)分析的事件檢測方法,我們設(shè)計(jì)了如下的實(shí)驗(yàn)實(shí)驗(yàn)條件P4的PC,2G內(nèi)存,JAVA語言實(shí)現(xiàn)程序?qū)嶒?yàn)數(shù)據(jù)基于新華社的新聞庫中我們選取了2005年4月至2006年1月的27072篇新聞文檔,并利用XML解析器從中抽取元數(shù)據(jù)信息在我們實(shí)現(xiàn)的新聞智能檢索系統(tǒng)上進(jìn)行實(shí)驗(yàn),選取幾組査詢詞的檢索結(jié)果作為實(shí)驗(yàn)數(shù)據(jù),對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行人工標(biāo)注,按新聞事件進(jìn)行分類,將基于元數(shù)據(jù)分析的事件檢測方法與僅使用內(nèi)容和標(biāo)題的特征詞向量進(jìn)行聚類的事件檢測算法在實(shí)驗(yàn)數(shù)據(jù)上得到的結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比較。在實(shí)驗(yàn)過程中,我們使用中科院計(jì)算所的中文分詞程序包ICTCLAS對中文進(jìn)行分詞。實(shí)驗(yàn)結(jié)果我們采用應(yīng)用廣泛的F-measure算法來評價(jià)事件檢測的結(jié)果-在已知文檔分類的前提下,先計(jì)算查全率和查準(zhǔn)率其中,為在聚類簇j中包含事件i的文檔個數(shù),為聚類簇j的文檔個數(shù),e,為事件i的文檔數(shù)目。聚類簇j和事件i的F-measure由下面的公式給出最后,總的F-measure值為<formula>formulaseeoriginaldocumentpage11</formula>表2—組對比實(shí)驗(yàn)結(jié)果<table>tableseeoriginaldocumentpage11</column></row><table>各符號的定義如下e'為事件i的文檔總數(shù);為聚類簇j的文檔總數(shù);max^)為事件i達(dá)到最大F-measure值時(shí)聚類簇j中包含事件i的文檔個數(shù);max(/^',力)為事件i和不同聚類簇j的F-measure值中最大的值;表2是一組對比實(shí)驗(yàn)結(jié)果,從結(jié)果中可以看到,使用關(guān)鍵詞抽取和層次聚類后對于聚類效果起了明顯的增強(qiáng)作用。通過分析結(jié)果中各聚類簇的新聞文檔,可以將這個增強(qiáng)作用總結(jié)成以下幾點(diǎn)(1)關(guān)鍵詞抽取使得描述新聞的向量空間維度更小,特征詞更具代表性,過濾了許多與新聞關(guān)系不密切的詞。(2)充分利用了各個新聞要素進(jìn)行相似度計(jì)算使得結(jié)果更為精確。(3)利用層次聚類方法來控制結(jié)果粒度。本項(xiàng)技術(shù)采用多維向量空間模型來表示新聞文檔,在特征表示的權(quán)重計(jì)算時(shí)充分考慮的新聞的時(shí)間特性,修改了新聞特征詞的IDF計(jì)算方式,在計(jì)算新聞之間相似度時(shí)綜合考慮時(shí)間、類別和新聞的具體內(nèi)容等新聞元數(shù)據(jù)信息。在新聞檢索時(shí)利用該技術(shù)可以改進(jìn)用戶檢索新聞時(shí)的用戶體驗(yàn),使得新聞事件與時(shí)間等元數(shù)據(jù)的關(guān)系更為緊密,便于用戶從海量的新聞報(bào)道中篩選出自己感興趣的新聞事件,從而增強(qiáng)對新聞資源的利用效率。權(quán)利要求1、一種基于元數(shù)據(jù)分析的新聞事件檢測方法,其特征在于,包括步驟(1)預(yù)處理將新聞報(bào)道全部輸入計(jì)算機(jī),進(jìn)行預(yù)處理,預(yù)處理的結(jié)果可表示為如下的集合SS={(di,ti)},i=1...|S|其中S中的任一個元組(di,ti)表示集合S中第i個時(shí)間為ti的文檔;這里di表示第i個新聞文檔,具體為由文檔特征詞構(gòu)成的多維特征向量{w1,w2,...,wi,...,wn},wi則為每個特征詞的權(quán)重,其值在預(yù)處理中先為詞在文檔中的詞頻,計(jì)算結(jié)束時(shí)為步驟(2)中利用TF-IDF單文本詞匯頻率/逆文本頻率指數(shù)公式計(jì)算的結(jié)果;使用關(guān)鍵詞抽取的方式降低所選取的特征詞的數(shù)量使其更具代表性;(2)結(jié)合時(shí)間信息計(jì)算新聞信息的向量模型向量空間模型的基本思想是以向量來表示文本(w1,w2,...,wi,...wn),其中wi為第i個特征項(xiàng)的權(quán)重,其計(jì)算方法采用TF-IDF公式,需要對新聞文檔按時(shí)間順序進(jìn)行升序排序,得到新聞序列(d1,d2,d3,...,dn-1,dn)按照升序排列,即最近發(fā)生的新聞其序號n越大;排序后新聞文檔所對應(yīng)的序號表示其撰寫時(shí)間,對某個特征詞c,其IDF的計(jì)算方式為2、根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)分析的新聞事件檢測方法,其特征在于,所述的步驟(1)中的預(yù)處理為利用解析器將新聞的元數(shù)據(jù)從新聞文檔中提取出來,并利用中文分詞程序包對新聞的內(nèi)容和標(biāo)題分別進(jìn)行分詞,在計(jì)算詞頻時(shí),標(biāo)題中詞的詞頻給以3-5倍的加權(quán)。3、根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)分析的新聞事件檢測方法,其特征在于,所述的步驟(1)中的關(guān)鍵詞抽取方式所抽取候選的關(guān)鍵詞是通過評價(jià)函數(shù)來評價(jià)的,分?jǐn)?shù)越高越可能是關(guān)鍵詞。4、根據(jù)權(quán)利要求1所述的基于元數(shù)據(jù)分析的新聞事件檢測方法,其特征在于,所述的步驟(4)聚類包括以下步驟1).開始時(shí)將每一個新聞文檔i都定義為一個聚類簇《;2).令萬=《,...,《為聚類簇的集合,其中每個聚類簇《又可以是一顆由聚類簇結(jié)點(diǎn)構(gòu)成的樹狀結(jié)構(gòu),《從內(nèi)容上是所有結(jié)點(diǎn)中聚類簇內(nèi)新聞文檔的集合.3).判斷是否5中非空的元素個數(shù)大于1,若是則繼續(xù)執(zhí)行第4)到9)步,否則退出程序;4).在相似度矩陣找到相似度最大,這里設(shè)為M,的一對聚類《和5).建立一個新的子樹《用以表示聚類簇/,并將聚類簇《和《作為其孩子結(jié)點(diǎn);6).對于所有的附U^,j'),m為新聞文檔的編號,利用以下方式計(jì)算新得到的聚類簇/與其它聚類簇的相似度7).從集合萬中刪除聚類簇^和《8).將S賦值給《9).當(dāng)M小于閾值c7時(shí),計(jì)算終止,跳出循環(huán),閾值"設(shè)為0.11。5、根據(jù)權(quán)利要求4所述的基于元數(shù)據(jù)分析的新聞事件檢測方法,其特征在于,使用四叉樹算法對步驟6)進(jìn)行優(yōu)化。全文摘要基于元數(shù)據(jù)分析的新聞事件檢測方法屬于數(shù)據(jù)挖掘領(lǐng)域。本發(fā)明特征在于,它是采用多維向量空間模型來表示新聞文檔,在特征表示的權(quán)重計(jì)算時(shí)充分考慮的新聞的時(shí)間特性,并給出了改進(jìn)的新聞特征詞的IDF(逆文本頻率指數(shù))計(jì)算方式,并且在計(jì)算新聞之間相似度時(shí)綜合考慮時(shí)間、類別和新聞的具體內(nèi)容等信息,利用關(guān)鍵字抽取對新聞文檔進(jìn)行預(yù)處理,有效地降低了向量的維度。在此基礎(chǔ)上,利用層次聚類方法將新聞報(bào)道進(jìn)行聚類,通過對聚類結(jié)果樹的動態(tài)劃分,將由新聞報(bào)道聚類,并對應(yīng)為相應(yīng)的新聞事件。該方法與傳統(tǒng)的事件檢測方法相比F值(一種用來評估聚類品質(zhì)好壞的標(biāo)準(zhǔn))有較大的提高。文檔編號G06F17/30GK101174273SQ20071017868公開日2008年5月7日申請日期2007年12月4日優(yōu)先權(quán)日2007年12月4日發(fā)明者杰唐,誠常,闊張,鵬張,軍李,李涓子,斌許申請人:清華大學(xué)