生成文本摘要的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種生成文本摘要的方法及裝置。
【背景技術(shù)】
[0002]新聞報道的第一段或?qū)W術(shù)論文中的摘要通常應(yīng)包含所述新聞報道或?qū)W術(shù)論文的核心知識,而針對長篇文本進行核心知識提取,一直是自然語言處理的重點任務(wù)。該任務(wù)有助于用戶對長篇文本的內(nèi)容進行簡單的了解,還可以幫助用戶確認該長篇文本是否符合其需求,同時節(jié)省了閱讀時間。
[0003]例如,在搜索引擎中,輸入搜索詞“王菲個人資料”,依照目前的摘要自動生成技術(shù)得到的摘要如圖1所示,其中僅包含了搜索詞中的關(guān)鍵字,并沒有給出用戶需求的一些資料,從而使得用戶無法通過該摘要對長篇文本所表達內(nèi)容進行了解。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例的目的在于,提供一種生成文本摘要的方法及裝置,能夠為用戶提供代表核心主題的簡短的文本摘要,從而方便用戶對長篇文本所表達內(nèi)容進行了解。
[0005]為實現(xiàn)上述發(fā)明目的,本發(fā)明的實施例提供了一種生成文本摘要的方法,包括:獲取內(nèi)容文本;對所述內(nèi)容文本進行分句以及詞法句法分析,獲取多個句子的句法結(jié)構(gòu);從所述句法結(jié)構(gòu)中提取知識點,并將所述知識點進行合并得到知識網(wǎng)絡(luò);根據(jù)所述知識網(wǎng)絡(luò)生成文本摘要。
[0006]本發(fā)明的實施例還提供了一種生成文本摘要的裝置,包括:內(nèi)容文本獲取模塊,用于獲取內(nèi)容文本;句法結(jié)構(gòu)獲取模塊,用于對所述內(nèi)容文本進行分句以及詞法句法分析,獲取多個句子的句法結(jié)構(gòu);知識網(wǎng)絡(luò)生成模塊,用于從所述句法結(jié)構(gòu)中提取知識點,并將所述知識點進行合并得到知識網(wǎng)絡(luò);文本摘要生成模塊,用于根據(jù)所述知識網(wǎng)絡(luò)生成文本摘要。
[0007]本發(fā)明實施例提供的生成文本摘要的方法及裝置,通過對獲取的內(nèi)容文本進行分句以及詞法句法分析得到多個句子的句法結(jié)構(gòu),從該句法結(jié)構(gòu)中提取知識點,并將知識點進行合并得到知識網(wǎng)絡(luò),再根據(jù)知識網(wǎng)絡(luò)最終生成文本摘要,生成的文本摘要可提供代表核心主題的簡要介紹,從而使得用戶可通過簡短的文本摘要對長篇文本所表達內(nèi)容進行了解。
【附圖說明】
[0008]圖1是示出現(xiàn)有技術(shù)摘要生成技術(shù)生成的摘要的示意圖;
[0009]圖2是示出本發(fā)明實施例一的生成文本摘要的方法的流程圖;
[0010]圖3是示出本發(fā)明實施例一的句子“冰雨是劉德華演唱的歌曲”為例的句法結(jié)構(gòu)示意圖;
[0011]圖4是示出本發(fā)明實施例一的句子“冰雨是劉德華演唱的歌曲”為例的知識網(wǎng)絡(luò)示意圖;
[0012]圖5是示出本發(fā)明實施例一的百度詞條“王菲”中“個人生活”為例的知識網(wǎng)絡(luò)示意圖;
[0013]圖6是示出本發(fā)明實施例一的百度詞條“王菲”中“個人生活”為例生成的文本摘要示意圖;
[0014]圖7是示出本發(fā)明實施例二的生成文本摘要的裝置的邏輯框圖。
【具體實施方式】
[0015]本發(fā)明的基本構(gòu)思是,通過對獲取的內(nèi)容文本進行分句以及詞法句法分析得到多個句子的句法結(jié)構(gòu),從該句法結(jié)構(gòu)中提取知識點,并將知識點進行合并得到知識網(wǎng)絡(luò),再根據(jù)知識網(wǎng)絡(luò)生成文本摘要,從而方便用戶對長篇文本所表達內(nèi)容進行了解。
[0016]下面結(jié)合附圖對本發(fā)明實施例一種生成文本摘要的方法及裝置進行詳細描述。
[0017]實施例一
[0018]圖2為本發(fā)明實施例一的生成文本摘要的方法的流程圖??稍诶缢阉饕娣?wù)器上執(zhí)行所述方法。所述生成文本摘要的方法包括如下步驟:
[0019]步驟101:獲取內(nèi)容文本。例如,內(nèi)容文本可以是用戶根據(jù)搜索詞獲取的任一搜索結(jié)果條目的內(nèi)容文本。
[0020]步驟102:對所述內(nèi)容文本進行分句以及詞法句法分析,獲取多個句子的句法結(jié)構(gòu)。
[0021]如前所述,根據(jù)本發(fā)明的示例性實施例,可以對內(nèi)容文本進行語料處理得到處理后的多個句子,然后對每個句子進行詞法句法分析得到句法結(jié)構(gòu)。具體的,可以按照代表句子結(jié)束的標點符號,例如“ ! ”、“?!?、“?”,對內(nèi)容文本進行分句得到多個句子,并依據(jù)語序?qū)Χ鄠€句子進行過濾得到過濾后的多個句子,過濾步驟的目的是去除雜亂無章的句子,再對過濾后的多個句子分別進行指代消解得到語料處理后的多個句子。
[0022]優(yōu)選地,針對每個句子,可以進行如下詞法句法分析處理:對所述句子進行分詞得到多個分詞;從所述多個分詞中識別出實體詞;對所述多個分詞進行詞性標注,并根據(jù)標注的詞性對所述實體詞和多個分詞進行依存分析得到句法結(jié)構(gòu)。例如,如圖3所示,其示出了句子“冰雨是劉德華演唱的歌曲”進行詞法句法分析后獲得的句法結(jié)構(gòu)。
[0023]步驟103:從所述句法結(jié)構(gòu)中提取知識點,并將所述知識點進行合并得到知識網(wǎng)絡(luò)。
[0024]在步驟102獲取多個句子的句法結(jié)構(gòu)之后,根據(jù)本發(fā)明的示例性實施例,可以從句法結(jié)構(gòu)中提取多個子樹,從子樹提取多個知識點,再對提取的知識點進行合并,最終生成知識網(wǎng)絡(luò)。
[0025]優(yōu)選地,從子樹提取多個知識點的處理,可以包括:識別每個子樹的語序,如果所述子樹的語序為正常語句,則直接從所述子樹提取知識點,如果所述子樹的語序為非正常語句,則將所述子樹的語序由非正常語句轉(zhuǎn)換成正常語句,并從轉(zhuǎn)換語序后的子樹中提取知識點,這里,需要說明的是,非正常語句為非主謂賓語序的語句,所述非主謂賓語序的語句可包括,但不限于,被字句、動詞修飾名詞的逆序結(jié)構(gòu)等。
[0026]圖4是示出本發(fā)明實施例一的句子“冰雨是劉德華演唱的歌曲”為例的知識網(wǎng)絡(luò)示意圖,以下結(jié)合圖4及具體的處理示例,對步驟203進行進一步詳細說明。
[0027]首先,進行子樹提取,子樹I的根節(jié)點為“是”,對應(yīng)的子節(jié)點為“冰雨”、“歌曲”,子樹2的根節(jié)點為“歌曲”,對應(yīng)的子節(jié)點為“演唱”;其次,識別每個子樹的語序,識別子樹I為正常語句,子樹2為動詞修飾名詞的逆序結(jié)構(gòu),因子樹I是正常語句,可直接從子樹I提取知識點,因子樹2為非正常語句,即動詞修飾名詞的逆序結(jié)構(gòu),則需轉(zhuǎn)成正常語句,再從轉(zhuǎn)換語序后的子樹2中提取知識點,具體的,可將根節(jié)點改為“演唱”,“歌曲”作為其子節(jié)點,此處完成了子樹提取多個知識點的步驟,最后對提取的知識點進行合并,最終生成知識網(wǎng)絡(luò),可以通過子樹I得知“冰雨”等價于歌曲(關(guān)系詞為“是”,表示等價),則將子樹2中的“歌曲”替換成“冰雨”,進行兩個子樹的合并,最終得到“劉德華演唱冰雨”。
[0028]優(yōu)選地,所述句法結(jié)構(gòu)中提取知識點,并將所述知識點進行合并得到知識網(wǎng)絡(luò)的處理,還可以包括:根據(jù)知識點所來源的網(wǎng)站質(zhì)量和網(wǎng)站數(shù)量對合并后的知識點進行校驗。具體的,通過知識點來源的網(wǎng)站質(zhì)量,例如新聞網(wǎng)站的質(zhì)量就高于貼吧等論壇網(wǎng)站的質(zhì)量,以及網(wǎng)站的數(shù)量等確定知識點的可信性。
[0029]步驟104:根據(jù)所述知識網(wǎng)絡(luò)生成文本摘要。根據(jù)本發(fā)明的示例性實施例,獲取所述內(nèi)容文本的標題,過濾所述知識網(wǎng)絡(luò)中與所述標題不相關(guān)的知識點,按照預(yù)定規(guī)則對過濾后的知識網(wǎng)絡(luò)中的知識點進行摘要組織,生成文本摘要。
[0030]具體的,為了獲得簡短并包含核心主題的摘要,可僅保留與內(nèi)容文本的標題相關(guān)的知識點,過濾掉一些關(guān)于背景描述或無實際知識的信息等知識點,然后按照預(yù)定規(guī)則對過濾后的知識網(wǎng)絡(luò)中的知識點進行摘要組織,其中,預(yù)定規(guī)則可以是按照知識網(wǎng)絡(luò)中的知識點所在句子的順序進行組織,或是按照知識點的類型進行組織。
[0031]以百科詞條“王菲”中“個人生活”的前三大段內(nèi)容為例,內(nèi)容文本具體如下:1969
年王菲生于北京,曾用名王靖雯,王菲的爸爸是煤炭工程師,他的工作崗位在煤礦。媽媽是煤礦文工團的女高音,往往是一個演出剛剛結(jié)束,行李放在家里尚沒有打開,新的演出任務(wù)又來了,不得不又匆匆登車而去。王菲雖然出身知識分子家庭,但是童年卻并不快樂。1996年7月,王菲和竇唯結(jié)婚。1997年I月,王菲在北京協(xié)和醫(yī)院產(chǎn)下竇靖童。1999年,王菲和竇唯婚變。1999年8月,竇唯與王菲正式離婚。2000年6月,梁朝偉在銅鑼灣的StoneGrill酒吧搞派對,慶祝憑《花樣年華》獲戛納影帝,謝霆鋒、王菲同時出席。兩人戀情公開。2002年3月28日謝霆鋒接受電臺訪問時,暗示他已與王菲分手。2002年7月,張柏芝與謝霆鋒分手。2003年6月與王菲與謝霆鋒復合。9月王菲、謝霆鋒買戒指;11月兩人又分手了。
[0032]圖5是示出本發(fā)明實施例一的百度詞條“王菲”中“個人生活”為例的知識網(wǎng)絡(luò)示意圖,如圖5所示,該知識網(wǎng)絡(luò)圖主要是針對實體“王菲”進行展開的,其中也含有其他相關(guān)人物的事件活動,如“謝霆鋒與張柏芝”、“梁朝偉搞派對”等事件。其中橢圓框中標記的是實體,曾用名、爸爸、媽媽這三個方表示靜態(tài)屬性,生于、產(chǎn)下、結(jié)婚、離婚、獲、搞、戀情公開、分手、復合以及買戒指表示動態(tài)事件,剩余的方框表示關(guān)系發(fā)生的條件等元素信息(例如如王菲與竇唯結(jié)婚事件中,“1996年7月”表示結(jié)婚這一事件發(fā)生的時間條件)。將上述知識網(wǎng)絡(luò)中的知識點的類型進行組織,具體的,將知識點分成靜態(tài)知識和動態(tài)知識,靜態(tài)知識表示實體的某些屬性(如人物的出生年月、父母、子女、作品等),動態(tài)知識表示發(fā)生在實體上的事件(如結(jié)婚、離婚、畢業(yè)、工作等信息);對于動態(tài)知識,可按照事件發(fā)生的時間進行排序(若無時間表示,則按照其在文本中出現(xiàn)的句子進行排序),如圖6所示,最終生成文本摘要。
[0033]通過該生成文本摘要的方法,可以對獲取的內(nèi)容文本進行分句以及詞法句法分析得到多個句子的句法結(jié)構(gòu),從該句法結(jié)構(gòu)中提取知識點,并將知識點進行合并得到知識網(wǎng)絡(luò),再根據(jù)知識網(wǎng)絡(luò)生成文本摘要,該方法能夠為用戶提供代表核心主題的簡短的文本摘要,從而方便用戶對長篇文本所表達內(nèi)容進行了解。
[0034]實施例二
[0035]圖7是本發(fā)