本申請涉及計算機(jī)應(yīng)用,尤其涉及一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的快速發(fā)展和信息轉(zhuǎn)存技術(shù)的提高,計算機(jī)給人們提供的可讀文本信息也越來越多,因此,對信息快速的提煉并加以濃縮成為人們迫切的需求。
2、現(xiàn)有技術(shù)中,可以基于統(tǒng)計分析和語義理解自動生成文摘,利用潛在狄利克雷分布(latent?dirichlet?allocation,lda)模型先對文檔進(jìn)行處理,生成文檔-主題分布和主題-詞分布,然后推斷句子的主題分布,并計算句子主題和文檔主題之間的距離,最后結(jié)合句子的內(nèi)容特征做加權(quán)處理,以此生成句子的得分,抽取高評分句子組成文本文摘,但在多文檔混合主題應(yīng)用領(lǐng)域,文摘冗余度較高,會導(dǎo)致文摘生成的主題分布與多文檔集的主題分布存在較大差異,使得文摘對多文檔集的覆蓋率較低。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的是提供一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì),用以解決文摘對多文檔集覆蓋率較低的問題。
2、為解決上述技術(shù)問題,本申請實施例是這樣實現(xiàn)的:
3、一方面,本申請實施例提供一種文摘生成方法,包括:獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個所述語句的語料庫;
4、基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;
5、將所述關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息;
6、根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離;
7、基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句;
8、根據(jù)所述文摘候選語句生成目標(biāo)文摘。
9、另一方面,本申請實施例提供一種文摘生成裝置,包括:獲取模塊,用于獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個所述語句的語料庫;
10、計算模塊,用于基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;
11、輸出模塊,用于將將所述關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息;
12、確定模塊,用于根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離;
13、提取模塊,用于基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句;
14、生成模塊,用于根據(jù)所述文摘候選語句生成目標(biāo)文摘。
15、再一方面,本申請實施例提供一種電子設(shè)備,包括處理器和與所述處理器電連接的存儲器,所述存儲器存儲有計算機(jī)程序,所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)上述文摘生成方法。
16、再一方面,本申請實施例提供一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)程序,所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)上述文摘生成方法。
17、采用本申請實施例的技術(shù)方案,獲取包括多個文檔的文檔集,對文檔集中的每個文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個語句的語料庫,基于語料庫,計算文檔集中的每個文檔之間的關(guān)聯(lián)信息,將關(guān)聯(lián)信息輸入lda模型,輸出文檔中主題的分布信息和主題中詞語的分布信息。可見,通過關(guān)聯(lián)信息作為lda模型的先驗信息,能夠使lda模型輸出的結(jié)果更加精確,并且提高對多文檔文摘的覆蓋率。根據(jù)主題中詞語的分布信息、語句中的詞語和文檔中主題的分布信息,確定文檔和語句之間的主題距離,基于主題距離和對語料庫中的語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到文摘候選句,根據(jù)文摘候選句生成目標(biāo)文摘。其中,通過lda模型并且利用聚類技術(shù),篩選出符合一般寫作規(guī)律的語句且與文檔主題聯(lián)系密切的語句組成高覆蓋、可讀性強(qiáng)的目標(biāo)文摘,能夠解決文摘對多文檔集覆蓋率較低的問題。
1.一種文摘生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,所述獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個語句的語料庫,包括:
3.根據(jù)權(quán)利要求1所述的方法,所述基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;包括:
4.根據(jù)權(quán)利要求1所述的方法,所述將關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中所述詞語的分布信息,包括:
5.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離,包括:
6.根據(jù)權(quán)利要求5所述的方法,所述基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述lda模型是基于訓(xùn)練所述文檔集和所述文檔之間的關(guān)聯(lián)信息得到的,所述文檔之間的關(guān)聯(lián)信息包括:每個所述文檔之間的聯(lián)系,所述訓(xùn)練文檔集包括:所述文檔集中每個所述文檔對應(yīng)的所述主題的分布信息、所述語句的分布信息以及所述詞語的分布信息。
8.一種文摘生成裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器電連接的存儲器,所述存儲器存儲有計算機(jī)程序,所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)用于存儲計算機(jī)程序,所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。