日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號:39726098發(fā)布日期:2024-10-22 13:25閱讀:2來源:國知局
一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

本申請涉及計算機(jī)應(yīng)用,尤其涉及一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、隨著互聯(lián)網(wǎng)的快速發(fā)展和信息轉(zhuǎn)存技術(shù)的提高,計算機(jī)給人們提供的可讀文本信息也越來越多,因此,對信息快速的提煉并加以濃縮成為人們迫切的需求。

2、現(xiàn)有技術(shù)中,可以基于統(tǒng)計分析和語義理解自動生成文摘,利用潛在狄利克雷分布(latent?dirichlet?allocation,lda)模型先對文檔進(jìn)行處理,生成文檔-主題分布和主題-詞分布,然后推斷句子的主題分布,并計算句子主題和文檔主題之間的距離,最后結(jié)合句子的內(nèi)容特征做加權(quán)處理,以此生成句子的得分,抽取高評分句子組成文本文摘,但在多文檔混合主題應(yīng)用領(lǐng)域,文摘冗余度較高,會導(dǎo)致文摘生成的主題分布與多文檔集的主題分布存在較大差異,使得文摘對多文檔集的覆蓋率較低。


技術(shù)實現(xiàn)思路

1、本申請實施例的目的是提供一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì),用以解決文摘對多文檔集覆蓋率較低的問題。

2、為解決上述技術(shù)問題,本申請實施例是這樣實現(xiàn)的:

3、一方面,本申請實施例提供一種文摘生成方法,包括:獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個所述語句的語料庫;

4、基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;

5、將所述關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息;

6、根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離;

7、基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句;

8、根據(jù)所述文摘候選語句生成目標(biāo)文摘。

9、另一方面,本申請實施例提供一種文摘生成裝置,包括:獲取模塊,用于獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個所述語句的語料庫;

10、計算模塊,用于基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;

11、輸出模塊,用于將將所述關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息;

12、確定模塊,用于根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離;

13、提取模塊,用于基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句;

14、生成模塊,用于根據(jù)所述文摘候選語句生成目標(biāo)文摘。

15、再一方面,本申請實施例提供一種電子設(shè)備,包括處理器和與所述處理器電連接的存儲器,所述存儲器存儲有計算機(jī)程序,所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)上述文摘生成方法。

16、再一方面,本申請實施例提供一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)程序,所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)上述文摘生成方法。

17、采用本申請實施例的技術(shù)方案,獲取包括多個文檔的文檔集,對文檔集中的每個文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個語句的語料庫,基于語料庫,計算文檔集中的每個文檔之間的關(guān)聯(lián)信息,將關(guān)聯(lián)信息輸入lda模型,輸出文檔中主題的分布信息和主題中詞語的分布信息。可見,通過關(guān)聯(lián)信息作為lda模型的先驗信息,能夠使lda模型輸出的結(jié)果更加精確,并且提高對多文檔文摘的覆蓋率。根據(jù)主題中詞語的分布信息、語句中的詞語和文檔中主題的分布信息,確定文檔和語句之間的主題距離,基于主題距離和對語料庫中的語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到文摘候選句,根據(jù)文摘候選句生成目標(biāo)文摘。其中,通過lda模型并且利用聚類技術(shù),篩選出符合一般寫作規(guī)律的語句且與文檔主題聯(lián)系密切的語句組成高覆蓋、可讀性強(qiáng)的目標(biāo)文摘,能夠解決文摘對多文檔集覆蓋率較低的問題。



技術(shù)特征:

1.一種文摘生成方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,所述獲取包括多個文檔的文檔集,對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個語句的語料庫,包括:

3.根據(jù)權(quán)利要求1所述的方法,所述基于所述語料庫,計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息;包括:

4.根據(jù)權(quán)利要求1所述的方法,所述將關(guān)聯(lián)信息輸入lda模型,輸出所述文檔中主題的分布信息和所述主題中所述詞語的分布信息,包括:

5.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息,確定所述文檔和所述語句之間的主題距離,包括:

6.根據(jù)權(quán)利要求5所述的方法,所述基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到所述文摘候選句,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述lda模型是基于訓(xùn)練所述文檔集和所述文檔之間的關(guān)聯(lián)信息得到的,所述文檔之間的關(guān)聯(lián)信息包括:每個所述文檔之間的聯(lián)系,所述訓(xùn)練文檔集包括:所述文檔集中每個所述文檔對應(yīng)的所述主題的分布信息、所述語句的分布信息以及所述詞語的分布信息。

8.一種文摘生成裝置,其特征在于,所述裝置包括:

9.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器電連接的存儲器,所述存儲器存儲有計算機(jī)程序,所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。

10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)用于存儲計算機(jī)程序,所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。


技術(shù)總結(jié)
本申請實施例公開了一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì),屬于移動通信技術(shù)領(lǐng)域,用以解決文摘對多文檔集覆蓋率較低的問題。所述方法包括:獲取包括多個文檔的文檔集,對文檔集中的每個文檔進(jìn)行預(yù)處理,得到對應(yīng)的包含多個語句的語料庫;基于語料庫,計算文檔集中的每個文檔之間的關(guān)聯(lián)信息;將關(guān)聯(lián)信息輸入潛在狄利克雷分布LDA模型,輸出文檔中主題的分布信息和主題中詞語的分布信息;根據(jù)主題中詞語的分布信息、語句中的詞語和文檔中主題的分布信息,確定文檔和語句之間的主題距離;基于主題距離和對語料庫中的語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征,進(jìn)行聚類處理,得到文摘候選句;根據(jù)文摘候選句生成目標(biāo)文摘。

技術(shù)研發(fā)人員:馬愷琳
受保護(hù)的技術(shù)使用者:中國移動通信集團(tuán)浙江有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1