一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號：39726098發(fā)布日期：2024-10-22 13:25閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請涉及計算機(jī)應(yīng)用，尤其涉及一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、隨著互聯(lián)網(wǎng)的快速發(fā)展和信息轉(zhuǎn)存技術(shù)的提高，計算機(jī)給人們提供的可讀文本信息也越來越多，因此，對信息快速的提煉并加以濃縮成為人們迫切的需求。

2、現(xiàn)有技術(shù)中，可以基于統(tǒng)計分析和語義理解自動生成文摘，利用潛在狄利克雷分布(latent?dirichlet?allocation，lda)模型先對文檔進(jìn)行處理，生成文檔-主題分布和主題-詞分布，然后推斷句子的主題分布，并計算句子主題和文檔主題之間的距離，最后結(jié)合句子的內(nèi)容特征做加權(quán)處理，以此生成句子的得分，抽取高評分句子組成文本文摘，但在多文檔混合主題應(yīng)用領(lǐng)域，文摘冗余度較高，會導(dǎo)致文摘生成的主題分布與多文檔集的主題分布存在較大差異，使得文摘對多文檔集的覆蓋率較低。

技術(shù)實現(xiàn)思路

1、本申請實施例的目的是提供一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)，用以解決文摘對多文檔集覆蓋率較低的問題。

2、為解決上述技術(shù)問題，本申請實施例是這樣實現(xiàn)的：

3、一方面，本申請實施例提供一種文摘生成方法，包括：獲取包括多個文檔的文檔集，對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理，得到對應(yīng)的包含多個所述語句的語料庫；

4、基于所述語料庫，計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息；

5、將所述關(guān)聯(lián)信息輸入lda模型，輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息；

6、根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息，確定所述文檔和所述語句之間的主題距離；

7、基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征，進(jìn)行聚類處理，得到所述文摘候選句；

8、根據(jù)所述文摘候選語句生成目標(biāo)文摘。

9、另一方面，本申請實施例提供一種文摘生成裝置，包括：獲取模塊，用于獲取包括多個文檔的文檔集，對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理，得到對應(yīng)的包含多個所述語句的語料庫；

10、計算模塊，用于基于所述語料庫，計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息；

11、輸出模塊，用于將將所述關(guān)聯(lián)信息輸入lda模型，輸出所述文檔中主題的分布信息和所述主題中詞語的分布信息；

12、確定模塊，用于根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息，確定所述文檔和所述語句之間的主題距離；

13、提取模塊，用于基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征，進(jìn)行聚類處理，得到所述文摘候選句；

14、生成模塊，用于根據(jù)所述文摘候選語句生成目標(biāo)文摘。

15、再一方面，本申請實施例提供一種電子設(shè)備，包括處理器和與所述處理器電連接的存儲器，所述存儲器存儲有計算機(jī)程序，所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)上述文摘生成方法。

16、再一方面，本申請實施例提供一種計算機(jī)可讀存儲介質(zhì)，用于存儲計算機(jī)程序，所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)上述文摘生成方法。

17、采用本申請實施例的技術(shù)方案，獲取包括多個文檔的文檔集，對文檔集中的每個文檔進(jìn)行預(yù)處理，得到對應(yīng)的包含多個語句的語料庫，基于語料庫，計算文檔集中的每個文檔之間的關(guān)聯(lián)信息，將關(guān)聯(lián)信息輸入lda模型，輸出文檔中主題的分布信息和主題中詞語的分布信息。可見，通過關(guān)聯(lián)信息作為lda模型的先驗信息，能夠使lda模型輸出的結(jié)果更加精確，并且提高對多文檔文摘的覆蓋率。根據(jù)主題中詞語的分布信息、語句中的詞語和文檔中主題的分布信息，確定文檔和語句之間的主題距離，基于主題距離和對語料庫中的語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征，進(jìn)行聚類處理，得到文摘候選句，根據(jù)文摘候選句生成目標(biāo)文摘。其中，通過lda模型并且利用聚類技術(shù)，篩選出符合一般寫作規(guī)律的語句且與文檔主題聯(lián)系密切的語句組成高覆蓋、可讀性強(qiáng)的目標(biāo)文摘，能夠解決文摘對多文檔集覆蓋率較低的問題。

技術(shù)特征：

1.一種文摘生成方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，所述獲取包括多個文檔的文檔集，對所述文檔集中的每個所述文檔進(jìn)行預(yù)處理，得到對應(yīng)的包含多個語句的語料庫，包括：

3.根據(jù)權(quán)利要求1所述的方法，所述基于所述語料庫，計算所述文檔集中的每個所述文檔之間的關(guān)聯(lián)信息；包括：

4.根據(jù)權(quán)利要求1所述的方法，所述將關(guān)聯(lián)信息輸入lda模型，輸出所述文檔中主題的分布信息和所述主題中所述詞語的分布信息，包括：

5.根據(jù)權(quán)利要求1所述的方法，所述根據(jù)所述主題中詞語的分布信息、所述語句中的詞語和所述文檔中主題的分布信息，確定所述文檔和所述語句之間的主題距離，包括：

6.根據(jù)權(quán)利要求5所述的方法，所述基于所述主題距離和對所述語料庫中的所述語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征，進(jìn)行聚類處理，得到所述文摘候選句，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述lda模型是基于訓(xùn)練所述文檔集和所述文檔之間的關(guān)聯(lián)信息得到的，所述文檔之間的關(guān)聯(lián)信息包括：每個所述文檔之間的聯(lián)系，所述訓(xùn)練文檔集包括：所述文檔集中每個所述文檔對應(yīng)的所述主題的分布信息、所述語句的分布信息以及所述詞語的分布信息。

8.一種文摘生成裝置，其特征在于，所述裝置包括：

9.一種電子設(shè)備，其特征在于，包括處理器和與所述處理器電連接的存儲器，所述存儲器存儲有計算機(jī)程序，所述處理器用于從所述存儲器調(diào)用并執(zhí)行所述計算機(jī)程序以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，所述存儲介質(zhì)用于存儲計算機(jī)程序，所述計算機(jī)程序能夠被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-7任一項所述的一種文摘生成方法。

技術(shù)總結(jié)
本申請實施例公開了一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)，屬于移動通信技術(shù)領(lǐng)域，用以解決文摘對多文檔集覆蓋率較低的問題。所述方法包括：獲取包括多個文檔的文檔集，對文檔集中的每個文檔進(jìn)行預(yù)處理，得到對應(yīng)的包含多個語句的語料庫；基于語料庫，計算文檔集中的每個文檔之間的關(guān)聯(lián)信息；將關(guān)聯(lián)信息輸入潛在狄利克雷分布LDA模型，輸出文檔中主題的分布信息和主題中詞語的分布信息；根據(jù)主題中詞語的分布信息、語句中的詞語和文檔中主題的分布信息，確定文檔和語句之間的主題距離；基于主題距離和對語料庫中的語句進(jìn)行內(nèi)容提取所得到的內(nèi)容特征，進(jìn)行聚類處理，得到文摘候選句；根據(jù)文摘候選句生成目標(biāo)文摘。

技術(shù)研發(fā)人員：馬愷琳
受保護(hù)的技術(shù)使用者：中國移動通信集團(tuán)浙江有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬愷琳
技術(shù)所有人：中國移動通信集團(tuán)浙江有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

一種文摘生成方法、裝置、電子設(shè)備及存儲介質(zhì)與流程