日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)與流程

文檔序號(hào):39723188發(fā)布日期:2024-10-22 13:18閱讀:2來(lái)源:國(guó)知局
煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)與流程

本公開(kāi)涉及自然語(yǔ)言的計(jì)算機(jī)處理,尤其涉及一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)。


背景技術(shù):

1、相關(guān)技術(shù)中,隨著信息化技術(shù)的迅速發(fā)展,知識(shí)庫(kù)應(yīng)用和管理系統(tǒng)成為了學(xué)術(shù)研究和技術(shù)開(kāi)發(fā)的重要工具。這些系統(tǒng)存儲(chǔ)了大量的研究報(bào)告、技術(shù)文檔和數(shù)據(jù)資料,為科研人員提供了便捷的資源共享和知識(shí)管理平臺(tái)。然而,隨著知識(shí)庫(kù)的傳播和共享,知識(shí)庫(kù)中的文件也面臨著高相似度的問(wèn)題,導(dǎo)致知識(shí)庫(kù)中信息質(zhì)量低,難以保證數(shù)據(jù)的真實(shí)性和原創(chuàng)性。


技術(shù)實(shí)現(xiàn)思路

1、為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)。

2、根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,包括:

3、對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)所述煤礦知識(shí)庫(kù)中待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞;

4、針對(duì)所述多個(gè)分詞中的每個(gè)第一分詞,確定所述第一分詞在所述第一文本中的重要程度值;

5、確定所述第一分詞與所述多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值;

6、針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值;

7、對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,以根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度。

8、在本公開(kāi)一些實(shí)施例中,所述對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:

9、針對(duì)每個(gè)第一分詞,確定所述第一分詞對(duì)應(yīng)的多個(gè)相似度評(píng)估值的平均值;所述多個(gè)相似度評(píng)估值與所述多個(gè)第二分詞一一對(duì)應(yīng);

10、對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值。

11、在本公開(kāi)一些實(shí)施例中,所述對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:

12、通過(guò)以下公式對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述融合評(píng)估值value:

13、

14、其中,x為任意一個(gè)第一分詞,target[x]為包括所述第一文本中全部第一分詞的數(shù)組。

15、在本公開(kāi)一些實(shí)施例中,所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:

16、所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值。

17、在本公開(kāi)一些實(shí)施例中,所述根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度,包括:

18、根據(jù)預(yù)設(shè)的多個(gè)融合評(píng)估閾值區(qū)間,確定所述融合評(píng)估值的所屬融合評(píng)估閾值區(qū)間;

19、確定所述所屬融合評(píng)估閾值區(qū)間對(duì)應(yīng)的預(yù)設(shè)級(jí)別;

20、在所述預(yù)設(shè)級(jí)別滿足預(yù)設(shè)要條件的情況下,確定所述第一文本與所述第二文本相似。

21、在本公開(kāi)一些實(shí)施例中,在所述對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值之前,方法還包括:

22、分別對(duì)每個(gè)第一分詞和所述第一分詞對(duì)應(yīng)的重要程度值以鍵值對(duì)的形式存儲(chǔ)至第一哈希表中;

23、針對(duì)所述至少一個(gè)相似度指標(biāo)值中的每個(gè)相似度指標(biāo)值,將所述相似度指標(biāo)值和所述相似度指標(biāo)值對(duì)應(yīng)的第一分詞以鍵值對(duì)的形式存儲(chǔ)至相應(yīng)的第二哈希表中;所述第二哈希表存儲(chǔ)有相同類型的相似度指標(biāo)值;

24、所述根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:

25、從所述第一哈希表中查找與所述第一分詞對(duì)應(yīng)的所述重要程度值;

26、從至少一個(gè)第二哈希表中的每個(gè)第二哈希表中查找與所述第一分詞對(duì)應(yīng)的相似度指標(biāo)值;

27、根據(jù)所述重要程度值和每個(gè)第二哈希表中與所述第一分詞對(duì)應(yīng)的相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值。

28、根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估裝置,包括:

29、分詞單元,用于對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞;所述第二文本用于與所述第一文本進(jìn)行相似度比對(duì);

30、第一確定單元,用于針對(duì)所述多個(gè)分詞中的每個(gè)第一分詞,確定所述第一分詞在所述第一文本中的重要程度值;

31、第二確定單元,用于確定所述第一分詞與所述多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值;

32、第三確定單元,用于針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值;

33、評(píng)估單元,用于對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,以根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度。

34、根據(jù)本公開(kāi)實(shí)施例的第三方面,一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。

35、根據(jù)本公開(kāi)實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。

36、根據(jù)本公開(kāi)實(shí)施例的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。

37、本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:通過(guò)對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)煤礦知識(shí)庫(kù)中待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞,針對(duì)多個(gè)分詞中的每個(gè)第一分詞,確定第一分詞在第一文本中的重要程度值;確定第一分詞與多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值,針對(duì)多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)第一分詞對(duì)應(yīng)的重要程度值和第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定第一分詞的相似度評(píng)估值,對(duì)多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到第一文本的融合評(píng)估值,從而根據(jù)融合評(píng)估值評(píng)估第一文本與第二文本的相似程度,進(jìn)而能夠?qū)γ旱V知識(shí)庫(kù)中相似度較高的文本進(jìn)行識(shí)別,提高文本的真實(shí)性和原創(chuàng)性。

38、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。



技術(shù)特征:

1.一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:

3.根據(jù)權(quán)利要求2所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:

4.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:

5.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度,包括:

6.根據(jù)權(quán)利要求4所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,在所述對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值之前,方法還包括:

7.一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估裝置,其特征在于,包括:

8.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本公開(kāi)是關(guān)于一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng),涉及自然語(yǔ)言的計(jì)算機(jī)處理技術(shù)領(lǐng)域。其中,方法包括:通過(guò)對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)煤礦知識(shí)庫(kù)中待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞,針對(duì)多個(gè)分詞中的每個(gè)第一分詞,確定第一分詞在第一文本中的重要程度值;確定第一分詞與多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值,針對(duì)多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)第一分詞對(duì)應(yīng)的重要程度值和第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定第一分詞的相似度評(píng)估值。本方案對(duì)煤礦知識(shí)庫(kù)中相似度較高的文本進(jìn)行識(shí)別,提高文本的真實(shí)性和原創(chuàng)性。

技術(shù)研發(fā)人員:呂依濛
受保護(hù)的技術(shù)使用者:中煤科工開(kāi)采研究院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1