日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39708527發(fā)布日期:2024-10-22 12:53閱讀:2來源:國知局
一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及計(jì)算機(jī),尤其涉及一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著互聯(lián)網(wǎng)數(shù)據(jù)量的迅速膨脹,電子文本也隨之爆發(fā)式增長(zhǎng)。在海量文本中,通過文本模糊搜索的方式快速檢索相應(yīng)信息,已經(jīng)成為了甄選重要信息的發(fā)展方向。

2、現(xiàn)有技術(shù)中,在確定文本匹配信息時(shí),通常是基于文本之間的編輯距離,確定文本之間的相似度;或者是基于神經(jīng)網(wǎng)絡(luò)模型和機(jī)器學(xué)習(xí)方法,確定文本之間的相似度。

3、但是,基于編輯距離的文本相似度確定方法,僅是對(duì)文本中的字符串進(jìn)行單純匹配,無法表征文本中隱含的語法特性;基于神經(jīng)網(wǎng)絡(luò)模型和機(jī)器學(xué)習(xí)的方法,在對(duì)模型訓(xùn)練之前,需要預(yù)先提取各訓(xùn)練文本之間的隱含關(guān)系,導(dǎo)致文本相似度確定方法復(fù)雜度較高。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),可以降低文本相似度確定方法的復(fù)雜度,提高文本相似度確定結(jié)果的準(zhǔn)確性。

2、根據(jù)本發(fā)明的一方面,提供了一種文本相似度確定方法,包括:

3、獲取多個(gè)待處理的文本,對(duì)各所述文本進(jìn)行分詞處理,得到各所述文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果;

4、確定各所述分詞結(jié)果對(duì)應(yīng)的計(jì)算自然語言學(xué)習(xí)conll格式數(shù)據(jù),并根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹;

5、其中,所述conll格式數(shù)據(jù)中包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的語法關(guān)系;所述語法關(guān)系中包括詞性關(guān)聯(lián)關(guān)系,以及詞義關(guān)聯(lián)關(guān)系;

6、根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,并根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。

7、可選的,所述分詞結(jié)果中包括詞語,以及所述詞語對(duì)應(yīng)的詞性;

8、確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),包括:

9、按照各所述詞語在文本中的排列順序,將各所述分詞結(jié)果依次輸入至漢語言處理hanlp工具;

10、通過所述hanlp工具,確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù)。

11、可選的,所述conll格式數(shù)據(jù)中還包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的索引關(guān)系;

12、根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹,包括:

13、根據(jù)各所述conll格式數(shù)據(jù)中,分詞結(jié)果之間的索引關(guān)系以及語法關(guān)系,構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹。

14、可選的,根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,包括:

15、獲取所述多個(gè)文本對(duì)應(yīng)的全部分詞結(jié)果,對(duì)所述全部分詞結(jié)果進(jìn)行去重處理,得到多個(gè)目標(biāo)分詞結(jié)果;

16、根據(jù)所述多個(gè)目標(biāo)分詞結(jié)果,生成與各所述文本分別匹配的目標(biāo)方陣;

17、根據(jù)各所述依存語法樹中分詞結(jié)果之間的語法關(guān)系,對(duì)各所述目標(biāo)方陣進(jìn)行賦值,得到與各所述文本分別匹配的依存矩陣。

18、可選的,在對(duì)各所述文本進(jìn)行分詞處理之前,還包括:

19、確定各所述文本之間的編輯距離,并根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度;

20、根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:

21、根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。

22、可選的,根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:

23、確定各所述依存矩陣之間的余弦相似度;

24、將所述編輯距離相似度與所述余弦相似度,按照預(yù)設(shè)權(quán)重比例進(jìn)行加權(quán)求和,得到多個(gè)文本之間的目標(biāo)相似度。

25、可選的,根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度,包括:

26、根據(jù)所述編輯距離,以及各所述文本對(duì)應(yīng)的文本長(zhǎng)度,確定多個(gè)文本之間的編輯距離相似度。

27、根據(jù)本發(fā)明的另一方面,提供了一種文本相似度確定裝置,所述裝置包括:

28、分詞模塊,用于獲取多個(gè)待處理的文本,對(duì)各所述文本進(jìn)行分詞處理,得到各所述文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果;

29、語法樹構(gòu)建模塊,用于確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),并根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹;

30、其中,所述conll格式數(shù)據(jù)中包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的語法關(guān)系;所述語法關(guān)系中包括詞性關(guān)聯(lián)關(guān)系,以及詞義關(guān)聯(lián)關(guān)系;

31、相似度確定模塊,用于根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,并根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。

32、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:

33、至少一個(gè)處理器;以及

34、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,

35、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的文本相似度確定方法。

36、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的文本相似度確定方法。

37、本發(fā)明實(shí)施例提供的技術(shù)方案,通過獲取多個(gè)待處理的文本,對(duì)各文本進(jìn)行分詞處理,得到各文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果,確定各分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),并根據(jù)各文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各文本分別對(duì)應(yīng)的依存語法樹,根據(jù)各文本分別對(duì)應(yīng)的依存語法樹,生成與各文本分別匹配的依存矩陣,并根據(jù)各依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度的技術(shù)手段,可以降低文本相似度確定方法的復(fù)雜度,提高文本相似度確定結(jié)果的準(zhǔn)確性;可以對(duì)文本中原有的語義表達(dá)順序進(jìn)行保留,為分詞結(jié)果之間的語法關(guān)聯(lián)關(guān)系提供輔助信息;可以降低依存語法樹的構(gòu)建耗時(shí),提高依存語法樹的構(gòu)建效率;可以使依存矩陣蘊(yùn)含豐富的語義表達(dá)以及語法結(jié)構(gòu)信息;通過結(jié)合編輯距離相似度與依存矩陣,可以在字符串層面以及語法方面上評(píng)估文本之間的相似度;可以提高文本之間編輯距離相似度確定結(jié)果的準(zhǔn)確性,降低目標(biāo)相似度確定方法的耗時(shí)。

38、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種文本相似度確定方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分詞結(jié)果中包括詞語,以及所述詞語對(duì)應(yīng)的詞性;

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述conll格式數(shù)據(jù)中還包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的索引關(guān)系;根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)各所述文本進(jìn)行分詞處理之前,還包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:

7.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度,包括:

8.一種文本相似度確定裝置,其特征在于,所述裝置包括:

9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的文本相似度確定方法。


技術(shù)總結(jié)
本發(fā)明公開了一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),包括:獲取多個(gè)待處理的文本,對(duì)各文本進(jìn)行分詞處理,得到各文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果;確定各分詞結(jié)果對(duì)應(yīng)的CoNLL格式數(shù)據(jù),并根據(jù)各文本分別對(duì)應(yīng)的多個(gè)CoNLL格式數(shù)據(jù),構(gòu)建各文本分別對(duì)應(yīng)的依存語法樹;根據(jù)各文本分別對(duì)應(yīng)的依存語法樹,生成與各文本分別匹配的依存矩陣,并根據(jù)各依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。本發(fā)明實(shí)施例的技術(shù)方案可以降低文本相似度確定方法的復(fù)雜度,提高文本相似度確定結(jié)果的準(zhǔn)確性。

技術(shù)研發(fā)人員:朱孟帥,李小華,郭慶,謝瑩瑩
受保護(hù)的技術(shù)使用者:青島中科曙光科技服務(wù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1