本發(fā)明涉及計(jì)算機(jī),尤其涉及一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)數(shù)據(jù)量的迅速膨脹,電子文本也隨之爆發(fā)式增長(zhǎng)。在海量文本中,通過文本模糊搜索的方式快速檢索相應(yīng)信息,已經(jīng)成為了甄選重要信息的發(fā)展方向。
2、現(xiàn)有技術(shù)中,在確定文本匹配信息時(shí),通常是基于文本之間的編輯距離,確定文本之間的相似度;或者是基于神經(jīng)網(wǎng)絡(luò)模型和機(jī)器學(xué)習(xí)方法,確定文本之間的相似度。
3、但是,基于編輯距離的文本相似度確定方法,僅是對(duì)文本中的字符串進(jìn)行單純匹配,無法表征文本中隱含的語法特性;基于神經(jīng)網(wǎng)絡(luò)模型和機(jī)器學(xué)習(xí)的方法,在對(duì)模型訓(xùn)練之前,需要預(yù)先提取各訓(xùn)練文本之間的隱含關(guān)系,導(dǎo)致文本相似度確定方法復(fù)雜度較高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),可以降低文本相似度確定方法的復(fù)雜度,提高文本相似度確定結(jié)果的準(zhǔn)確性。
2、根據(jù)本發(fā)明的一方面,提供了一種文本相似度確定方法,包括:
3、獲取多個(gè)待處理的文本,對(duì)各所述文本進(jìn)行分詞處理,得到各所述文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果;
4、確定各所述分詞結(jié)果對(duì)應(yīng)的計(jì)算自然語言學(xué)習(xí)conll格式數(shù)據(jù),并根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹;
5、其中,所述conll格式數(shù)據(jù)中包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的語法關(guān)系;所述語法關(guān)系中包括詞性關(guān)聯(lián)關(guān)系,以及詞義關(guān)聯(lián)關(guān)系;
6、根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,并根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。
7、可選的,所述分詞結(jié)果中包括詞語,以及所述詞語對(duì)應(yīng)的詞性;
8、確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),包括:
9、按照各所述詞語在文本中的排列順序,將各所述分詞結(jié)果依次輸入至漢語言處理hanlp工具;
10、通過所述hanlp工具,確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù)。
11、可選的,所述conll格式數(shù)據(jù)中還包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的索引關(guān)系;
12、根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹,包括:
13、根據(jù)各所述conll格式數(shù)據(jù)中,分詞結(jié)果之間的索引關(guān)系以及語法關(guān)系,構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹。
14、可選的,根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,包括:
15、獲取所述多個(gè)文本對(duì)應(yīng)的全部分詞結(jié)果,對(duì)所述全部分詞結(jié)果進(jìn)行去重處理,得到多個(gè)目標(biāo)分詞結(jié)果;
16、根據(jù)所述多個(gè)目標(biāo)分詞結(jié)果,生成與各所述文本分別匹配的目標(biāo)方陣;
17、根據(jù)各所述依存語法樹中分詞結(jié)果之間的語法關(guān)系,對(duì)各所述目標(biāo)方陣進(jìn)行賦值,得到與各所述文本分別匹配的依存矩陣。
18、可選的,在對(duì)各所述文本進(jìn)行分詞處理之前,還包括:
19、確定各所述文本之間的編輯距離,并根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度;
20、根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:
21、根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。
22、可選的,根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:
23、確定各所述依存矩陣之間的余弦相似度;
24、將所述編輯距離相似度與所述余弦相似度,按照預(yù)設(shè)權(quán)重比例進(jìn)行加權(quán)求和,得到多個(gè)文本之間的目標(biāo)相似度。
25、可選的,根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度,包括:
26、根據(jù)所述編輯距離,以及各所述文本對(duì)應(yīng)的文本長(zhǎng)度,確定多個(gè)文本之間的編輯距離相似度。
27、根據(jù)本發(fā)明的另一方面,提供了一種文本相似度確定裝置,所述裝置包括:
28、分詞模塊,用于獲取多個(gè)待處理的文本,對(duì)各所述文本進(jìn)行分詞處理,得到各所述文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果;
29、語法樹構(gòu)建模塊,用于確定各所述分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),并根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹;
30、其中,所述conll格式數(shù)據(jù)中包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的語法關(guān)系;所述語法關(guān)系中包括詞性關(guān)聯(lián)關(guān)系,以及詞義關(guān)聯(lián)關(guān)系;
31、相似度確定模塊,用于根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,并根據(jù)各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度。
32、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
33、至少一個(gè)處理器;以及
34、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
35、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的文本相似度確定方法。
36、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的文本相似度確定方法。
37、本發(fā)明實(shí)施例提供的技術(shù)方案,通過獲取多個(gè)待處理的文本,對(duì)各文本進(jìn)行分詞處理,得到各文本分別對(duì)應(yīng)的多個(gè)分詞結(jié)果,確定各分詞結(jié)果對(duì)應(yīng)的conll格式數(shù)據(jù),并根據(jù)各文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各文本分別對(duì)應(yīng)的依存語法樹,根據(jù)各文本分別對(duì)應(yīng)的依存語法樹,生成與各文本分別匹配的依存矩陣,并根據(jù)各依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度的技術(shù)手段,可以降低文本相似度確定方法的復(fù)雜度,提高文本相似度確定結(jié)果的準(zhǔn)確性;可以對(duì)文本中原有的語義表達(dá)順序進(jìn)行保留,為分詞結(jié)果之間的語法關(guān)聯(lián)關(guān)系提供輔助信息;可以降低依存語法樹的構(gòu)建耗時(shí),提高依存語法樹的構(gòu)建效率;可以使依存矩陣蘊(yùn)含豐富的語義表達(dá)以及語法結(jié)構(gòu)信息;通過結(jié)合編輯距離相似度與依存矩陣,可以在字符串層面以及語法方面上評(píng)估文本之間的相似度;可以提高文本之間編輯距離相似度確定結(jié)果的準(zhǔn)確性,降低目標(biāo)相似度確定方法的耗時(shí)。
38、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種文本相似度確定方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分詞結(jié)果中包括詞語,以及所述詞語對(duì)應(yīng)的詞性;
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述conll格式數(shù)據(jù)中還包括對(duì)應(yīng)分詞結(jié)果,與其他分詞結(jié)果之間的索引關(guān)系;根據(jù)各所述文本分別對(duì)應(yīng)的多個(gè)conll格式數(shù)據(jù),構(gòu)建各所述文本分別對(duì)應(yīng)的依存語法樹,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各所述文本分別對(duì)應(yīng)的依存語法樹,生成與各所述文本分別匹配的依存矩陣,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)各所述文本進(jìn)行分詞處理之前,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述編輯距離相似度,以及各所述依存矩陣,確定多個(gè)文本之間的目標(biāo)相似度,包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述編輯距離,確定多個(gè)文本之間的編輯距離相似度,包括:
8.一種文本相似度確定裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的文本相似度確定方法。