本技術涉及計算機,特別涉及一種文檔搜索方法和裝置、計算設備、計算機可讀存儲介質及計算機程序產品。
背景技術:
1、隨著信息技術的發(fā)展,傳輸和存儲的文檔變得越來越多,如何從大量的文檔中準確搜索出感興趣的文檔,變得越來越重要。
2、常見的文檔搜索方法會在接收搜索文本后,根據(jù)搜索文本確定關鍵詞,并從大量的文檔中搜索出包含關鍵詞的文檔作為搜索結果。這一文檔搜索方法雖然方便使用,但其搜索實際上依賴于少量的關鍵詞,致使搜索結果往往不甚理想。例如,在上述文檔搜索方法中,只能從較長的搜索文本確定少數(shù)較短的關鍵詞,這將浪費搜索文本中的部分信息。在一些場景中,實際意思區(qū)別較大的兩個搜索文本可能提取出同樣的關鍵詞,致使搜索結果雖然貼合了關鍵詞但仍然偏離了搜索文本,這使得現(xiàn)有的文檔搜索方法難以滿足搜索需求。
技術實現(xiàn)思路
1、鑒于此,本技術提供了一種文檔搜索方法和裝置、計算設備、計算機可讀存儲介質及計算機程序產品,期望緩解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。
2、根據(jù)本技術的一個方面,提供了一種文檔搜索方法,包括:獲取搜索文本、多個候選文檔和實體關系圖,實體關系圖包含多個實體及多個實體之間的關聯(lián),多個實體包含與搜索文本對應的實體;確定搜索文本在實體關系圖中對應的實體和與該實體關聯(lián)的關聯(lián)實體;針對多個候選文檔中的每個候選文檔,執(zhí)行文檔匹配步驟以確定候選文檔是否與搜索文本匹配;以及,將與搜索文本匹配的候選文檔確定為文檔搜索結果。文檔匹配步驟包括:利用語義特征提取網絡從搜索文本和候選文檔提取第一文本特征;利用實體特征提取網絡從實體和關聯(lián)實體提取第一實體特征;基于第一文本特征和第一實體特征確定第一融合特征;利用經訓練的分類器基于第一融合特征確定搜索文本和候選文檔是否匹配。
3、根據(jù)本技術的另一方面,提供了一種文檔搜索裝置,包括獲取模塊、第一確定模塊、文檔匹配模塊和第二確定模塊。獲取模塊被配置成獲取搜索文本、多個候選文檔和實體關系圖,實體關系圖包含多個實體及多個實體之間的關聯(lián),多個實體包含與搜索文本對應的實體。第一確定模塊被配置成確定搜索文本在實體關系圖中對應的實體和與實體關聯(lián)的關聯(lián)實體。文檔匹配模塊被配置成針對多個候選文檔中的每個候選文檔,執(zhí)行文檔匹配步驟以確定候選文檔是否與搜索文本匹配。第二確定模塊被配置成將與搜索文本匹配的候選文檔確定為文檔搜索結果。文檔匹配步驟包括:利用語義特征提取網絡從搜索文本和候選文檔提取第一文本特征;利用實體特征提取網絡從實體和關聯(lián)實體提取第一實體特征;基于第一文本特征和第一實體特征確定第一融合特征;利用經訓練的分類器基于第一融合特征確定搜索文本和候選文檔是否匹配。
4、在根據(jù)本技術的一些實施例的文檔搜索裝置中,確定搜索文本在實體關系圖中對應的實體和與實體關聯(lián)的關聯(lián)實體包括:從搜索文本提取實體名稱和實體描述;遍歷實體關系圖中的多個實體,確定實體名稱對應的候選實體;確定候選實體的關聯(lián)實體是否包含實體描述;以及,響應于候選實體的關聯(lián)實體包含實體描述,將候選實體確定為搜索文本對應的實體。
5、在根據(jù)本技術的一些實施例的文檔搜索裝置中,利用語義特征提取網絡從搜索文本和候選文檔提取第一文本特征包括:從候選文檔選取候選文檔關鍵文本;基于搜索文本和候選文檔關鍵文本確定第一復合文本;以及,利用語義特征提取網絡從第一復合文本提取第一文本特征。
6、在根據(jù)本技術的一些實施例的文檔搜索裝置中,候選文檔關鍵文本包括候選文檔的文檔標題;基于搜索文本和候選文檔關鍵文本確定第一復合文本包括:將搜索文本和候選文檔關鍵文本進行文本拼接,將文本拼接的結果確定為第一復合文本。
7、在根據(jù)本技術的一些實施例的文檔搜索裝置中,利用實體特征提取網絡從實體和關聯(lián)實體提取第一實體特征包括:基于實體確定實體的實體信息文本;基于關聯(lián)實體確定關聯(lián)實體的實體信息文本以及關聯(lián)實體與實體的關系;以及,利用實體特征提取網絡從實體的實體信息文本、關聯(lián)實體的實體信息文本以及關聯(lián)實體與實體的關系提取第一實體特征。
8、在根據(jù)本技術的一些實施例的文檔搜索裝置中,基于第一文本特征和第一實體特征確定第一融合特征包括:將第一文本特征和第一實體特征進行向量拼接;以及,將向量拼接的結果確定為第一融合特征。
9、在根據(jù)本技術的一些實施例的文檔搜索裝置中,經訓練的分類器利用訓練集對分類器進行訓練確定,分類器接收第一融合特征,并輸出分類結果,分類結果包括分到各個匹配等級的概率,匹配等級包括相互匹配和相互不匹配。利用經訓練的分類器基于第一融合特征確定搜索文本和候選文檔是否匹配包括:將第一融合特征輸入經訓練的分類器;將經訓練的分類器輸出的相互匹配的概率確定為搜索文本和候選文檔的匹配概率;以及,響應于匹配概率大于或等于第一預定閾值,確定搜索文本和候選文檔匹配。
10、在根據(jù)本技術的一些實施例的文檔搜索裝置中,訓練集包括多個訓練樣本對,訓練樣本對包括第一融合特征和其對應的匹配等級,匹配等級是第一融合特征對應的搜索文本和候選文檔之間的匹配等級。經訓練的分類器利用訓練集對分類器執(zhí)行訓練步驟確定,訓練步驟包括:從訓練集獲取訓練樣本對,將訓練樣本對的第一融合特征輸入分類器以得到實際輸出,將第一融合特征對應的匹配等級確定為分類器的預期輸出,以及調節(jié)分類器,直至實際輸出和預期輸出之間的差距小于第二預定閾值。
11、在根據(jù)本技術的一些實施例的文檔搜索裝置中,經訓練的分類器利用訓練集對分類器進行訓練確定,分類器接收第一融合特征,并輸出分類結果,分類結果包括分到各個匹配等級的概率,匹配等級包括相互高度匹配、相互一般匹配和相互不匹配。利用經訓練的分類器基于第一融合特征確定搜索文本和候選文檔是否匹配包括:將第一融合特征輸入經訓練的分類器;將經訓練的分類器輸出的相互高度匹配的概率、相互一般匹配的概率分別確定為搜索文本和候選文檔的高度匹配概率和一般匹配概率;響應于高度匹配概率大于或等于第三預定閾值,確定搜索文本和候選文檔高度匹配;以及,響應于一般匹配概率大于或等于第四預定閾值,確定搜索文本和候選文檔一般匹配。
12、根據(jù)本技術的另一方面,提供了一種計算設備,包括:存儲器,其被配置成存儲計算機可執(zhí)行指令;以及處理器,其被配置成當計算機可執(zhí)行指令被處理器執(zhí)行時執(zhí)行根據(jù)本技術一些實施例的文檔方法的步驟。
13、根據(jù)本技術的另一方面,提供了一種計算機可讀存儲介質,其存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令在被執(zhí)行時實現(xiàn)根據(jù)本技術一些實施例的文檔搜索的步驟。
14、根據(jù)本技術的另一方面,提供了一種計算機程序產品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本技術一些實施例的文檔搜索方法的步驟。
15、在根據(jù)本技術一些實施例的文檔搜索方法和裝置中,首先獲取搜索文本、多個候選文檔和實體關系圖,并確定搜索文本在實體關系圖中對應的實體和與實體關聯(lián)的關聯(lián)實體。這使得搜索文本的信息可以被充分利用,并基于搜索文本的信息從實體關系圖中挖掘出更多可用信息。然后,針對多個候選文檔中的每個候選文檔,執(zhí)行文檔匹配步驟以確定候選文檔是否與搜索文本匹配。由于在文檔匹配步驟中充分利用了對應的實體的信息,使得搜索文本與候選文檔的匹配結果更加準確。最后,將與搜索文本匹配的候選文檔確定為文檔搜索結果。因此,通過本技術公開的文檔搜索方法和裝置,可用充分利用搜索文本的信息,實現(xiàn)準確的文檔搜索。
16、根據(jù)下文描述的實施例,本技術的這些和其它優(yōu)點將變得清楚,并且參考下文描述的實施例來闡明本技術的這些和其它優(yōu)點。