本技術(shù)涉及多模態(tài)檢索,尤其涉及一種多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置。
背景技術(shù):
1、多模態(tài)數(shù)據(jù)檢索技術(shù)是一種輸入查詢數(shù)據(jù),經(jīng)檢索后可以返回與之相關(guān)的多種模態(tài)的數(shù)據(jù)的技術(shù)。
2、目前的多模態(tài)檢索方法多為基于特征的檢索方法,即,將查詢數(shù)據(jù)處理成查詢特征,在構(gòu)建的多模態(tài)檢索特征庫中找到與查詢特征相似的特征,根據(jù)與查詢特征相似的特征找到對應(yīng)的多模態(tài)數(shù)據(jù),進(jìn)而輸出找到的多模態(tài)數(shù)據(jù)。
3、經(jīng)由上述過程不難發(fā)現(xiàn),多模態(tài)檢索特征庫至關(guān)重要,多模態(tài)檢索特征庫的質(zhì)量直接影響檢索效果,而如何構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫是目前亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)提供了一種多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置,用以構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫,進(jìn)而在檢索時,獲得較高的檢索召回率和檢索準(zhǔn)確度,其技術(shù)方案如下:
2、本技術(shù)第一方面提供一種多模態(tài)檢索特征庫構(gòu)建方法包括:
3、獲取多模態(tài)數(shù)據(jù),其中,所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)相關(guān);
4、對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征,得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集;其中,任一個模態(tài)的數(shù)據(jù)對應(yīng)的特征集包含如下三個層面中的一個層面或多個層面的特征:視覺層面、聽覺層面和內(nèi)容層面;
5、將所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合,得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征;
6、將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合,得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征;
7、將所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。
8、在一種可能的實(shí)現(xiàn)方式中,針對任一個模態(tài)的數(shù)據(jù),若該模態(tài)的數(shù)據(jù)為文本,則對應(yīng)的特征集包括內(nèi)容層面的特征,若該模態(tài)的數(shù)據(jù)為圖像,則對應(yīng)的特征集中包括視覺層面和內(nèi)容層面的特征,若該模態(tài)的數(shù)據(jù)為音頻,則對應(yīng)的特征集中包括聽覺層面和內(nèi)容層面的特征,若該模態(tài)的數(shù)據(jù)為視頻,則對應(yīng)的特征集中包含視覺層面、聽覺層面和內(nèi)容層面的特征。
9、在一種可能的實(shí)現(xiàn)方式中,所述對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征,得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集,包括:
10、針對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù):
11、若該模態(tài)的數(shù)據(jù)為文本,則根據(jù)該模態(tài)的數(shù)據(jù),獲取多個維度的特征,得到該模態(tài)的數(shù)據(jù)對應(yīng)的特征集;
12、若該模態(tài)的數(shù)據(jù)為圖像、音頻或視頻,則將該模態(tài)的數(shù)據(jù)處理成其他模態(tài)的數(shù)據(jù),根據(jù)該模態(tài)的數(shù)據(jù)和該模態(tài)的數(shù)據(jù)的處理結(jié)果獲取多個維度的特征,得到該模態(tài)的數(shù)據(jù)對應(yīng)的特征集。
13、在一種可能的實(shí)現(xiàn)方式中,所述若該模態(tài)的數(shù)據(jù)為文本,則根據(jù)該模態(tài)的數(shù)據(jù),獲取多個維度的特征,包括:
14、若所述文本所屬的語種不是指定語種,則將所述文本翻譯成指定語種,得到所述文本的翻譯文本;
15、對所述文本和所述文本的翻譯文本分別進(jìn)行分詞處理,得到所述文本的分詞結(jié)果以及所述文本的翻譯文本的分詞結(jié)果;
16、對所述文本的翻譯文本分別進(jìn)行要素信息識別和語義信息提取,得到所述文本的翻譯文本的要素信息和語義信息;
17、對所述文本、所述文本的分詞結(jié)果、所述文本的翻譯文本、所述文本的翻譯文本的分詞結(jié)果、所述文本的翻譯文本的要素信息、所述文本的翻譯文本的語義信息分別進(jìn)行特征提取,得到多個維度的特征。
18、在一種可能的實(shí)現(xiàn)方式中,所述若該模態(tài)的數(shù)據(jù)為圖像、音頻或視頻,則將該模態(tài)的數(shù)據(jù)處理成其他模態(tài)的數(shù)據(jù),根據(jù)該模態(tài)的數(shù)據(jù)和該模態(tài)的數(shù)據(jù)的處理結(jié)果獲取多個維度的特征,包括:
19、若該模態(tài)的數(shù)據(jù)為圖像,則對所述圖像進(jìn)行內(nèi)容識別,得到所述圖像的內(nèi)容文本,根據(jù)所述圖像以及所述圖像的內(nèi)容文本獲取多個維度的特征;
20、若該模態(tài)的數(shù)據(jù)為音頻,則對所述音頻進(jìn)行轉(zhuǎn)寫,得到所述音頻的內(nèi)容文本,根據(jù)所述音頻以及所述音頻的內(nèi)容文本獲取多個維度的特征;
21、若該模態(tài)的數(shù)據(jù)為視頻,則將所述視頻拆分為音頻和多個圖像,根據(jù)所述視頻以及拆分得到的音頻和多個圖像獲取多個維度的特征。
22、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述圖像以及所述圖像的內(nèi)容文本獲取多個維度的特征,包括:
23、若所述圖像的內(nèi)容文本所屬的語種不是指定語種,則將所述圖像的內(nèi)容文本翻譯成指定語種,得到所述圖像的內(nèi)容翻譯文本;
24、對所述圖像的內(nèi)容文本和內(nèi)容翻譯文本分別進(jìn)行分詞處理,得到所述圖像的內(nèi)容文本的分詞結(jié)果以及所述圖像的內(nèi)容翻譯文本的分詞結(jié)果;
25、對所述圖像的內(nèi)容翻譯文本分別進(jìn)行要素信息識別和語義信息提取,得到所述圖像的內(nèi)容翻譯文本的要素信息和語義信息;
26、對所述圖像的內(nèi)容文本、所述圖像的內(nèi)容文本的分詞結(jié)果、所述圖像的內(nèi)容翻譯文本、所述圖像的內(nèi)容翻譯文本的分詞結(jié)果、所述圖像的內(nèi)容翻譯文本的要素信息、所述圖像的內(nèi)容翻譯文本的語義信息分別進(jìn)行特征提取,得到內(nèi)容層面的多個維度的特征,并對所述圖像進(jìn)行特征提取,得到視覺層面的特征。
27、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述音頻以及所述音頻的內(nèi)容文本獲取多個維度的特征,包括:
28、若所述音頻的內(nèi)容文本所屬的語種不是指定語種,則將所述音頻的內(nèi)容文本翻譯成指定語種,得到所述音頻的內(nèi)容翻譯文本;
29、對所述音頻的內(nèi)容文本和內(nèi)容翻譯文本分別進(jìn)行分詞處理,得到所述音頻的內(nèi)容文本的分詞結(jié)果以及所述音頻的內(nèi)容翻譯文本的分詞結(jié)果;
30、對所述音頻的內(nèi)容翻譯文本分別進(jìn)行要素信息識別和語義信息提取,得到所述音頻的內(nèi)容翻譯文本的要素信息和語義信息;
31、對所述音頻的內(nèi)容文本、所述音頻的內(nèi)容文本的分詞結(jié)果、所述音頻的內(nèi)容翻譯文本、所述音頻的內(nèi)容翻譯文本的分詞結(jié)果、所述音頻的內(nèi)容翻譯文本的要素信息、所述音頻的內(nèi)容翻譯文本的語義信息分別進(jìn)行特征提取,得到內(nèi)容層面的多個維度的特征,并對所述音頻進(jìn)行特征提取,得到聽覺層面的特征。
32、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述視頻以及拆分得到的音頻和多個圖像獲取多個維度的特征,包括:
33、對拆分得到的音頻進(jìn)行轉(zhuǎn)寫,得到拆分得到的音頻的內(nèi)容文本;若拆分得到的音頻的內(nèi)容文本所屬的語種不是指定語種,則將拆分得到的音頻的內(nèi)容文本翻譯成指定語種,得到拆分得到的音頻的內(nèi)容翻譯文本;
34、針對拆分得到的每個圖像,對該圖像進(jìn)行內(nèi)容識別,得到該圖像的內(nèi)容文本,若該圖像的內(nèi)容文本所屬的語種不是指定語種,則將該圖像的內(nèi)容文本翻譯成指定語種,得到該圖像的內(nèi)容翻譯文本;
35、根據(jù)所述視頻獲取視頻視覺層面的特征;根據(jù)拆分得到的每個圖像獲取圖像視覺層面的特征;根據(jù)拆分得到的音頻獲取聽覺層面的特征;根據(jù)拆分得到的音頻的內(nèi)容文本和內(nèi)容翻譯文本,獲取音頻內(nèi)容層面的特征;根據(jù)拆分得到的每個圖像的內(nèi)容文本和內(nèi)容翻譯文本,獲取圖像內(nèi)容層面的特征。
36、在一種可能的實(shí)現(xiàn)方式中,所述將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合,得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征,包括:
37、將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征對齊,得到所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征;
38、根據(jù)所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征,確定所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的權(quán)重;
39、按所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的權(quán)重,對所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征加權(quán)求和,得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征。
40、本技術(shù)第二方面提供一種多模態(tài)檢索方法,包括:
41、獲取查詢數(shù)據(jù);
42、將所述查詢數(shù)據(jù)處理成特征,得到查詢特征;
43、從所述多模態(tài)檢索特征庫中確定與所述查詢特征相似度最高的n個特征,其中,所述多模態(tài)檢索特征庫采用上述任一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法構(gòu)建;
44、將與所述n個特征對應(yīng)的多模態(tài)數(shù)據(jù)確定為檢索結(jié)果,其中,n為大于0的整數(shù);
45、輸出所述檢索結(jié)果。
46、在一種可能的實(shí)現(xiàn)方式中,多模態(tài)檢索方法還包括:
47、對所述檢索結(jié)果進(jìn)行審核,得到所述檢索結(jié)果的審核結(jié)果;
48、根據(jù)所述檢索結(jié)果的審核結(jié)果,對所述多模態(tài)檢索特征庫中的特征進(jìn)行優(yōu)化。
49、本技術(shù)第三方面提供一種多模態(tài)檢索特征庫構(gòu)建裝置,包括:數(shù)據(jù)獲取模塊、特征獲取模塊、第一特征融合模塊、第二特征融合模塊和特征存儲模塊;
50、所述數(shù)據(jù)獲取模塊,用于獲取多模態(tài)數(shù)據(jù),其中,所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)相關(guān);
51、所述特征獲取模塊,用于對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征,得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集;其中,任一個模態(tài)的數(shù)據(jù)對應(yīng)的特征集包含如下三個層面中的一個層面或多個層面的特征:視覺層面、聽覺層面和內(nèi)容層面;
52、所述第一特征融合模塊,用于將所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合,得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征;
53、所述第二特征融合模塊,用于將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合,得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征;
54、所述特征存儲模塊,用于將所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。
55、本技術(shù)第四方面提供一種多模態(tài)檢索裝置,包括:查詢數(shù)據(jù)獲取模塊、查詢數(shù)據(jù)處理模塊、多模態(tài)檢索模塊和檢索結(jié)果輸出模塊;
56、所述查詢數(shù)據(jù)獲取模塊,用于獲取查詢數(shù)據(jù);
57、所述查詢數(shù)據(jù)處理模塊,用于將所述查詢數(shù)據(jù)處理成特征,得到查詢特征;
58、所述多模態(tài)檢索模塊,用于從所述多模態(tài)檢索特征庫中確定與所述查詢特征相似度最高的n個特征,將與所述n個特征對應(yīng)的多模態(tài)數(shù)據(jù)確定為檢索結(jié)果,其中,所述多模態(tài)檢索特征庫采用上述的多模態(tài)檢索特征庫構(gòu)建裝置構(gòu)建,n為大于0的整數(shù);
59、所述檢索結(jié)果輸出模塊,用于輸出所述檢索結(jié)果。
60、本技術(shù)第五方面提供一種電子設(shè)備,包括至少一個處理器和與所述處理器連接的存儲器,其中:
61、所述存儲器用于存儲計(jì)算機(jī)程序;
62、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法,和/或,實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。
63、本技術(shù)第六方面提供一種計(jì)算機(jī)存儲介質(zhì),所述存儲介質(zhì)承載有一個或多個計(jì)算機(jī)程序,當(dāng)所述一個或多個計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時,能夠使所述電子設(shè)備能夠?qū)崿F(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法,和/或,實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。
64、本技術(shù)七方面提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀指令,當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時,使得所述電子設(shè)備能夠?qū)崿F(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法,和/或,實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。
65、借由上述技術(shù)方案,本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法,在獲得多模態(tài)數(shù)據(jù)后,首先對多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征,以得到多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集,然后將多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合,得到多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征,接著將多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合,得到多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征,最后將多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法,針對每個模態(tài)的數(shù)據(jù)可獲取較為豐富的特征,在此基礎(chǔ)上通過模態(tài)內(nèi)特征融合和模態(tài)間特征融合,最終可獲得能夠較好表達(dá)多模態(tài)數(shù)據(jù)的多模態(tài)融合特征,進(jìn)而可構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫。在本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法的基礎(chǔ)上,本技術(shù)還提供了一種多模態(tài)檢索方法,該檢索方法從多模態(tài)檢索特征庫中確定與查詢特征相似度最高的n個特征,進(jìn)而找到與查詢特征相似度最高的n個特征對應(yīng)的多模態(tài)數(shù)據(jù),從而獲得檢索結(jié)果,由于多模態(tài)檢索特征庫包含的特征為能夠較好表達(dá)對應(yīng)多模態(tài)數(shù)據(jù)的特征,因此,本技術(shù)提供的基于多模態(tài)檢索特征庫的檢索方法具有較高的檢索召回率和檢索準(zhǔn)確度。