多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置與流程

文檔序號：39706088發(fā)布日期：2024-10-22 12:50閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置與流程

本技術(shù)涉及多模態(tài)檢索，尤其涉及一種多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置。

背景技術(shù)：

1、多模態(tài)數(shù)據(jù)檢索技術(shù)是一種輸入查詢數(shù)據(jù)，經(jīng)檢索后可以返回與之相關(guān)的多種模態(tài)的數(shù)據(jù)的技術(shù)。

2、目前的多模態(tài)檢索方法多為基于特征的檢索方法，即，將查詢數(shù)據(jù)處理成查詢特征，在構(gòu)建的多模態(tài)檢索特征庫中找到與查詢特征相似的特征，根據(jù)與查詢特征相似的特征找到對應(yīng)的多模態(tài)數(shù)據(jù)，進(jìn)而輸出找到的多模態(tài)數(shù)據(jù)。

3、經(jīng)由上述過程不難發(fā)現(xiàn)，多模態(tài)檢索特征庫至關(guān)重要，多模態(tài)檢索特征庫的質(zhì)量直接影響檢索效果，而如何構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫是目前亟需解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本技術(shù)提供了一種多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置，用以構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫，進(jìn)而在檢索時，獲得較高的檢索召回率和檢索準(zhǔn)確度，其技術(shù)方案如下：

2、本技術(shù)第一方面提供一種多模態(tài)檢索特征庫構(gòu)建方法包括：

3、獲取多模態(tài)數(shù)據(jù)，其中，所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)相關(guān)；

4、對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征，得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集；其中，任一個模態(tài)的數(shù)據(jù)對應(yīng)的特征集包含如下三個層面中的一個層面或多個層面的特征：視覺層面、聽覺層面和內(nèi)容層面；

5、將所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合，得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征；

6、將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合，得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征；

7、將所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。

8、在一種可能的實(shí)現(xiàn)方式中，針對任一個模態(tài)的數(shù)據(jù)，若該模態(tài)的數(shù)據(jù)為文本，則對應(yīng)的特征集包括內(nèi)容層面的特征，若該模態(tài)的數(shù)據(jù)為圖像，則對應(yīng)的特征集中包括視覺層面和內(nèi)容層面的特征，若該模態(tài)的數(shù)據(jù)為音頻，則對應(yīng)的特征集中包括聽覺層面和內(nèi)容層面的特征，若該模態(tài)的數(shù)據(jù)為視頻，則對應(yīng)的特征集中包含視覺層面、聽覺層面和內(nèi)容層面的特征。

9、在一種可能的實(shí)現(xiàn)方式中，所述對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征，得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集，包括：

10、針對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)：

11、若該模態(tài)的數(shù)據(jù)為文本，則根據(jù)該模態(tài)的數(shù)據(jù)，獲取多個維度的特征，得到該模態(tài)的數(shù)據(jù)對應(yīng)的特征集；

12、若該模態(tài)的數(shù)據(jù)為圖像、音頻或視頻，則將該模態(tài)的數(shù)據(jù)處理成其他模態(tài)的數(shù)據(jù)，根據(jù)該模態(tài)的數(shù)據(jù)和該模態(tài)的數(shù)據(jù)的處理結(jié)果獲取多個維度的特征，得到該模態(tài)的數(shù)據(jù)對應(yīng)的特征集。

13、在一種可能的實(shí)現(xiàn)方式中，所述若該模態(tài)的數(shù)據(jù)為文本，則根據(jù)該模態(tài)的數(shù)據(jù)，獲取多個維度的特征，包括：

14、若所述文本所屬的語種不是指定語種，則將所述文本翻譯成指定語種，得到所述文本的翻譯文本；

15、對所述文本和所述文本的翻譯文本分別進(jìn)行分詞處理，得到所述文本的分詞結(jié)果以及所述文本的翻譯文本的分詞結(jié)果；

16、對所述文本的翻譯文本分別進(jìn)行要素信息識別和語義信息提取，得到所述文本的翻譯文本的要素信息和語義信息；

17、對所述文本、所述文本的分詞結(jié)果、所述文本的翻譯文本、所述文本的翻譯文本的分詞結(jié)果、所述文本的翻譯文本的要素信息、所述文本的翻譯文本的語義信息分別進(jìn)行特征提取，得到多個維度的特征。

18、在一種可能的實(shí)現(xiàn)方式中，所述若該模態(tài)的數(shù)據(jù)為圖像、音頻或視頻，則將該模態(tài)的數(shù)據(jù)處理成其他模態(tài)的數(shù)據(jù)，根據(jù)該模態(tài)的數(shù)據(jù)和該模態(tài)的數(shù)據(jù)的處理結(jié)果獲取多個維度的特征，包括：

19、若該模態(tài)的數(shù)據(jù)為圖像，則對所述圖像進(jìn)行內(nèi)容識別，得到所述圖像的內(nèi)容文本，根據(jù)所述圖像以及所述圖像的內(nèi)容文本獲取多個維度的特征；

20、若該模態(tài)的數(shù)據(jù)為音頻，則對所述音頻進(jìn)行轉(zhuǎn)寫，得到所述音頻的內(nèi)容文本，根據(jù)所述音頻以及所述音頻的內(nèi)容文本獲取多個維度的特征；

21、若該模態(tài)的數(shù)據(jù)為視頻，則將所述視頻拆分為音頻和多個圖像，根據(jù)所述視頻以及拆分得到的音頻和多個圖像獲取多個維度的特征。

22、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述圖像以及所述圖像的內(nèi)容文本獲取多個維度的特征，包括：

23、若所述圖像的內(nèi)容文本所屬的語種不是指定語種，則將所述圖像的內(nèi)容文本翻譯成指定語種，得到所述圖像的內(nèi)容翻譯文本；

24、對所述圖像的內(nèi)容文本和內(nèi)容翻譯文本分別進(jìn)行分詞處理，得到所述圖像的內(nèi)容文本的分詞結(jié)果以及所述圖像的內(nèi)容翻譯文本的分詞結(jié)果；

25、對所述圖像的內(nèi)容翻譯文本分別進(jìn)行要素信息識別和語義信息提取，得到所述圖像的內(nèi)容翻譯文本的要素信息和語義信息；

26、對所述圖像的內(nèi)容文本、所述圖像的內(nèi)容文本的分詞結(jié)果、所述圖像的內(nèi)容翻譯文本、所述圖像的內(nèi)容翻譯文本的分詞結(jié)果、所述圖像的內(nèi)容翻譯文本的要素信息、所述圖像的內(nèi)容翻譯文本的語義信息分別進(jìn)行特征提取，得到內(nèi)容層面的多個維度的特征，并對所述圖像進(jìn)行特征提取，得到視覺層面的特征。

27、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述音頻以及所述音頻的內(nèi)容文本獲取多個維度的特征，包括：

28、若所述音頻的內(nèi)容文本所屬的語種不是指定語種，則將所述音頻的內(nèi)容文本翻譯成指定語種，得到所述音頻的內(nèi)容翻譯文本；

29、對所述音頻的內(nèi)容文本和內(nèi)容翻譯文本分別進(jìn)行分詞處理，得到所述音頻的內(nèi)容文本的分詞結(jié)果以及所述音頻的內(nèi)容翻譯文本的分詞結(jié)果；

30、對所述音頻的內(nèi)容翻譯文本分別進(jìn)行要素信息識別和語義信息提取，得到所述音頻的內(nèi)容翻譯文本的要素信息和語義信息；

31、對所述音頻的內(nèi)容文本、所述音頻的內(nèi)容文本的分詞結(jié)果、所述音頻的內(nèi)容翻譯文本、所述音頻的內(nèi)容翻譯文本的分詞結(jié)果、所述音頻的內(nèi)容翻譯文本的要素信息、所述音頻的內(nèi)容翻譯文本的語義信息分別進(jìn)行特征提取，得到內(nèi)容層面的多個維度的特征，并對所述音頻進(jìn)行特征提取，得到聽覺層面的特征。

32、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述視頻以及拆分得到的音頻和多個圖像獲取多個維度的特征，包括：

33、對拆分得到的音頻進(jìn)行轉(zhuǎn)寫，得到拆分得到的音頻的內(nèi)容文本；若拆分得到的音頻的內(nèi)容文本所屬的語種不是指定語種，則將拆分得到的音頻的內(nèi)容文本翻譯成指定語種，得到拆分得到的音頻的內(nèi)容翻譯文本；

34、針對拆分得到的每個圖像，對該圖像進(jìn)行內(nèi)容識別，得到該圖像的內(nèi)容文本，若該圖像的內(nèi)容文本所屬的語種不是指定語種，則將該圖像的內(nèi)容文本翻譯成指定語種，得到該圖像的內(nèi)容翻譯文本；

35、根據(jù)所述視頻獲取視頻視覺層面的特征；根據(jù)拆分得到的每個圖像獲取圖像視覺層面的特征；根據(jù)拆分得到的音頻獲取聽覺層面的特征；根據(jù)拆分得到的音頻的內(nèi)容文本和內(nèi)容翻譯文本，獲取音頻內(nèi)容層面的特征；根據(jù)拆分得到的每個圖像的內(nèi)容文本和內(nèi)容翻譯文本，獲取圖像內(nèi)容層面的特征。

36、在一種可能的實(shí)現(xiàn)方式中，所述將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合，得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征，包括：

37、將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征對齊，得到所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征；

38、根據(jù)所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征，確定所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的權(quán)重；

39、按所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的權(quán)重，對所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的對齊后目標(biāo)特征加權(quán)求和，得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征。

40、本技術(shù)第二方面提供一種多模態(tài)檢索方法，包括：

41、獲取查詢數(shù)據(jù)；

42、將所述查詢數(shù)據(jù)處理成特征，得到查詢特征；

43、從所述多模態(tài)檢索特征庫中確定與所述查詢特征相似度最高的n個特征，其中，所述多模態(tài)檢索特征庫采用上述任一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法構(gòu)建；

44、將與所述n個特征對應(yīng)的多模態(tài)數(shù)據(jù)確定為檢索結(jié)果，其中，n為大于0的整數(shù)；

45、輸出所述檢索結(jié)果。

46、在一種可能的實(shí)現(xiàn)方式中，多模態(tài)檢索方法還包括：

47、對所述檢索結(jié)果進(jìn)行審核，得到所述檢索結(jié)果的審核結(jié)果；

48、根據(jù)所述檢索結(jié)果的審核結(jié)果，對所述多模態(tài)檢索特征庫中的特征進(jìn)行優(yōu)化。

49、本技術(shù)第三方面提供一種多模態(tài)檢索特征庫構(gòu)建裝置，包括：數(shù)據(jù)獲取模塊、特征獲取模塊、第一特征融合模塊、第二特征融合模塊和特征存儲模塊；

50、所述數(shù)據(jù)獲取模塊，用于獲取多模態(tài)數(shù)據(jù)，其中，所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)相關(guān)；

51、所述特征獲取模塊，用于對所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征，得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集；其中，任一個模態(tài)的數(shù)據(jù)對應(yīng)的特征集包含如下三個層面中的一個層面或多個層面的特征：視覺層面、聽覺層面和內(nèi)容層面；

52、所述第一特征融合模塊，用于將所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合，得到所述多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征；

53、所述第二特征融合模塊，用于將所述多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合，得到所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征；

54、所述特征存儲模塊，用于將所述多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。

55、本技術(shù)第四方面提供一種多模態(tài)檢索裝置，包括：查詢數(shù)據(jù)獲取模塊、查詢數(shù)據(jù)處理模塊、多模態(tài)檢索模塊和檢索結(jié)果輸出模塊；

56、所述查詢數(shù)據(jù)獲取模塊，用于獲取查詢數(shù)據(jù)；

57、所述查詢數(shù)據(jù)處理模塊，用于將所述查詢數(shù)據(jù)處理成特征，得到查詢特征；

58、所述多模態(tài)檢索模塊，用于從所述多模態(tài)檢索特征庫中確定與所述查詢特征相似度最高的n個特征，將與所述n個特征對應(yīng)的多模態(tài)數(shù)據(jù)確定為檢索結(jié)果，其中，所述多模態(tài)檢索特征庫采用上述的多模態(tài)檢索特征庫構(gòu)建裝置構(gòu)建，n為大于0的整數(shù)；

59、所述檢索結(jié)果輸出模塊，用于輸出所述檢索結(jié)果。

60、本技術(shù)第五方面提供一種電子設(shè)備，包括至少一個處理器和與所述處理器連接的存儲器，其中：

61、所述存儲器用于存儲計(jì)算機(jī)程序；

62、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序，以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法，和/或，實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。

63、本技術(shù)第六方面提供一種計(jì)算機(jī)存儲介質(zhì)，所述存儲介質(zhì)承載有一個或多個計(jì)算機(jī)程序，當(dāng)所述一個或多個計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時，能夠使所述電子設(shè)備能夠?qū)崿F(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法，和/或，實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。

64、本技術(shù)七方面提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可讀指令，當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時，使得所述電子設(shè)備能夠?qū)崿F(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索特征庫構(gòu)建方法，和/或，實(shí)現(xiàn)上述任意一項(xiàng)所述的多模態(tài)檢索方法的步驟。

65、借由上述技術(shù)方案，本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法，在獲得多模態(tài)數(shù)據(jù)后，首先對多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)獲取多個維度的特征，以得到多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集，然后將多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的特征集中的特征融合，得到多模態(tài)數(shù)據(jù)包含的每個模態(tài)的數(shù)據(jù)對應(yīng)的目標(biāo)特征，接著將多模態(tài)數(shù)據(jù)包含的多個模態(tài)的數(shù)據(jù)分別對應(yīng)的目標(biāo)特征融合，得到多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征，最后將多模態(tài)數(shù)據(jù)對應(yīng)的目標(biāo)特征存儲至多模態(tài)檢索特征庫。本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法，針對每個模態(tài)的數(shù)據(jù)可獲取較為豐富的特征，在此基礎(chǔ)上通過模態(tài)內(nèi)特征融合和模態(tài)間特征融合，最終可獲得能夠較好表達(dá)多模態(tài)數(shù)據(jù)的多模態(tài)融合特征，進(jìn)而可構(gòu)建出高質(zhì)量的多模態(tài)檢索特征庫。在本技術(shù)提供的多模態(tài)檢索特征庫構(gòu)建方法的基礎(chǔ)上，本技術(shù)還提供了一種多模態(tài)檢索方法，該檢索方法從多模態(tài)檢索特征庫中確定與查詢特征相似度最高的n個特征，進(jìn)而找到與查詢特征相似度最高的n個特征對應(yīng)的多模態(tài)數(shù)據(jù)，從而獲得檢索結(jié)果，由于多模態(tài)檢索特征庫包含的特征為能夠較好表達(dá)對應(yīng)多模態(tài)數(shù)據(jù)的特征，因此，本技術(shù)提供的基于多模態(tài)檢索特征庫的檢索方法具有較高的檢索召回率和檢索準(zhǔn)確度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石程強(qiáng),王夢忠,蔡勇
技術(shù)所有人：訊飛智元信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種噴頭基準(zhǔn)電壓控制電路的制作方法
上一篇：一種連接端柱牢固可靠的LED顯示屏模組的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置與流程

多模態(tài)檢索特征庫構(gòu)建方法、多模態(tài)檢索方法及相關(guān)裝置與流程