日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品與流程

文檔序號:39718404發(fā)布日期:2024-10-22 13:05閱讀:2來源:國知局
視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品與流程

本發(fā)明涉及人工智能,尤其涉及一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品。


背景技術(shù):

1、視覺問答(vqa,visual?question?answering)是一種涉及計算機視覺和自然語言處理的多模態(tài)學(xué)習(xí)任務(wù),vqa系統(tǒng)將圖片和關(guān)于圖片的自然語言問題作為輸入,以期望產(chǎn)生自然語言答案作為輸出。vqa涉及到文本和圖片兩種模態(tài)的數(shù)據(jù),因此需要使用計算機視覺和自然語言處理兩個領(lǐng)域的技術(shù)進行協(xié)同處理,這也意味著vqa系統(tǒng)面臨著更為巨大的挑戰(zhàn)。而現(xiàn)實場景中,很多圖片中所包含的信息,往往不足以回復(fù)自然語言問題,導(dǎo)致輸出的答案與圖片的真實表達意圖不符合,無法生成準(zhǔn)確的答復(fù)。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例的目的是提供一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品,能有效提高視覺問答任務(wù)的準(zhǔn)確性,從而輸出準(zhǔn)確的答復(fù)。

2、為實現(xiàn)上述目的,本發(fā)明實施例提供了一種視覺問答方法,包括:

3、獲取圖片中的自然語言描述和物體標(biāo)簽;

4、根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù);

5、根據(jù)所述候選答案和所述問題生成所述問題的陳述語句;

6、將所述陳述語句和所述支持依據(jù)作為檢索器的輸入,得到至少一個檢索片段;

7、將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復(fù)。

8、作為上述方案的改進,所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù),包括:

9、將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案;

10、將所述自然語言描述、所述物體標(biāo)簽、所述問題和所述候選答案輸入到語言模型中,以使所述語言模型輸出所述候選答案的支持依據(jù)。

11、作為上述方案的改進,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:

12、將所述問題輸入到語言模型中,以使所述語言模型輸出第一候選答案;

13、將所述自然語言描述和所述問題輸入到語言模型中,以使所述語言模型輸出第二候選答案;

14、將所述自然語言描述和所述物體標(biāo)簽輸入到語言模型中,以使所述語言模型輸出第三候選答案。

15、作為上述方案的改進,所述根據(jù)所述候選答案和所述問題生成陳述語句,包括:

16、將所述候選答案和所述問題輸入到語言模型中,以使所述語言模型輸出陳述語句。

17、作為上述方案的改進,在得到至少一個檢索片段后,所述方法還包括:

18、當(dāng)所述檢索片段的數(shù)量大于3時,確定每一檢索片段和所述問題的相關(guān)度;

19、根據(jù)所述相關(guān)度對所有檢索片段進行排序。

20、作為上述方案的改進,所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。

21、作為上述方案的改進,每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重;其中,當(dāng)上一分類器預(yù)測錯誤時,增加預(yù)測錯誤的樣本的權(quán)重;當(dāng)上一分類器預(yù)測正確時,減少預(yù)測正確的樣本的權(quán)重。

22、作為上述方案的改進,所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。

23、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種視覺問答裝置,包括:

24、數(shù)據(jù)獲取模塊,用于獲取圖片中的自然語言描述和物體標(biāo)簽;

25、支持依據(jù)生成模塊,用于根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù);

26、陳述語句生成模塊,用于根據(jù)所述候選答案和所述問題生成所述問題的陳述語句;

27、檢索片段生成模塊,用于將所述陳述語句和所述支持依據(jù)作為檢索器的輸入,得到至少一個檢索片段;

28、答復(fù)輸出模塊,用于將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復(fù)。

29、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種視覺問答設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一實施例所述的視覺問答方法。

30、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如上述任一實施例所述的視覺問答方法。

31、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一實施例所述的視覺問答方法。

32、相比于現(xiàn)有技術(shù),本發(fā)明公開的視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品,利用成熟的目標(biāo)檢測和圖片描述技術(shù),將圖片中的語義信息進行自然語言化,得到自然語言描述和物體標(biāo)簽這些增強特征,從而基于這些增強特征能夠更好地獲取問答任務(wù)所必需的額外信息,將自然語言描述和物體標(biāo)簽視為輸入,能夠幫助語言模型生成更好的回復(fù),增強視覺問答的準(zhǔn)確性和透明性。另外,由于自然語言作為主要流通數(shù)據(jù),給出了相對透明化的可解釋推理過程。



技術(shù)特征:

1.一種視覺問答方法,其特征在于,包括:

2.如權(quán)利要求1所述的視覺問答方法,其特征在于,所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù),包括:

3.如權(quán)利要求2所述的視覺問答方法,其特征在于,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:

4.如權(quán)利要求1所述的視覺問答方法,其特征在于,所述根據(jù)所述候選答案和所述問題生成陳述語句,包括:

5.如權(quán)利要求1所述的視覺問答方法,其特征在于,在得到至少一個檢索片段后,所述方法還包括:

6.如權(quán)利要求1~5中任一項所述的視覺問答方法,其特征在于,所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。

7.如權(quán)利要求6所述的視覺問答方法,其特征在于,每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重;其中,當(dāng)上一分類器預(yù)測錯誤時,增加預(yù)測錯誤的樣本的權(quán)重;當(dāng)上一分類器預(yù)測正確時,減少預(yù)測正確的樣本的權(quán)重。

8.如權(quán)利要求6所述的視覺問答方法,其特征在于,所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。

9.一種視覺問答裝置,其特征在于,包括:

10.一種視覺問答設(shè)備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。

11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至8中任意一項所述的視覺問答方法。

12.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。


技術(shù)總結(jié)
本發(fā)明公開了一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品,利用成熟的目標(biāo)檢測和圖片描述技術(shù),將圖片中的語義信息進行自然語言化,得到自然語言描述和物體標(biāo)簽這些增強特征,從而基于這些增強特征能夠更好地獲取問答任務(wù)所必需的額外信息,將自然語言描述和物體標(biāo)簽視為輸入,能夠幫助語言模型生成更好的回復(fù),增強視覺問答的準(zhǔn)確性和透明性。另外,由于自然語言作為主要流通數(shù)據(jù),給出了相對透明化的可解釋推理過程。

技術(shù)研發(fā)人員:劉杰,郝亦凡
受保護的技術(shù)使用者:中國移動通信有限公司研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1