視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品與流程

文檔序號：39718404發(fā)布日期：2024-10-22 13:05閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，尤其涉及一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品。

背景技術(shù)：

1、視覺問答(vqa，visual?question?answering)是一種涉及計算機視覺和自然語言處理的多模態(tài)學(xué)習(xí)任務(wù)，vqa系統(tǒng)將圖片和關(guān)于圖片的自然語言問題作為輸入，以期望產(chǎn)生自然語言答案作為輸出。vqa涉及到文本和圖片兩種模態(tài)的數(shù)據(jù)，因此需要使用計算機視覺和自然語言處理兩個領(lǐng)域的技術(shù)進行協(xié)同處理，這也意味著vqa系統(tǒng)面臨著更為巨大的挑戰(zhàn)。而現(xiàn)實場景中，很多圖片中所包含的信息，往往不足以回復(fù)自然語言問題，導(dǎo)致輸出的答案與圖片的真實表達意圖不符合，無法生成準(zhǔn)確的答復(fù)。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例的目的是提供一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品，能有效提高視覺問答任務(wù)的準(zhǔn)確性，從而輸出準(zhǔn)確的答復(fù)。

2、為實現(xiàn)上述目的，本發(fā)明實施例提供了一種視覺問答方法，包括：

3、獲取圖片中的自然語言描述和物體標(biāo)簽；

4、根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù)；

5、根據(jù)所述候選答案和所述問題生成所述問題的陳述語句；

6、將所述陳述語句和所述支持依據(jù)作為檢索器的輸入，得到至少一個檢索片段；

7、將所述檢索片段和所述問題輸入到語言模型中，以使所述語言模型輸出所述問題的答復(fù)。

8、作為上述方案的改進，所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù)，包括：

9、將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案；

10、將所述自然語言描述、所述物體標(biāo)簽、所述問題和所述候選答案輸入到語言模型中，以使所述語言模型輸出所述候選答案的支持依據(jù)。

11、作為上述方案的改進，所述候選答案包括第一候選答案、第二候選答案和第三候選答案；則，所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案，包括：

12、將所述問題輸入到語言模型中，以使所述語言模型輸出第一候選答案；

13、將所述自然語言描述和所述問題輸入到語言模型中，以使所述語言模型輸出第二候選答案；

14、將所述自然語言描述和所述物體標(biāo)簽輸入到語言模型中，以使所述語言模型輸出第三候選答案。

15、作為上述方案的改進，所述根據(jù)所述候選答案和所述問題生成陳述語句，包括：

16、將所述候選答案和所述問題輸入到語言模型中，以使所述語言模型輸出陳述語句。

17、作為上述方案的改進，在得到至少一個檢索片段后，所述方法還包括：

18、當(dāng)所述檢索片段的數(shù)量大于3時，確定每一檢索片段和所述問題的相關(guān)度；

19、根據(jù)所述相關(guān)度對所有檢索片段進行排序。

20、作為上述方案的改進，所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到；其中，所述語言模型包括若干個分類器，所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。

21、作為上述方案的改進，每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重；其中，當(dāng)上一分類器預(yù)測錯誤時，增加預(yù)測錯誤的樣本的權(quán)重；當(dāng)上一分類器預(yù)測正確時，減少預(yù)測正確的樣本的權(quán)重。

22、作為上述方案的改進，所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。

23、為實現(xiàn)上述目的，本發(fā)明實施例還提供了一種視覺問答裝置，包括：

24、數(shù)據(jù)獲取模塊，用于獲取圖片中的自然語言描述和物體標(biāo)簽；

25、支持依據(jù)生成模塊，用于根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù)；

26、陳述語句生成模塊，用于根據(jù)所述候選答案和所述問題生成所述問題的陳述語句；

27、檢索片段生成模塊，用于將所述陳述語句和所述支持依據(jù)作為檢索器的輸入，得到至少一個檢索片段；

28、答復(fù)輸出模塊，用于將所述檢索片段和所述問題輸入到語言模型中，以使所述語言模型輸出所述問題的答復(fù)。

29、為實現(xiàn)上述目的，本發(fā)明實施例還提供了一種視覺問答設(shè)備，包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一實施例所述的視覺問答方法。

30、為實現(xiàn)上述目的，本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)包括存儲的計算機程序，其中，在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如上述任一實施例所述的視覺問答方法。

31、為實現(xiàn)上述目的，本發(fā)明實施例還提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一實施例所述的視覺問答方法。

32、相比于現(xiàn)有技術(shù)，本發(fā)明公開的視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品，利用成熟的目標(biāo)檢測和圖片描述技術(shù)，將圖片中的語義信息進行自然語言化，得到自然語言描述和物體標(biāo)簽這些增強特征，從而基于這些增強特征能夠更好地獲取問答任務(wù)所必需的額外信息，將自然語言描述和物體標(biāo)簽視為輸入，能夠幫助語言模型生成更好的回復(fù)，增強視覺問答的準(zhǔn)確性和透明性。另外，由于自然語言作為主要流通數(shù)據(jù)，給出了相對透明化的可解釋推理過程。

技術(shù)特征：

1.一種視覺問答方法，其特征在于，包括：

2.如權(quán)利要求1所述的視覺問答方法，其特征在于，所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù)，包括：

3.如權(quán)利要求2所述的視覺問答方法，其特征在于，所述候選答案包括第一候選答案、第二候選答案和第三候選答案；則，所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案，包括：

4.如權(quán)利要求1所述的視覺問答方法，其特征在于，所述根據(jù)所述候選答案和所述問題生成陳述語句，包括：

5.如權(quán)利要求1所述的視覺問答方法，其特征在于，在得到至少一個檢索片段后，所述方法還包括：

6.如權(quán)利要求1～5中任一項所述的視覺問答方法，其特征在于，所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到；其中，所述語言模型包括若干個分類器，所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。

7.如權(quán)利要求6所述的視覺問答方法，其特征在于，每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重；其中，當(dāng)上一分類器預(yù)測錯誤時，增加預(yù)測錯誤的樣本的權(quán)重；當(dāng)上一分類器預(yù)測正確時，減少預(yù)測正確的樣本的權(quán)重。

8.如權(quán)利要求6所述的視覺問答方法，其特征在于，所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。

9.一種視覺問答裝置，其特征在于，包括：

10.一種視覺問答設(shè)備，其特征在于，包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。

11.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)包括存儲的計算機程序，其中，在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至8中任意一項所述的視覺問答方法。

12.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，該計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。

技術(shù)總結(jié)
本發(fā)明公開了一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品，利用成熟的目標(biāo)檢測和圖片描述技術(shù)，將圖片中的語義信息進行自然語言化，得到自然語言描述和物體標(biāo)簽這些增強特征，從而基于這些增強特征能夠更好地獲取問答任務(wù)所必需的額外信息，將自然語言描述和物體標(biāo)簽視為輸入，能夠幫助語言模型生成更好的回復(fù)，增強視覺問答的準(zhǔn)確性和透明性。另外，由于自然語言作為主要流通數(shù)據(jù)，給出了相對透明化的可解釋推理過程。

技術(shù)研發(fā)人員：劉杰,郝亦凡
受保護的技術(shù)使用者：中國移動通信有限公司研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉杰,郝亦凡
技術(shù)所有人：中國移動通信有限公司研究院
我是此專利的發(fā)明人

上一篇：智能家居設(shè)備及其控制方法與流程
上一篇：包含改造的白介素12的溶瘤病毒及其用途的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品與流程

視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品與流程