本發(fā)明涉及人工智能,尤其涉及一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品。
背景技術(shù):
1、視覺問答(vqa,visual?question?answering)是一種涉及計算機視覺和自然語言處理的多模態(tài)學(xué)習(xí)任務(wù),vqa系統(tǒng)將圖片和關(guān)于圖片的自然語言問題作為輸入,以期望產(chǎn)生自然語言答案作為輸出。vqa涉及到文本和圖片兩種模態(tài)的數(shù)據(jù),因此需要使用計算機視覺和自然語言處理兩個領(lǐng)域的技術(shù)進行協(xié)同處理,這也意味著vqa系統(tǒng)面臨著更為巨大的挑戰(zhàn)。而現(xiàn)實場景中,很多圖片中所包含的信息,往往不足以回復(fù)自然語言問題,導(dǎo)致輸出的答案與圖片的真實表達意圖不符合,無法生成準(zhǔn)確的答復(fù)。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例的目的是提供一種視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品,能有效提高視覺問答任務(wù)的準(zhǔn)確性,從而輸出準(zhǔn)確的答復(fù)。
2、為實現(xiàn)上述目的,本發(fā)明實施例提供了一種視覺問答方法,包括:
3、獲取圖片中的自然語言描述和物體標(biāo)簽;
4、根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù);
5、根據(jù)所述候選答案和所述問題生成所述問題的陳述語句;
6、將所述陳述語句和所述支持依據(jù)作為檢索器的輸入,得到至少一個檢索片段;
7、將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復(fù)。
8、作為上述方案的改進,所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù),包括:
9、將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案;
10、將所述自然語言描述、所述物體標(biāo)簽、所述問題和所述候選答案輸入到語言模型中,以使所述語言模型輸出所述候選答案的支持依據(jù)。
11、作為上述方案的改進,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:
12、將所述問題輸入到語言模型中,以使所述語言模型輸出第一候選答案;
13、將所述自然語言描述和所述問題輸入到語言模型中,以使所述語言模型輸出第二候選答案;
14、將所述自然語言描述和所述物體標(biāo)簽輸入到語言模型中,以使所述語言模型輸出第三候選答案。
15、作為上述方案的改進,所述根據(jù)所述候選答案和所述問題生成陳述語句,包括:
16、將所述候選答案和所述問題輸入到語言模型中,以使所述語言模型輸出陳述語句。
17、作為上述方案的改進,在得到至少一個檢索片段后,所述方法還包括:
18、當(dāng)所述檢索片段的數(shù)量大于3時,確定每一檢索片段和所述問題的相關(guān)度;
19、根據(jù)所述相關(guān)度對所有檢索片段進行排序。
20、作為上述方案的改進,所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。
21、作為上述方案的改進,每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重;其中,當(dāng)上一分類器預(yù)測錯誤時,增加預(yù)測錯誤的樣本的權(quán)重;當(dāng)上一分類器預(yù)測正確時,減少預(yù)測正確的樣本的權(quán)重。
22、作為上述方案的改進,所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。
23、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種視覺問答裝置,包括:
24、數(shù)據(jù)獲取模塊,用于獲取圖片中的自然語言描述和物體標(biāo)簽;
25、支持依據(jù)生成模塊,用于根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù);
26、陳述語句生成模塊,用于根據(jù)所述候選答案和所述問題生成所述問題的陳述語句;
27、檢索片段生成模塊,用于將所述陳述語句和所述支持依據(jù)作為檢索器的輸入,得到至少一個檢索片段;
28、答復(fù)輸出模塊,用于將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復(fù)。
29、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種視覺問答設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一實施例所述的視覺問答方法。
30、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如上述任一實施例所述的視覺問答方法。
31、為實現(xiàn)上述目的,本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一實施例所述的視覺問答方法。
32、相比于現(xiàn)有技術(shù),本發(fā)明公開的視覺問答方法、裝置、設(shè)備、存儲介質(zhì)和產(chǎn)品,利用成熟的目標(biāo)檢測和圖片描述技術(shù),將圖片中的語義信息進行自然語言化,得到自然語言描述和物體標(biāo)簽這些增強特征,從而基于這些增強特征能夠更好地獲取問答任務(wù)所必需的額外信息,將自然語言描述和物體標(biāo)簽視為輸入,能夠幫助語言模型生成更好的回復(fù),增強視覺問答的準(zhǔn)確性和透明性。另外,由于自然語言作為主要流通數(shù)據(jù),給出了相對透明化的可解釋推理過程。
1.一種視覺問答方法,其特征在于,包括:
2.如權(quán)利要求1所述的視覺問答方法,其特征在于,所述根據(jù)所述自然語言描述、所述物體標(biāo)簽和問題生成候選答案和所述候選答案的支持依據(jù),包括:
3.如權(quán)利要求2所述的視覺問答方法,其特征在于,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標(biāo)簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:
4.如權(quán)利要求1所述的視覺問答方法,其特征在于,所述根據(jù)所述候選答案和所述問題生成陳述語句,包括:
5.如權(quán)利要求1所述的視覺問答方法,其特征在于,在得到至少一個檢索片段后,所述方法還包括:
6.如權(quán)利要求1~5中任一項所述的視覺問答方法,其特征在于,所述語言模型輸出的預(yù)測結(jié)果根據(jù)所有分類器的權(quán)重及其對應(yīng)的輸入數(shù)據(jù)得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據(jù)輸入數(shù)據(jù)輸出預(yù)測結(jié)果。
7.如權(quán)利要求6所述的視覺問答方法,其特征在于,每一所述分類器在訓(xùn)練前根據(jù)上一分類器的預(yù)測結(jié)果來調(diào)整樣本數(shù)據(jù)中的樣本權(quán)重;其中,當(dāng)上一分類器預(yù)測錯誤時,增加預(yù)測錯誤的樣本的權(quán)重;當(dāng)上一分類器預(yù)測正確時,減少預(yù)測正確的樣本的權(quán)重。
8.如權(quán)利要求6所述的視覺問答方法,其特征在于,所述分類器的權(quán)重與所述分類器的誤差負(fù)相關(guān)。
9.一種視覺問答裝置,其特征在于,包括:
10.一種視覺問答設(shè)備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至8中任意一項所述的視覺問答方法。
12.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任意一項所述的視覺問答方法。