本發(fā)明屬于深度學習的,特別是涉及一種視覺語音識別方法、系統(tǒng)、存儲介質(zhì)及電子設備。
背景技術:
1、當音頻損壞時,視覺語音識別(audio-visual?recognition,avr)被認為是完成語音識別任務的另一種解決方案;同時,它也是一種在多人場景中用于驗證講話人的視覺識別方法。視覺語音識別是利用從某種模態(tài)中提取的信息,通過填補缺失的信息來提高另一種模態(tài)的識別能力。
2、例如,唇語識別就是使用視覺語音識別技術,其從圖像中連續(xù)識別出人臉,判斷其中正在說話的人,提取此人連續(xù)的口型變化特征,隨即將連續(xù)變化的特征輸入到唇語識別模型中,識別出講話人口型對應的發(fā)音,隨后根據(jù)識別出的發(fā)音,計算出可能性最大的自然語言語句。
3、然而,在視覺語音識別中,由于唇部運動的模糊性質(zhì),導致語音識別效果不好。例如,同音異義詞,即具有相同唇部運動但發(fā)出不同聲音的單詞,會嚴重影響語音識別效果。
技術實現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術的缺點,本發(fā)明的目的在于提供一種視覺語音識別方法、系統(tǒng)、存儲介質(zhì)及電子設備,基于大語言模型的上下文建模能力實現(xiàn)視覺語音識別,有效提升了視覺語音識別效果。
2、第一方面,本發(fā)明提供一種視覺語音識別方法,所述方法包括以下步驟:構造視覺語音識別提示文本和視覺語音翻譯提示文本,所述視覺語音識別提示文本用于提示進行視覺語音識別,所述視覺語音翻譯提示文本用于提示進行視覺語音翻譯;對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,獲取第一編碼提示文本和第二編碼提示文本;對待識別的輸入視覺內(nèi)容進行編碼,獲取視覺內(nèi)容編碼;對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼;將所述第一編碼提示文本、所述第二編碼提示文本和所述去重視覺內(nèi)容編碼輸入大語言模型,以獲取視覺語音識別結果。
3、在第一方面的一種實現(xiàn)方式中,基于第一編碼模塊對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,基于第二編碼模塊對待識別的輸入視覺內(nèi)容進行編碼;所述第一編碼模塊和所述第二編碼模塊均為參數(shù)固定編碼模型。
4、在第一方面的一種實現(xiàn)方式中,對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼包括:
5、對所述視覺內(nèi)容編碼中重復的單詞或字母進行去重。
6、在第一方面的一種實現(xiàn)方式中,在所述大語言模型的訓練過程中,采用低秩適配器進行訓練。
7、第二方面,本發(fā)明提供一種視覺語音識別系統(tǒng),所述系統(tǒng)包括構造模塊、第一編碼模塊、第二編碼模塊、去重模塊和識別模塊;
8、所述構造模塊用于構造視覺語音識別提示文本和視覺語音翻譯提示文本,所述視覺語音識別提示文本用于提示進行視覺語音識別,所述視覺語音翻譯提示文本用于提示進行視覺語音翻譯;
9、所述第一編碼模塊用于對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,獲取第一編碼提示文本和第二編碼提示文本;
10、所述第二編碼模塊用于對待識別的輸入視覺內(nèi)容進行編碼,獲取視覺內(nèi)容編碼;
11、所述去重模塊用于對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼;
12、所述識別模塊用于將所述第一編碼提示文本、所述第二編碼提示文本和所述去重視覺內(nèi)容編碼輸入大語言模型,以獲取視覺語音識別結果。
13、在第二方面的一種實現(xiàn)方式中,基于第一編碼模塊對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,基于第二編碼模塊對待識別的輸入視覺內(nèi)容進行編碼;所述第一編碼模塊和所述第二編碼模塊均為參數(shù)固定編碼模型。
14、在第二方面的一種實現(xiàn)方式中,對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼包括:
15、對所述視覺內(nèi)容編碼中重復的單詞或字母進行去重。
16、在第二方面的一種實現(xiàn)方式中,在所述大語言模型的訓練過程中,采用低秩適配器進行訓練。
17、第三方面,本發(fā)明提供一種電子設備,所述電子設備包括:處理器和存儲器;
18、所述存儲器用于存儲計算機程序;
19、所述處理器用于執(zhí)行所述存儲器存儲的計算機程序,以使所述電子設備執(zhí)行上述的視覺語音識別方法。
20、第四方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被電子設備執(zhí)行時實現(xiàn)上述的視覺語音識別方法。
21、如上所述,本發(fā)明所述的視覺語音識別方法、系統(tǒng)、存儲介質(zhì)及電子設備,具有以下有益效果:
22、(1)基于大語言模型的上下文建模能力實現(xiàn)視覺語音識別,有效提升了視覺語音識別效果;
23、(2)通過低秩適配器(low-rank?adaptation,lora)實現(xiàn)高效率的大語言模型訓練,并在使用更少的訓練標記數(shù)據(jù)的情況下能夠更有效地識別和翻譯唇部運動;
24、(3)智能化程度高,極具實用性。
1.一種視覺語音識別方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權利要求1所述的視覺語音識別方法,其特征在于:基于第一編碼模塊對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,基于第二編碼模塊對待識別的輸入視覺內(nèi)容進行編碼;所述第一編碼模塊和所述第二編碼模塊均為參數(shù)固定編碼模型。
3.根據(jù)權利要求1所述的視覺語音識別方法,其特征在于:對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼包括:
4.根據(jù)權利要求1所述的視覺語音識別方法,其特征在于:在所述大語言模型的訓練過程中,采用低秩適配器進行訓練。
5.一種視覺語音識別系統(tǒng),其特征在于,所述系統(tǒng)包括構造模塊、第一編碼模塊、第二編碼模塊、去重模塊和識別模塊;
6.根據(jù)權利要求5所述的視覺語音識別系統(tǒng),其特征在于:基于第一編碼模塊對所述視覺語音識別提示文本和所述視覺語音翻譯提示文本進行編碼,基于第二編碼模塊對待識別的輸入視覺內(nèi)容進行編碼;所述第一編碼模塊和所述第二編碼模塊均為參數(shù)固定編碼模型。
7.根據(jù)權利要求5所述的視覺語音識別系統(tǒng),其特征在于:對所述視覺內(nèi)容編碼進行去重處理,獲取去重視覺內(nèi)容編碼包括:
8.根據(jù)權利要求5所述的視覺語音識別系統(tǒng),其特征在于:在所述大語言模型的訓練過程中,采用低秩適配器進行訓練。
9.一種電子設備,其特征在于,所述電子設備包括:處理器和存儲器;
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被電子設備執(zhí)行時實現(xiàn)權利要求1至4中任一項所述的視覺語音識別方法。