本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種數(shù)字人圖像融合方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著數(shù)字人技術(shù)的快速迭代發(fā)展,目前可以通過機(jī)器學(xué)習(xí)模型,基于描述數(shù)字人初始表情狀態(tài)的原始照片或視頻,模擬與文本或語音輸入相匹配的數(shù)字人的面部表情和唇部動(dòng),使照片或視頻中的數(shù)字人能夠?qū)崟r(shí)根據(jù)文本或語音輸入進(jìn)行自然表達(dá),為視頻制作以及直播行業(yè)、電商行業(yè)等智能問答交互數(shù)字人領(lǐng)域帶來便利。
2、相關(guān)技術(shù)中,在根據(jù)數(shù)字人的原始照片或視頻生成與文本或語音輸入相匹配的每幀推理圖像后,通常將該推理圖像與相應(yīng)幀的原始圖像進(jìn)行融合,如將原始圖像中相同位置圖像替換為推理圖像或采用泊松融合方式,以生成逼真的數(shù)字人目標(biāo)視頻。然而,采用當(dāng)前的圖像融合方式生成的融合圖像易發(fā)生邊界位置不連續(xù)的問題,導(dǎo)致融合圖像中出現(xiàn)明顯的分割線或過渡不自然現(xiàn)象,降低了數(shù)字人的真實(shí)感和自然度,影響了整體交互體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,為解決上述技術(shù)問題,本技術(shù)提供一種數(shù)字人圖像融合方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)。
2、具體地,本技術(shù)是通過如下技術(shù)方案實(shí)現(xiàn)的:
3、根據(jù)本技術(shù)實(shí)施例的第一方面,提供一種數(shù)字人圖像融合方法,所述方法包括:
4、針對(duì)數(shù)字人的原始視頻中的每幀原始圖像,生成匹配驅(qū)動(dòng)語音數(shù)據(jù)的第一數(shù)字人圖像;
5、獲取所述第一數(shù)字人圖像的目標(biāo)遮罩圖;所述目標(biāo)遮罩圖是根據(jù)所述第一數(shù)字人圖像對(duì)應(yīng)的原始圖像中的人臉關(guān)鍵點(diǎn)預(yù)先構(gòu)造的;
6、根據(jù)所述目標(biāo)遮罩圖中各像素點(diǎn)的像素值,確定所述第一數(shù)字人圖像中每個(gè)像素點(diǎn)對(duì)應(yīng)的融合權(quán)重;
7、根據(jù)所述融合權(quán)重,將所述第一數(shù)字人圖像與其對(duì)應(yīng)的原始圖像進(jìn)行融合,生成所述驅(qū)動(dòng)語音數(shù)據(jù)對(duì)應(yīng)的數(shù)字人目標(biāo)視頻。
8、可選地,所述方法還包括所述目標(biāo)遮罩圖的預(yù)構(gòu)造步驟,包括:
9、對(duì)于每幀原始圖像,確定所述原始圖像中的人臉關(guān)鍵點(diǎn);
10、創(chuàng)建符合預(yù)設(shè)圖像屬性的空白圖像,并根據(jù)所述人臉關(guān)鍵點(diǎn),確定出所述空白圖像中的人臉區(qū)塊與非人臉區(qū)塊;
11、分別對(duì)所述空白圖像的人臉區(qū)塊與非人臉區(qū)塊設(shè)置像素值,生成第一遮罩圖;
12、對(duì)所述第一遮罩圖應(yīng)用高斯模糊作平滑處理,生成所述原始圖像對(duì)應(yīng)的第一數(shù)字人圖像的目標(biāo)遮罩圖。
13、可選地,所述方法還包括對(duì)所述原始圖像中的人臉關(guān)鍵點(diǎn)的更新步驟:
14、對(duì)所述原始圖像作人臉關(guān)鍵點(diǎn)檢測(cè),得到所述人臉關(guān)鍵點(diǎn)的位置信息;
15、根據(jù)所述人臉關(guān)鍵點(diǎn)的位置信息在水平方向上的最小值與最大值,確定人臉寬度;
16、根據(jù)預(yù)設(shè)調(diào)整比例系數(shù)與所述人臉寬度,將用于標(biāo)記人臉輪廓邊界的人臉關(guān)鍵點(diǎn)沿著非人臉區(qū)塊至人臉區(qū)塊的方向移動(dòng),得到更新后的人臉關(guān)鍵點(diǎn)。
17、可選地,所述將用于標(biāo)記人臉輪廓邊界的人臉關(guān)鍵點(diǎn)沿著非人臉區(qū)塊至人臉區(qū)塊的方向移動(dòng),包括:
18、將所述預(yù)設(shè)調(diào)整比例系數(shù)與所述人臉寬度的乘積確定為移動(dòng)距離;
19、根據(jù)所述移動(dòng)距離,將用于描述人臉左側(cè)邊界的人臉關(guān)鍵點(diǎn)沿水平方向向右移動(dòng),將用于描述人臉右側(cè)邊界的人臉關(guān)鍵點(diǎn)沿水平方向向左移動(dòng),并將用于描述下巴區(qū)域最低點(diǎn)的人臉關(guān)鍵點(diǎn)沿垂直方向向上移動(dòng)。
20、可選地,所述分別對(duì)所述空白圖像的人臉區(qū)塊與非人臉區(qū)塊設(shè)置像素值,生成第一遮罩圖,包括:
21、將所述人臉區(qū)塊的像素值設(shè)置為最大灰度值,并將所述非人臉區(qū)塊的像素值設(shè)置為最小灰度值。
22、可選地,所述分別對(duì)所述空白圖像的人臉區(qū)塊與非人臉區(qū)塊設(shè)置像素值,生成第一遮罩圖,包括:
23、將所述人臉區(qū)塊的像素值設(shè)置為第一三通道像素值,并將所述非人臉區(qū)塊設(shè)置為第二三通道像素值;所述第一三通像素值中每個(gè)通道值取最大值;所述第二三通道像素值中每個(gè)通道值取最小值。
24、可選地,所述對(duì)所述第一遮罩圖應(yīng)用高斯模糊作平滑處理,包括:
25、根據(jù)所述第一遮罩圖的圖像尺寸,確定高斯模糊處理的高斯核和標(biāo)準(zhǔn)差;
26、根據(jù)二維高斯分布公式,確定所述高斯核中每個(gè)位置的權(quán)重值;
27、針對(duì)所述第一遮罩圖中待處理的每個(gè)像素點(diǎn),根據(jù)所述高斯核中的每個(gè)權(quán)重值對(duì)所述像素點(diǎn)及其鄰域像素進(jìn)行卷積運(yùn)算,得到高斯模糊后所述像素點(diǎn)的像素值;所述鄰域像素根據(jù)所述高斯核的覆蓋范圍確定。
28、可選地,所述對(duì)所述第一遮罩圖應(yīng)用高斯模糊作平滑處理,包括:
29、檢測(cè)所述第一遮罩圖中的像素值突變區(qū)域;
30、對(duì)所述像素值突變區(qū)域的各像素點(diǎn)應(yīng)用高斯模糊作平滑處理。
31、可選地,所述方法還包括預(yù)設(shè)圖像屬性設(shè)置步驟,包括:
32、確定所述原始圖像中的人臉檢測(cè)框;
33、根據(jù)所述人臉檢測(cè)框標(biāo)識(shí)的圖像屬性,確定所述預(yù)設(shè)圖像屬性;所述預(yù)設(shè)圖像屬性包括圖像尺寸與分辨率。
34、可選地,所述方法還包括預(yù)設(shè)圖像屬性設(shè)置步驟,包括:
35、根據(jù)所述原始圖像的圖像屬性,確定所述預(yù)設(shè)圖像屬性;
36、在生成所述原始圖像對(duì)應(yīng)的第一數(shù)字人圖像的目標(biāo)遮罩圖后,所述方法還包括:
37、根據(jù)所述第一數(shù)字人圖像相對(duì)于所述原始圖像的位置信息,確定出所述第一數(shù)字人圖像對(duì)應(yīng)在所述目標(biāo)遮罩圖上的目標(biāo)區(qū)域;
38、利用所述目標(biāo)遮罩圖上所述目標(biāo)區(qū)域?qū)?yīng)的區(qū)域圖像,更新所述目標(biāo)遮罩圖。
39、可選地,所述對(duì)所述第一遮罩圖應(yīng)用高斯模糊作平滑處理,生成所述原始圖像對(duì)應(yīng)的第一數(shù)字人圖像的目標(biāo)遮罩圖,包括:
40、利用雙線性插值,將所述第一遮罩圖縮放至設(shè)定分辨率的第二遮罩圖;
41、對(duì)所述第二遮罩圖應(yīng)用高斯模糊作平滑處理,生成所述目標(biāo)遮罩圖。
42、可選地,在所述第一數(shù)字人圖像的目標(biāo)遮罩圖與第一數(shù)字人圖像的像素點(diǎn)不滿足一一對(duì)應(yīng)的情況下,所述方法還包括:
43、利用雙線性插值,將所述目標(biāo)遮罩圖的尺寸與分辨率調(diào)整至與所述第一數(shù)字人圖像相匹配,生成更新后的目標(biāo)遮罩圖。
44、可選地,所述根據(jù)所述融合權(quán)重,將所述第一數(shù)字人圖像與其對(duì)應(yīng)的原始圖像進(jìn)行融合,包括:
45、獲取所述第一數(shù)字人圖像中的每個(gè)像素點(diǎn)的第一像素值,并確定所述原始圖像上相同像素位置的第二像素值;
46、根據(jù)所述第一數(shù)字人圖像中每個(gè)像素點(diǎn)對(duì)應(yīng)的融合權(quán)重,將所述第一像素值與所述第二像素值進(jìn)行線性疊加,生成融合后的第二數(shù)字人圖像;
47、根據(jù)每幀原始圖像對(duì)應(yīng)的第二數(shù)字人圖像,生成所述數(shù)字人目標(biāo)視頻。
48、根據(jù)本技術(shù)實(shí)施例的第二方面,提供一種數(shù)字人圖像融合裝置,所述裝置包括:
49、數(shù)字人圖像生成模塊,用于針對(duì)數(shù)字人的原始視頻中的每幀原始圖像,生成匹配驅(qū)動(dòng)語音數(shù)據(jù)的第一數(shù)字人圖像;
50、目標(biāo)遮罩圖獲取模塊,用于獲取所述第一數(shù)字人圖像的目標(biāo)遮罩圖;所述目標(biāo)遮罩圖是根據(jù)所述第一數(shù)字人圖像對(duì)應(yīng)的原始圖像中的人臉關(guān)鍵點(diǎn)預(yù)先構(gòu)造的;
51、權(quán)重獲取模塊,用于根據(jù)所述目標(biāo)遮罩圖中各像素點(diǎn)的像素值,確定所述第一數(shù)字人圖像中每個(gè)像素點(diǎn)對(duì)應(yīng)的融合權(quán)重;
52、圖像融合模塊,用于根據(jù)所述融合權(quán)重,將所述第一數(shù)字人圖像與其對(duì)應(yīng)的原始圖像進(jìn)行融合,生成所述驅(qū)動(dòng)語音數(shù)據(jù)對(duì)應(yīng)的數(shù)字人目標(biāo)視頻。
53、可選地,所述裝置還包括目標(biāo)遮罩圖預(yù)構(gòu)造模塊,包括:
54、人臉關(guān)鍵點(diǎn)確定模塊,用于對(duì)于每幀原始圖像,確定所述原始圖像中的人臉關(guān)鍵點(diǎn);
55、空白圖像創(chuàng)建模塊,用于創(chuàng)建符合預(yù)設(shè)圖像屬性的空白圖像,并根據(jù)所述人臉關(guān)鍵點(diǎn),確定出所述空白圖像中的人臉區(qū)塊與非人臉區(qū)塊;
56、像素設(shè)置模塊,用于分別對(duì)所述空白圖像的人臉區(qū)塊與非人臉區(qū)塊設(shè)置像素值,生成第一遮罩圖;
57、高斯模糊處理模塊,用于對(duì)所述第一遮罩圖應(yīng)用高斯模糊作平滑處理,生成所述原始圖像對(duì)應(yīng)的第一數(shù)字人圖像的目標(biāo)遮罩圖。
58、可選地,所述裝置還包括:
59、對(duì)所述原始圖像作人臉關(guān)鍵點(diǎn)檢測(cè),得到所述人臉關(guān)鍵點(diǎn)的位置信息;
60、根據(jù)所述人臉關(guān)鍵點(diǎn)的位置信息在水平方向上的最小值與最大值,確定人臉寬度;
61、根據(jù)預(yù)設(shè)調(diào)整比例系數(shù)與所述人臉寬度,將用于標(biāo)記人臉輪廓邊界的人臉關(guān)鍵點(diǎn)沿著非人臉區(qū)塊至人臉區(qū)塊的方向移動(dòng),得到更新后的人臉關(guān)鍵點(diǎn)。
62、可選地,所述人臉關(guān)鍵點(diǎn)確定模塊在用于將用于標(biāo)記人臉輪廓邊界的人臉關(guān)鍵點(diǎn)沿著非人臉區(qū)塊至人臉區(qū)塊的方向移動(dòng)時(shí),包括:
63、將所述預(yù)設(shè)調(diào)整比例系數(shù)與所述人臉寬度的乘積確定為移動(dòng)距離;
64、根據(jù)所述移動(dòng)距離,將用于描述人臉左側(cè)邊界的人臉關(guān)鍵點(diǎn)沿水平方向向右移動(dòng),將用于描述人臉右側(cè)邊界的人臉關(guān)鍵點(diǎn)沿水平方向向左移動(dòng),并將用于描述下巴區(qū)域最低點(diǎn)的人臉關(guān)鍵點(diǎn)沿垂直方向向上移動(dòng)。
65、可選地,所述像素設(shè)置模塊具體用于:
66、將所述人臉區(qū)塊的像素值設(shè)置為最大灰度值,并將所述非人臉區(qū)塊的像素值設(shè)置為最小灰度值。
67、可選地,所述像素設(shè)置模塊具體用于:
68、將所述人臉區(qū)塊的像素值設(shè)置為第一三通道像素值,并將所述非人臉區(qū)塊設(shè)置為第二三通道像素值;所述第一三通像素值中每個(gè)通道值取最大值;所述第二三通道像素值中每個(gè)通道值取最小值。
69、可選地,所述高斯模糊處理模塊具體用于:
70、根據(jù)所述第一遮罩圖的圖像尺寸,確定高斯模糊處理的高斯核和標(biāo)準(zhǔn)差;
71、根據(jù)二維高斯分布公式,確定所述高斯核中每個(gè)位置的權(quán)重值;
72、針對(duì)所述第一遮罩圖中待處理的每個(gè)像素點(diǎn),根據(jù)所述高斯核中的每個(gè)權(quán)重值對(duì)所述像素點(diǎn)及其鄰域像素進(jìn)行卷積運(yùn)算,得到高斯模糊后所述像素點(diǎn)的像素值;所述鄰域像素根據(jù)所述高斯核的覆蓋范圍確定。
73、可選地,所述高斯模糊處理模塊具體用于:
74、檢測(cè)所述第一遮罩圖中的像素值突變區(qū)域;
75、對(duì)所述像素值突變區(qū)域的各像素點(diǎn)應(yīng)用高斯模糊作平滑處理。
76、可選地,所述目標(biāo)遮罩圖預(yù)構(gòu)造模塊還包括:
77、確定所述原始圖像中的人臉檢測(cè)框;
78、根據(jù)所述人臉檢測(cè)框標(biāo)識(shí)的圖像屬性,確定所述預(yù)設(shè)圖像屬性;所述預(yù)設(shè)圖像屬性包括圖像尺寸與分辨率。
79、可選地,所述目標(biāo)遮罩圖預(yù)構(gòu)造模塊還包括:
80、根據(jù)所述原始圖像的圖像屬性,確定所述預(yù)設(shè)圖像屬性;
81、在生成所述原始圖像對(duì)應(yīng)的第一數(shù)字人圖像的目標(biāo)遮罩圖后,所述方法還包括:
82、根據(jù)所述第一數(shù)字人圖像相對(duì)于所述原始圖像的位置信息,確定出所述第一數(shù)字人圖像對(duì)應(yīng)在所述目標(biāo)遮罩圖上的目標(biāo)區(qū)域;
83、利用所述目標(biāo)遮罩圖上所述目標(biāo)區(qū)域?qū)?yīng)的區(qū)域圖像,更新所述目標(biāo)遮罩圖。
84、可選地,所述高斯模糊處理模塊具體用于:
85、利用雙線性插值,將所述第一遮罩圖縮放至設(shè)定分辨率的第二遮罩圖;
86、對(duì)所述第二遮罩圖應(yīng)用高斯模糊作平滑處理,生成所述目標(biāo)遮罩圖。
87、可選地,所述裝置還包括:
88、在所述第一數(shù)字人圖像的目標(biāo)遮罩圖與第一數(shù)字人圖像的像素點(diǎn)不滿足一一對(duì)應(yīng)的情況下,利用雙線性插值,將所述目標(biāo)遮罩圖的尺寸與分辨率調(diào)整至與所述第一數(shù)字人圖像相匹配,生成更新后的目標(biāo)遮罩圖。
89、可選地,所述圖像融合模塊具體用于:
90、獲取所述第一數(shù)字人圖像中的每個(gè)像素點(diǎn)的第一像素值,并確定所述原始圖像上相同像素位置的第二像素值;
91、根據(jù)所述第一數(shù)字人圖像中每個(gè)像素點(diǎn)對(duì)應(yīng)的融合權(quán)重,將所述第一像素值與所述第二像素值進(jìn)行線性疊加,生成融合后的第二數(shù)字人圖像;
92、根據(jù)每幀原始圖像對(duì)應(yīng)的所述第二數(shù)字人圖像,生成所述數(shù)字人目標(biāo)視頻。
93、根據(jù)本技術(shù)實(shí)施例的第三方面,提供一種電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器,用于通過調(diào)用所述計(jì)算機(jī)程序,執(zhí)行上述數(shù)字人圖像融合方法。
94、根據(jù)本技術(shù)實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述數(shù)字人圖像融合方法。
95、本技術(shù)實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
96、在本技術(shù)提供的技術(shù)方案中,預(yù)先根據(jù)數(shù)字人的原始視頻中每幀原始圖像上的人臉關(guān)鍵點(diǎn)信息,將該幀原始圖像與其對(duì)應(yīng)的匹配驅(qū)動(dòng)語音數(shù)據(jù)的數(shù)字人圖像進(jìn)行融合時(shí)所需的邊界融合信息以遮罩圖的形式存儲(chǔ),從而在將匹配驅(qū)動(dòng)語音數(shù)據(jù)的第一數(shù)字人圖像與相同幀的原始圖像進(jìn)行融合時(shí),直接應(yīng)用預(yù)存儲(chǔ)的邊界融合信息實(shí)現(xiàn)圖像融合,實(shí)現(xiàn)了融合邊界過渡平滑自然,生成了實(shí)時(shí)高質(zhì)量的數(shù)字人目標(biāo)視頻的視覺效果,基于該預(yù)先存儲(chǔ)的邊界融合信息降低了融合算法的復(fù)雜度,提高了視頻幀的處理速度,從而實(shí)現(xiàn)了視頻幀實(shí)時(shí)運(yùn)行。