本申請(qǐng)涉及人工智能,尤其涉及一種篡改視頻識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著生成式深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),深度換臉技術(shù)(deepfake)利用生成式對(duì)抗網(wǎng)絡(luò)(gans)將視頻序列中的個(gè)人面部替換為另一個(gè)對(duì)手的合成面部,而這涉及到侵犯隱私和身份。
2、現(xiàn)有的媒體取證技術(shù)利用信號(hào)級(jí)線索(雙重jpeg壓縮)、物理層信息或語義級(jí)一致性(元數(shù)據(jù)一致性)判斷視頻是否被deepfake篡改。然而,這種方法在識(shí)別更通用的deepfake視頻時(shí)并不足夠可靠或有效,因?yàn)楣粽呖赡軙?huì)修改元數(shù)據(jù),提供有價(jià)值的信息來驗(yàn)證圖像和視頻的真實(shí)性,使其變得無用。同時(shí),當(dāng)媒體資產(chǎn)被上傳到社交網(wǎng)絡(luò)時(shí),元數(shù)據(jù)經(jīng)常被省略。因此,依賴元數(shù)據(jù)一致性進(jìn)行視頻檢測或身份驗(yàn)證,已不再合適,迫切需要新的檢測技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種篡改視頻識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以解決依賴元數(shù)據(jù)一致性進(jìn)行視頻檢測或身份驗(yàn)證,無法識(shí)別deepfake視頻的缺陷。
2、第一方面,本申請(qǐng)實(shí)施例提供一種篡改視頻識(shí)別方法,包括:
3、獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像;
4、輸入所述目標(biāo)區(qū)域圖像至預(yù)先訓(xùn)練完成的目標(biāo)區(qū)域檢測模型,得到所述目標(biāo)區(qū)域檢測模型輸出的檢測數(shù)據(jù),所述檢測數(shù)據(jù)用于表征所有所述幀圖像中目標(biāo)區(qū)域處于預(yù)設(shè)狀態(tài)的概率;
5、輸入所述檢測數(shù)據(jù)至預(yù)先訓(xùn)練完成的篡改視頻識(shí)別模型,得到所述篡改視頻識(shí)別模型輸出的識(shí)別結(jié)果,所述篡改視頻識(shí)別模型用于根據(jù)所述檢測數(shù)據(jù)識(shí)別所述待識(shí)別視頻中是否包含預(yù)設(shè)生理信號(hào),得到所述識(shí)別結(jié)果。
6、在一個(gè)實(shí)施例中,所述目標(biāo)區(qū)域檢測模型包括第一特征提取層、第二特征提取層和輸出層;
7、所述第一特征提取層用于提取每一所述目標(biāo)區(qū)域的空間信息特征,將所述空間信息特征輸入至所述第二特征提取層;
8、所述第二特征提取層用于根據(jù)所述空間信息特征,得到每一所述目標(biāo)區(qū)域處于預(yù)設(shè)狀態(tài)的概率數(shù)據(jù);
9、所述輸出層用于匯總所述概率數(shù)據(jù),得到所述檢測數(shù)據(jù)。
10、在一個(gè)實(shí)施例中,所述第一特征提取層包括卷積神經(jīng)網(wǎng)絡(luò),所述第二特征提取層包括長短期記憶遞歸神經(jīng)網(wǎng)絡(luò),所述輸出層包括全連接神經(jīng)網(wǎng)絡(luò)。
11、在一個(gè)實(shí)施例中,所述篡改視頻識(shí)別模型由樣本檢測數(shù)據(jù)對(duì)分類器訓(xùn)練得到,訓(xùn)練步驟包括:
12、基于預(yù)設(shè)的幀速率對(duì)所述樣本檢測數(shù)據(jù)進(jìn)行預(yù)處理,得到訓(xùn)練集;
13、基于所述訓(xùn)練集對(duì)所述分類器進(jìn)行訓(xùn)練,確定所述分類器的權(quán)重,得到所述篡改視頻識(shí)別模型。
14、在一個(gè)實(shí)施例中,所述基于預(yù)設(shè)的幀速率對(duì)所述樣本檢測數(shù)據(jù)進(jìn)行預(yù)處理,得到訓(xùn)練集,包括:
15、基于預(yù)設(shè)的幀速率對(duì)所述樣本檢測數(shù)據(jù)進(jìn)行重采樣,得到樣本檢測重采樣數(shù)據(jù);
16、基于預(yù)設(shè)的滑動(dòng)窗口對(duì)所述樣本檢測重采樣數(shù)據(jù)進(jìn)行修整,得到所述訓(xùn)練集。
17、在一個(gè)實(shí)施例中,所述分類器包括多個(gè)不同架構(gòu)的語義分割的全卷積網(wǎng)絡(luò)fcn,輸入所述檢測數(shù)據(jù)至每一所述fcn,基于少數(shù)服從多數(shù)原則,將多數(shù)所述fcn輸出的相同預(yù)測結(jié)果作為所述識(shí)別結(jié)果。
18、在一個(gè)實(shí)施例中,所述獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像,包括:
19、獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像;
20、識(shí)別所述幀圖像中的人臉,基于識(shí)別出的人臉對(duì)所述幀圖像進(jìn)行對(duì)齊以使得每一所述幀圖像中的人臉的一致性;
21、對(duì)所述幀圖像中的目標(biāo)區(qū)域進(jìn)行裁剪,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像。
22、第二方面,本申請(qǐng)實(shí)施例還提供了一種篡改視頻識(shí)別裝置,包括:
23、獲取模塊,用于獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像;
24、檢測模塊,用于輸入所述目標(biāo)區(qū)域圖像至預(yù)先訓(xùn)練完成的目標(biāo)區(qū)域檢測模型,得到所述目標(biāo)區(qū)域檢測模型輸出的檢測數(shù)據(jù),所述檢測數(shù)據(jù)用于表征所有所述幀圖像中目標(biāo)區(qū)域處于預(yù)設(shè)狀態(tài)的概率;
25、識(shí)別模塊,用于輸入所述檢測數(shù)據(jù)至預(yù)先訓(xùn)練完成的篡改視頻識(shí)別模型,得到所述篡改視頻識(shí)別模型輸出的識(shí)別結(jié)果,所述篡改視頻識(shí)別模型用于根據(jù)所述檢測數(shù)據(jù)識(shí)別所述待識(shí)別視頻中是否包含預(yù)設(shè)生理信號(hào),得到所述識(shí)別結(jié)果。
26、第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述篡改視頻識(shí)別方法。
27、第四方面,本申請(qǐng)實(shí)施例還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述篡改視頻識(shí)別方法。
28、本申請(qǐng)實(shí)施例提供的篡改視頻識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像;輸入所述目標(biāo)區(qū)域圖像至預(yù)先訓(xùn)練完成的目標(biāo)區(qū)域檢測模型,得到所述目標(biāo)區(qū)域檢測模型輸出的檢測數(shù)據(jù),所述檢測數(shù)據(jù)用于表征所有所述幀圖像中目標(biāo)區(qū)域處于預(yù)設(shè)狀態(tài)的概率;輸入所述檢測數(shù)據(jù)至預(yù)先訓(xùn)練完成的篡改視頻識(shí)別模型,得到所述篡改視頻識(shí)別模型輸出的識(shí)別結(jié)果,所述篡改視頻識(shí)別模型用于根據(jù)所述檢測數(shù)據(jù)識(shí)別所述待識(shí)別視頻中是否包含預(yù)設(shè)生理信號(hào),得到所述識(shí)別結(jié)果。本申請(qǐng)實(shí)施例通過目標(biāo)區(qū)域檢測模型和篡改視頻識(shí)別模型識(shí)別視頻中是否存在預(yù)設(shè)生理信號(hào)來判斷視頻是否為被篡改視頻,預(yù)設(shè)生理信號(hào)是被篡改視頻中不包含的特定生理信號(hào),無需根據(jù)元數(shù)據(jù)一致性來識(shí)別視頻,提高了篡改視頻的識(shí)別可靠性。
1.一種篡改視頻識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的篡改視頻識(shí)別方法,其特征在于,所述目標(biāo)區(qū)域檢測模型包括第一特征提取層、第二特征提取層和輸出層;
3.根據(jù)權(quán)利要求2所述的篡改視頻識(shí)別方法,其特征在于,所述第一特征提取層包括卷積神經(jīng)網(wǎng)絡(luò),所述第二特征提取層包括長短期記憶遞歸神經(jīng)網(wǎng)絡(luò),所述輸出層包括全連接神經(jīng)網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1所述的篡改視頻識(shí)別方法,其特征在于,所述篡改視頻識(shí)別模型由樣本檢測數(shù)據(jù)對(duì)分類器訓(xùn)練得到,訓(xùn)練步驟包括:
5.根據(jù)權(quán)利要求4所述的篡改視頻識(shí)別方法,其特征在于,所述基于預(yù)設(shè)的幀速率對(duì)所述樣本檢測數(shù)據(jù)進(jìn)行預(yù)處理,得到訓(xùn)練集,包括:
6.根據(jù)權(quán)利要求4所述的篡改視頻識(shí)別方法,其特征在于,所述分類器包括多個(gè)不同架構(gòu)的語義分割的全卷積網(wǎng)絡(luò)fcn,輸入所述檢測數(shù)據(jù)至每一所述fcn,基于少數(shù)服從多數(shù)原則,將多數(shù)所述fcn輸出的相同預(yù)測結(jié)果作為所述識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求1所述的篡改視頻識(shí)別方法,其特征在于,所述獲取待識(shí)別視頻并從所述待識(shí)別視頻中抽取幀圖像,得到每一所述幀圖像中的目標(biāo)區(qū)域圖像,包括:
8.一種篡改視頻識(shí)別裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述篡改視頻識(shí)別方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述篡改視頻識(shí)別方法。