本發(fā)明屬于計(jì)算機(jī)軟件,涉及目標(biāo)檢測(cè)、動(dòng)作識(shí)別、圖像生成和數(shù)據(jù)增強(qiáng)技術(shù),具體為一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)統(tǒng)一架構(gòu)。
背景技術(shù):
::1、人-物交互檢測(cè)(human-object?interaction?detection,hoidetection)是一種計(jì)算機(jī)視覺任務(wù),其核心目標(biāo)是利用深度學(xué)習(xí)(deep?learning)和模式識(shí)別(patternrecognition)技術(shù),在視覺輸入如圖像和視頻中自動(dòng)識(shí)別并分析人類主體與物體客體之間的交互行為。這個(gè)過程涉及到從大量數(shù)據(jù)中學(xué)習(xí)特征表示、空間關(guān)系和行為動(dòng)態(tài),并要求系統(tǒng)具備對(duì)上下文信息的深刻理解。hoi檢測(cè)的難點(diǎn)在于處理視覺數(shù)據(jù)的不確定性,如遮擋、視角變化和動(dòng)態(tài)背景。成功的hoi檢測(cè)模型能夠?yàn)橹悄鼙O(jiān)控、自動(dòng)內(nèi)容分析和人機(jī)交互接口等領(lǐng)域帶來顯著的應(yīng)用價(jià)值。2、人-物交互檢測(cè)領(lǐng)域視覺數(shù)據(jù)的不確定性問題給hoi檢測(cè)器的訓(xùn)練帶來了影響,如圖1所示的數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L(zhǎng)尾問題以及標(biāo)注不完整或缺失的漏標(biāo)問題,圖1的(a)(b)中綠色表示數(shù)據(jù)集中已經(jīng)標(biāo)注的標(biāo)簽,紅色表示遺漏的標(biāo)注;(a)中“<human–ride-horse>”即“人-騎-馬”這個(gè)三元組被標(biāo)注,但是“<human-sit?on-horse>”即“人-坐在-馬上”這個(gè)三元組標(biāo)注被遺漏;(b)中“<human–sit?on-bed>”即“人-坐在-床上”這個(gè)三元組被標(biāo)注,但是“<human–watch-tv>”即“人-看-電視”被遺漏。圖1的(c)(d)分別展示了hico-det數(shù)據(jù)集和vcoco數(shù)據(jù)集中每個(gè)人-物交互對(duì)的數(shù)量,橫軸表示類別,縱軸表示數(shù)量;從結(jié)果可以看出這些數(shù)據(jù)集長(zhǎng)尾問題比較嚴(yán)重,頭部一些類別數(shù)量很多,但是尾部只有個(gè)位數(shù)的數(shù)據(jù)。這些問題都限制了傳統(tǒng)hoi檢測(cè)模型性能的進(jìn)一步提升。3、擴(kuò)散模型(diffusion?model)是一類生成模型,stable?diffusion是一種基于擴(kuò)散模型的文本到圖像生成模型,它能夠根據(jù)用戶提供的文本描述生成高質(zhì)量、逼真的圖像。stable?diffusion利用變分自編碼器(vae)和u型網(wǎng)絡(luò)(u-net)的結(jié)合來進(jìn)行圖像生成,通過在潛在空間中進(jìn)行迭代的反向擴(kuò)散過程,逐步從噪聲生成細(xì)節(jié)豐富的圖像。stablediffusion的特點(diǎn)是運(yùn)行穩(wěn)定、訓(xùn)練速度快以及圖像生成多樣,這使其在藝術(shù)創(chuàng)作、游戲設(shè)計(jì)、虛擬現(xiàn)實(shí)等領(lǐng)域具有廣泛的應(yīng)用潛力。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明針對(duì)當(dāng)前人-物交互(human-object?interaction,hoi)檢測(cè)領(lǐng)域所面臨的挑戰(zhàn),尤其是針對(duì)現(xiàn)有hoi數(shù)據(jù)集的局限性,包括數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L(zhǎng)尾問題以及標(biāo)注不完整或遺漏標(biāo)注問題等障礙,研究如何基于具有豐富知識(shí)積累的文生圖模型stable?diffusion,提出一種能夠緩解上述問題的新解決方案。2、本發(fā)明的技術(shù)方案為:一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)方法,由hoi檢測(cè)器與文生圖模型stable?diffusion構(gòu)建一個(gè)聯(lián)合訓(xùn)練框架來對(duì)hoi檢測(cè)器進(jìn)行訓(xùn)練,在推理階段去除stable?diffusion,用經(jīng)過聯(lián)合訓(xùn)練的hoi檢測(cè)器進(jìn)行人-物交互檢測(cè);所述hoi檢測(cè)器為基于detr的hoi檢測(cè)器,聯(lián)合訓(xùn)練框架中,構(gòu)建循環(huán)一致性網(wǎng)絡(luò),利用stable?diffusion對(duì)hoi檢測(cè)器提取的特征進(jìn)行反向操作,來重建恢復(fù)原始圖像的視覺內(nèi)容,同時(shí)通過知識(shí)蒸餾將stable?diffusion的特征知識(shí)傳遞給hoi檢測(cè)器的編碼器,并在訓(xùn)練中通過stable?diffusion對(duì)人-物交互數(shù)據(jù)進(jìn)行標(biāo)簽補(bǔ)全和樣本擴(kuò)增;聯(lián)合訓(xùn)練框架的訓(xùn)練包括如下:3、1)循環(huán)一致性網(wǎng)絡(luò):hoi檢測(cè)器接收輸入圖像,經(jīng)transformer解碼器得到的輸出結(jié)果作為每個(gè)人-物交互對(duì)的特征向量;在detr的二部圖匹配過程中,將特征向量中與真實(shí)標(biāo)簽匹配上的向量稱作積極嵌入,將積極嵌入作為stable?diffusion的提示詞嵌入,生成對(duì)應(yīng)原始輸入圖像的重建圖像,將重建圖像與原始輸入圖像的l2損失函數(shù)作為循環(huán)一致性損失cycle?loss:4、lcycle=||diff(hoidet(i))-i||25、diff表示stables?diffusion,hoidet表示hoi檢測(cè)器,lcycle損失通過梯度的反向傳播,以優(yōu)化hoi檢測(cè)器所提取的人-物交互對(duì)實(shí)例特征;6、2)知識(shí)蒸餾與遷移:將stable?diffusion中的u-net的輸出fs用來蒸餾hoi檢測(cè)器中編碼器的輸出fd,其中u-net作為教師模型,編碼器作為學(xué)生模型,通過在訓(xùn)練過程中施加損失函數(shù),使編碼器學(xué)習(xí)u-net的輸出特征,訓(xùn)練中對(duì)編碼器的輸出做插值處理以對(duì)齊u-net的輸出特征,知識(shí)蒸餾的損失函數(shù)為l1損失:7、ldistill=||fs-fd||1;8、3)標(biāo)簽補(bǔ)全:對(duì)于訓(xùn)練集的每張圖像,首先通過預(yù)訓(xùn)練好的hoi檢測(cè)器來預(yù)測(cè)人-物交互對(duì),即預(yù)測(cè)標(biāo)簽,并將預(yù)測(cè)標(biāo)簽對(duì)應(yīng)的自然語言的句子與圖像一起輸入stablediffusion,得到每個(gè)人-物交互對(duì)的預(yù)測(cè)標(biāo)簽損失li,并將每張圖像與真實(shí)標(biāo)簽送入stable?diffusion,得到真實(shí)標(biāo)簽的損失lgt,然后將預(yù)測(cè)標(biāo)簽中損失不超過真實(shí)標(biāo)簽損失一定量的標(biāo)簽作為偽標(biāo)簽,即滿足li<lgt+η條件的標(biāo)簽放入訓(xùn)練集中,用于緩解標(biāo)簽漏標(biāo)問題,參與下一輪的訓(xùn)練,η為控制偽標(biāo)簽選取的閾值;9、4)樣本擴(kuò)增:首先將數(shù)據(jù)集中圖片不足10張的類別選出來,作為尾部類,然后對(duì)于每一個(gè)尾部類,訓(xùn)練一個(gè)dreambooth模型,以學(xué)習(xí)每個(gè)尾部類中的共有概念,然后使用這些模型,推理生成類似概念的圖像,其中每個(gè)尾部類別都生成至少10張圖像,生成的圖像用于樣本擴(kuò)增;10、5)聯(lián)合訓(xùn)練框架的訓(xùn)練:聯(lián)合訓(xùn)練框架包括三部分損失,分別是hoi檢測(cè)器原本的損失ldetect,循環(huán)一致性損失lcycle以及知識(shí)蒸餾損失ldistill,聯(lián)合訓(xùn)練框架整體的損失函數(shù)為這三部分的加權(quán)和,即:11、l=λdetectldetect+λcyclelcycle+λdistillldistill12、λdetect,λcycle以及λdistill分別表示這三部分損失的權(quán)重。13、本發(fā)明提出了一個(gè)創(chuàng)新的人-物交互檢測(cè)訓(xùn)練模型,該模型巧妙地將hoi檢測(cè)器與擴(kuò)散模型stable?diffusion融合,形成一個(gè)綜合的聯(lián)合訓(xùn)練框架。這種結(jié)合使得檢測(cè)器能夠直接從擴(kuò)散模型中學(xué)習(xí)和繼承知識(shí),從而顯著提升其在實(shí)際應(yīng)用中的檢測(cè)性能。由于引入的擴(kuò)散模型都是即插即用(plug-and-play)的模塊,所以在推理階段可以去除所有擴(kuò)散模型模塊,這極大的加速了模型的推理過程。此外,利用擴(kuò)散模型強(qiáng)大的生成能力,本發(fā)明還創(chuàng)新性地解決了hoi數(shù)據(jù)集中的遺漏標(biāo)注問題和長(zhǎng)尾分布問題,通過生成豐富多樣的數(shù)據(jù)樣本來補(bǔ)充和平衡現(xiàn)有數(shù)據(jù)集,這不僅增強(qiáng)了模型對(duì)稀有交互情景的識(shí)別能力,而且提高了整體檢測(cè)模型的魯棒性和泛化能力。14、stable?diffusion因其龐大的網(wǎng)絡(luò)結(jié)構(gòu)和對(duì)大規(guī)模數(shù)據(jù)集的深度訓(xùn)練,成為了一個(gè)擁有廣泛知識(shí)和理解能力的強(qiáng)大工具。本發(fā)明將stable?diffusion整合到人-物交互檢測(cè)模型中,借此傳遞豐富的視覺和語義信息。這種融合方法不僅使得檢測(cè)模型能夠繼承擴(kuò)散模型的知識(shí)庫,還能夠顯著增強(qiáng)模型對(duì)復(fù)雜場(chǎng)景中人與物體交互的理解和識(shí)別能力。此外,通過這種方式,檢測(cè)模型的泛化能力得到提升,它在面對(duì)多樣化和未見過的交互場(chǎng)景時(shí),能夠更加準(zhǔn)確和有效地進(jìn)行預(yù)測(cè),從而大幅度提高了人-物交互檢測(cè)的整體性能和可靠性。本發(fā)明與現(xiàn)有技術(shù)相比有如下優(yōu)點(diǎn)。15、增強(qiáng)數(shù)據(jù)質(zhì)量和多樣性:stable?diffusion可以生成高質(zhì)量的圖像數(shù)據(jù),通過這種方式可以增加hoi數(shù)據(jù)集中的樣本多樣性和數(shù)量。這對(duì)于平衡數(shù)據(jù)集中的長(zhǎng)尾分布特別有用,因?yàn)榭梢陨赡切┰诂F(xiàn)有數(shù)據(jù)集中出現(xiàn)頻率較低的交互場(chǎng)景,從而提高模型對(duì)這些稀有情況的識(shí)別能力。16、改善模型泛化能力:stable?diffusion通過學(xué)習(xí)大規(guī)模圖像數(shù)據(jù)集獲得的知識(shí)可以使hoi檢測(cè)模型獲得更豐富的視覺表示。這樣的知識(shí)遷移有助于提高模型的泛化能力,使其更好地處理現(xiàn)實(shí)世界中的多變和未見過的場(chǎng)景。即使面對(duì)復(fù)雜和多樣的真實(shí)世界數(shù)據(jù),模型也能保持較高的檢測(cè)精度。17、補(bǔ)充不足的標(biāo)注信息:stable?diffusion的生成能力可以用來補(bǔ)充數(shù)據(jù)集中的漏標(biāo)問題。對(duì)于那些缺失標(biāo)簽的樣本,可以通過擴(kuò)散模型的損失函數(shù)來篩選hoi檢測(cè)器生成的預(yù)測(cè)標(biāo)簽,并將其作為偽標(biāo)簽加入訓(xùn)練集以彌補(bǔ)缺失的標(biāo)簽。這種方式可以增加訓(xùn)練數(shù)據(jù)的完整性,有助于訓(xùn)練出表現(xiàn)更加出色的hoi檢測(cè)器。當(dāng)前第1頁12當(dāng)前第1頁12