本發(fā)明屬于計算機軟件,涉及目標檢測、動作識別、圖像生成和數(shù)據(jù)增強技術(shù),具體為一種聯(lián)合檢測與生成的循環(huán)一致性人-物交互檢測統(tǒng)一架構(gòu)。
背景技術(shù):
::1、人-物交互檢測(human-object?interaction?detection,hoidetection)是一種計算機視覺任務(wù),其核心目標是利用深度學習(deep?learning)和模式識別(patternrecognition)技術(shù),在視覺輸入如圖像和視頻中自動識別并分析人類主體與物體客體之間的交互行為。這個過程涉及到從大量數(shù)據(jù)中學習特征表示、空間關(guān)系和行為動態(tài),并要求系統(tǒng)具備對上下文信息的深刻理解。hoi檢測的難點在于處理視覺數(shù)據(jù)的不確定性,如遮擋、視角變化和動態(tài)背景。成功的hoi檢測模型能夠為智能監(jiān)控、自動內(nèi)容分析和人機交互接口等領(lǐng)域帶來顯著的應(yīng)用價值。2、人-物交互檢測領(lǐng)域視覺數(shù)據(jù)的不確定性問題給hoi檢測器的訓練帶來了影響,如圖1所示的數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L尾問題以及標注不完整或缺失的漏標問題,圖1的(a)(b)中綠色表示數(shù)據(jù)集中已經(jīng)標注的標簽,紅色表示遺漏的標注;(a)中“<human–ride-horse>”即“人-騎-馬”這個三元組被標注,但是“<human-sit?on-horse>”即“人-坐在-馬上”這個三元組標注被遺漏;(b)中“<human–sit?on-bed>”即“人-坐在-床上”這個三元組被標注,但是“<human–watch-tv>”即“人-看-電視”被遺漏。圖1的(c)(d)分別展示了hico-det數(shù)據(jù)集和vcoco數(shù)據(jù)集中每個人-物交互對的數(shù)量,橫軸表示類別,縱軸表示數(shù)量;從結(jié)果可以看出這些數(shù)據(jù)集長尾問題比較嚴重,頭部一些類別數(shù)量很多,但是尾部只有個位數(shù)的數(shù)據(jù)。這些問題都限制了傳統(tǒng)hoi檢測模型性能的進一步提升。3、擴散模型(diffusion?model)是一類生成模型,stable?diffusion是一種基于擴散模型的文本到圖像生成模型,它能夠根據(jù)用戶提供的文本描述生成高質(zhì)量、逼真的圖像。stable?diffusion利用變分自編碼器(vae)和u型網(wǎng)絡(luò)(u-net)的結(jié)合來進行圖像生成,通過在潛在空間中進行迭代的反向擴散過程,逐步從噪聲生成細節(jié)豐富的圖像。stablediffusion的特點是運行穩(wěn)定、訓練速度快以及圖像生成多樣,這使其在藝術(shù)創(chuàng)作、游戲設(shè)計、虛擬現(xiàn)實等領(lǐng)域具有廣泛的應(yīng)用潛力。技術(shù)實現(xiàn)思路1、本發(fā)明針對當前人-物交互(human-object?interaction,hoi)檢測領(lǐng)域所面臨的挑戰(zhàn),尤其是針對現(xiàn)有hoi數(shù)據(jù)集的局限性,包括數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L尾問題以及標注不完整或遺漏標注問題等障礙,研究如何基于具有豐富知識積累的文生圖模型stable?diffusion,提出一種能夠緩解上述問題的新解決方案。2、本發(fā)明的技術(shù)方案為:一種聯(lián)合檢測與生成的循環(huán)一致性人-物交互檢測方法,由hoi檢測器與文生圖模型stable?diffusion構(gòu)建一個聯(lián)合訓練框架來對hoi檢測器進行訓練,在推理階段去除stable?diffusion,用經(jīng)過聯(lián)合訓練的hoi檢測器進行人-物交互檢測;所述hoi檢測器為基于detr的hoi檢測器,聯(lián)合訓練框架中,構(gòu)建循環(huán)一致性網(wǎng)絡(luò),利用stable?diffusion對hoi檢測器提取的特征進行反向操作,來重建恢復原始圖像的視覺內(nèi)容,同時通過知識蒸餾將stable?diffusion的特征知識傳遞給hoi檢測器的編碼器,并在訓練中通過stable?diffusion對人-物交互數(shù)據(jù)進行標簽補全和樣本擴增;聯(lián)合訓練框架的訓練包括如下:3、1)循環(huán)一致性網(wǎng)絡(luò):hoi檢測器接收輸入圖像,經(jīng)transformer解碼器得到的輸出結(jié)果作為每個人-物交互對的特征向量;在detr的二部圖匹配過程中,將特征向量中與真實標簽匹配上的向量稱作積極嵌入,將積極嵌入作為stable?diffusion的提示詞嵌入,生成對應(yīng)原始輸入圖像的重建圖像,將重建圖像與原始輸入圖像的l2損失函數(shù)作為循環(huán)一致性損失cycle?loss:4、lcycle=||diff(hoidet(i))-i||25、diff表示stables?diffusion,hoidet表示hoi檢測器,lcycle損失通過梯度的反向傳播,以優(yōu)化hoi檢測器所提取的人-物交互對實例特征;6、2)知識蒸餾與遷移:將stable?diffusion中的u-net的輸出fs用來蒸餾hoi檢測器中編碼器的輸出fd,其中u-net作為教師模型,編碼器作為學生模型,通過在訓練過程中施加損失函數(shù),使編碼器學習u-net的輸出特征,訓練中對編碼器的輸出做插值處理以對齊u-net的輸出特征,知識蒸餾的損失函數(shù)為l1損失:7、ldistill=||fs-fd||1;8、3)標簽補全:對于訓練集的每張圖像,首先通過預訓練好的hoi檢測器來預測人-物交互對,即預測標簽,并將預測標簽對應(yīng)的自然語言的句子與圖像一起輸入stablediffusion,得到每個人-物交互對的預測標簽損失li,并將每張圖像與真實標簽送入stable?diffusion,得到真實標簽的損失lgt,然后將預測標簽中損失不超過真實標簽損失一定量的標簽作為偽標簽,即滿足li<lgt+η條件的標簽放入訓練集中,用于緩解標簽漏標問題,參與下一輪的訓練,η為控制偽標簽選取的閾值;9、4)樣本擴增:首先將數(shù)據(jù)集中圖片不足10張的類別選出來,作為尾部類,然后對于每一個尾部類,訓練一個dreambooth模型,以學習每個尾部類中的共有概念,然后使用這些模型,推理生成類似概念的圖像,其中每個尾部類別都生成至少10張圖像,生成的圖像用于樣本擴增;10、5)聯(lián)合訓練框架的訓練:聯(lián)合訓練框架包括三部分損失,分別是hoi檢測器原本的損失ldetect,循環(huán)一致性損失lcycle以及知識蒸餾損失ldistill,聯(lián)合訓練框架整體的損失函數(shù)為這三部分的加權(quán)和,即:11、l=λdetectldetect+λcyclelcycle+λdistillldistill12、λdetect,λcycle以及λdistill分別表示這三部分損失的權(quán)重。13、本發(fā)明提出了一個創(chuàng)新的人-物交互檢測訓練模型,該模型巧妙地將hoi檢測器與擴散模型stable?diffusion融合,形成一個綜合的聯(lián)合訓練框架。這種結(jié)合使得檢測器能夠直接從擴散模型中學習和繼承知識,從而顯著提升其在實際應(yīng)用中的檢測性能。由于引入的擴散模型都是即插即用(plug-and-play)的模塊,所以在推理階段可以去除所有擴散模型模塊,這極大的加速了模型的推理過程。此外,利用擴散模型強大的生成能力,本發(fā)明還創(chuàng)新性地解決了hoi數(shù)據(jù)集中的遺漏標注問題和長尾分布問題,通過生成豐富多樣的數(shù)據(jù)樣本來補充和平衡現(xiàn)有數(shù)據(jù)集,這不僅增強了模型對稀有交互情景的識別能力,而且提高了整體檢測模型的魯棒性和泛化能力。14、stable?diffusion因其龐大的網(wǎng)絡(luò)結(jié)構(gòu)和對大規(guī)模數(shù)據(jù)集的深度訓練,成為了一個擁有廣泛知識和理解能力的強大工具。本發(fā)明將stable?diffusion整合到人-物交互檢測模型中,借此傳遞豐富的視覺和語義信息。這種融合方法不僅使得檢測模型能夠繼承擴散模型的知識庫,還能夠顯著增強模型對復雜場景中人與物體交互的理解和識別能力。此外,通過這種方式,檢測模型的泛化能力得到提升,它在面對多樣化和未見過的交互場景時,能夠更加準確和有效地進行預測,從而大幅度提高了人-物交互檢測的整體性能和可靠性。本發(fā)明與現(xiàn)有技術(shù)相比有如下優(yōu)點。15、增強數(shù)據(jù)質(zhì)量和多樣性:stable?diffusion可以生成高質(zhì)量的圖像數(shù)據(jù),通過這種方式可以增加hoi數(shù)據(jù)集中的樣本多樣性和數(shù)量。這對于平衡數(shù)據(jù)集中的長尾分布特別有用,因為可以生成那些在現(xiàn)有數(shù)據(jù)集中出現(xiàn)頻率較低的交互場景,從而提高模型對這些稀有情況的識別能力。16、改善模型泛化能力:stable?diffusion通過學習大規(guī)模圖像數(shù)據(jù)集獲得的知識可以使hoi檢測模型獲得更豐富的視覺表示。這樣的知識遷移有助于提高模型的泛化能力,使其更好地處理現(xiàn)實世界中的多變和未見過的場景。即使面對復雜和多樣的真實世界數(shù)據(jù),模型也能保持較高的檢測精度。17、補充不足的標注信息:stable?diffusion的生成能力可以用來補充數(shù)據(jù)集中的漏標問題。對于那些缺失標簽的樣本,可以通過擴散模型的損失函數(shù)來篩選hoi檢測器生成的預測標簽,并將其作為偽標簽加入訓練集以彌補缺失的標簽。這種方式可以增加訓練數(shù)據(jù)的完整性,有助于訓練出表現(xiàn)更加出色的hoi檢測器。當前第1頁12當前第1頁12