一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)方法

文檔序號(hào)：39724493發(fā)布日期：2024-10-22 13:21閱讀：43來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)軟件，涉及目標(biāo)檢測(cè)、動(dòng)作識(shí)別、圖像生成和數(shù)據(jù)增強(qiáng)技術(shù)，具體為一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)統(tǒng)一架構(gòu)。
背景技術(shù)：
：：1、人-物交互檢測(cè)(human-object?interaction?detection,hoidetection)是一種計(jì)算機(jī)視覺任務(wù)，其核心目標(biāo)是利用深度學(xué)習(xí)(deep?learning)和模式識(shí)別(patternrecognition)技術(shù)，在視覺輸入如圖像和視頻中自動(dòng)識(shí)別并分析人類主體與物體客體之間的交互行為。這個(gè)過程涉及到從大量數(shù)據(jù)中學(xué)習(xí)特征表示、空間關(guān)系和行為動(dòng)態(tài)，并要求系統(tǒng)具備對(duì)上下文信息的深刻理解。hoi檢測(cè)的難點(diǎn)在于處理視覺數(shù)據(jù)的不確定性，如遮擋、視角變化和動(dòng)態(tài)背景。成功的hoi檢測(cè)模型能夠?yàn)橹悄鼙O(jiān)控、自動(dòng)內(nèi)容分析和人機(jī)交互接口等領(lǐng)域帶來顯著的應(yīng)用價(jià)值。2、人-物交互檢測(cè)領(lǐng)域視覺數(shù)據(jù)的不確定性問題給hoi檢測(cè)器的訓(xùn)練帶來了影響，如圖1所示的數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L(zhǎng)尾問題以及標(biāo)注不完整或缺失的漏標(biāo)問題，圖1的(a)(b)中綠色表示數(shù)據(jù)集中已經(jīng)標(biāo)注的標(biāo)簽，紅色表示遺漏的標(biāo)注；(a)中“<human–ride-horse>”即“人-騎-馬”這個(gè)三元組被標(biāo)注，但是“<human-sit?on-horse>”即“人-坐在-馬上”這個(gè)三元組標(biāo)注被遺漏；(b)中“<human–sit?on-bed>”即“人-坐在-床上”這個(gè)三元組被標(biāo)注，但是“<human–watch-tv>”即“人-看-電視”被遺漏。圖1的(c)(d)分別展示了hico-det數(shù)據(jù)集和vcoco數(shù)據(jù)集中每個(gè)人-物交互對(duì)的數(shù)量，橫軸表示類別，縱軸表示數(shù)量；從結(jié)果可以看出這些數(shù)據(jù)集長(zhǎng)尾問題比較嚴(yán)重，頭部一些類別數(shù)量很多，但是尾部只有個(gè)位數(shù)的數(shù)據(jù)。這些問題都限制了傳統(tǒng)hoi檢測(cè)模型性能的進(jìn)一步提升。3、擴(kuò)散模型(diffusion?model)是一類生成模型，stable?diffusion是一種基于擴(kuò)散模型的文本到圖像生成模型，它能夠根據(jù)用戶提供的文本描述生成高質(zhì)量、逼真的圖像。stable?diffusion利用變分自編碼器(vae)和u型網(wǎng)絡(luò)(u-net)的結(jié)合來進(jìn)行圖像生成，通過在潛在空間中進(jìn)行迭代的反向擴(kuò)散過程，逐步從噪聲生成細(xì)節(jié)豐富的圖像。stablediffusion的特點(diǎn)是運(yùn)行穩(wěn)定、訓(xùn)練速度快以及圖像生成多樣，這使其在藝術(shù)創(chuàng)作、游戲設(shè)計(jì)、虛擬現(xiàn)實(shí)等領(lǐng)域具有廣泛的應(yīng)用潛力。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明針對(duì)當(dāng)前人-物交互(human-object?interaction，hoi)檢測(cè)領(lǐng)域所面臨的挑戰(zhàn)，尤其是針對(duì)現(xiàn)有hoi數(shù)據(jù)集的局限性，包括數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)分布不均勻?qū)е碌拈L(zhǎng)尾問題以及標(biāo)注不完整或遺漏標(biāo)注問題等障礙，研究如何基于具有豐富知識(shí)積累的文生圖模型stable?diffusion，提出一種能夠緩解上述問題的新解決方案。2、本發(fā)明的技術(shù)方案為：一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)方法，由hoi檢測(cè)器與文生圖模型stable?diffusion構(gòu)建一個(gè)聯(lián)合訓(xùn)練框架來對(duì)hoi檢測(cè)器進(jìn)行訓(xùn)練，在推理階段去除stable?diffusion，用經(jīng)過聯(lián)合訓(xùn)練的hoi檢測(cè)器進(jìn)行人-物交互檢測(cè)；所述hoi檢測(cè)器為基于detr的hoi檢測(cè)器，聯(lián)合訓(xùn)練框架中，構(gòu)建循環(huán)一致性網(wǎng)絡(luò)，利用stable?diffusion對(duì)hoi檢測(cè)器提取的特征進(jìn)行反向操作，來重建恢復(fù)原始圖像的視覺內(nèi)容，同時(shí)通過知識(shí)蒸餾將stable?diffusion的特征知識(shí)傳遞給hoi檢測(cè)器的編碼器，并在訓(xùn)練中通過stable?diffusion對(duì)人-物交互數(shù)據(jù)進(jìn)行標(biāo)簽補(bǔ)全和樣本擴(kuò)增；聯(lián)合訓(xùn)練框架的訓(xùn)練包括如下：3、1)循環(huán)一致性網(wǎng)絡(luò)：hoi檢測(cè)器接收輸入圖像，經(jīng)transformer解碼器得到的輸出結(jié)果作為每個(gè)人-物交互對(duì)的特征向量；在detr的二部圖匹配過程中，將特征向量中與真實(shí)標(biāo)簽匹配上的向量稱作積極嵌入，將積極嵌入作為stable?diffusion的提示詞嵌入，生成對(duì)應(yīng)原始輸入圖像的重建圖像，將重建圖像與原始輸入圖像的l2損失函數(shù)作為循環(huán)一致性損失cycle?loss：4、lcycle＝||diff(hoidet(i))-i||25、diff表示stables?diffusion，hoidet表示hoi檢測(cè)器，lcycle損失通過梯度的反向傳播，以優(yōu)化hoi檢測(cè)器所提取的人-物交互對(duì)實(shí)例特征；6、2)知識(shí)蒸餾與遷移：將stable?diffusion中的u-net的輸出fs用來蒸餾hoi檢測(cè)器中編碼器的輸出fd，其中u-net作為教師模型，編碼器作為學(xué)生模型，通過在訓(xùn)練過程中施加損失函數(shù)，使編碼器學(xué)習(xí)u-net的輸出特征，訓(xùn)練中對(duì)編碼器的輸出做插值處理以對(duì)齊u-net的輸出特征，知識(shí)蒸餾的損失函數(shù)為l1損失：7、ldistill＝||fs-fd||1；8、3)標(biāo)簽補(bǔ)全：對(duì)于訓(xùn)練集的每張圖像，首先通過預(yù)訓(xùn)練好的hoi檢測(cè)器來預(yù)測(cè)人-物交互對(duì)，即預(yù)測(cè)標(biāo)簽，并將預(yù)測(cè)標(biāo)簽對(duì)應(yīng)的自然語言的句子與圖像一起輸入stablediffusion，得到每個(gè)人-物交互對(duì)的預(yù)測(cè)標(biāo)簽損失li，并將每張圖像與真實(shí)標(biāo)簽送入stable?diffusion，得到真實(shí)標(biāo)簽的損失lgt，然后將預(yù)測(cè)標(biāo)簽中損失不超過真實(shí)標(biāo)簽損失一定量的標(biāo)簽作為偽標(biāo)簽，即滿足li＜lgt+η條件的標(biāo)簽放入訓(xùn)練集中，用于緩解標(biāo)簽漏標(biāo)問題，參與下一輪的訓(xùn)練，η為控制偽標(biāo)簽選取的閾值；9、4)樣本擴(kuò)增：首先將數(shù)據(jù)集中圖片不足10張的類別選出來，作為尾部類，然后對(duì)于每一個(gè)尾部類，訓(xùn)練一個(gè)dreambooth模型，以學(xué)習(xí)每個(gè)尾部類中的共有概念，然后使用這些模型，推理生成類似概念的圖像，其中每個(gè)尾部類別都生成至少10張圖像，生成的圖像用于樣本擴(kuò)增；10、5)聯(lián)合訓(xùn)練框架的訓(xùn)練：聯(lián)合訓(xùn)練框架包括三部分損失，分別是hoi檢測(cè)器原本的損失ldetect，循環(huán)一致性損失lcycle以及知識(shí)蒸餾損失ldistill，聯(lián)合訓(xùn)練框架整體的損失函數(shù)為這三部分的加權(quán)和，即：11、l＝λdetectldetect+λcyclelcycle+λdistillldistill12、λdetect，λcycle以及λdistill分別表示這三部分損失的權(quán)重。13、本發(fā)明提出了一個(gè)創(chuàng)新的人-物交互檢測(cè)訓(xùn)練模型，該模型巧妙地將hoi檢測(cè)器與擴(kuò)散模型stable?diffusion融合，形成一個(gè)綜合的聯(lián)合訓(xùn)練框架。這種結(jié)合使得檢測(cè)器能夠直接從擴(kuò)散模型中學(xué)習(xí)和繼承知識(shí)，從而顯著提升其在實(shí)際應(yīng)用中的檢測(cè)性能。由于引入的擴(kuò)散模型都是即插即用(plug-and-play)的模塊，所以在推理階段可以去除所有擴(kuò)散模型模塊，這極大的加速了模型的推理過程。此外，利用擴(kuò)散模型強(qiáng)大的生成能力，本發(fā)明還創(chuàng)新性地解決了hoi數(shù)據(jù)集中的遺漏標(biāo)注問題和長(zhǎng)尾分布問題，通過生成豐富多樣的數(shù)據(jù)樣本來補(bǔ)充和平衡現(xiàn)有數(shù)據(jù)集，這不僅增強(qiáng)了模型對(duì)稀有交互情景的識(shí)別能力，而且提高了整體檢測(cè)模型的魯棒性和泛化能力。14、stable?diffusion因其龐大的網(wǎng)絡(luò)結(jié)構(gòu)和對(duì)大規(guī)模數(shù)據(jù)集的深度訓(xùn)練，成為了一個(gè)擁有廣泛知識(shí)和理解能力的強(qiáng)大工具。本發(fā)明將stable?diffusion整合到人-物交互檢測(cè)模型中，借此傳遞豐富的視覺和語義信息。這種融合方法不僅使得檢測(cè)模型能夠繼承擴(kuò)散模型的知識(shí)庫，還能夠顯著增強(qiáng)模型對(duì)復(fù)雜場(chǎng)景中人與物體交互的理解和識(shí)別能力。此外，通過這種方式，檢測(cè)模型的泛化能力得到提升，它在面對(duì)多樣化和未見過的交互場(chǎng)景時(shí)，能夠更加準(zhǔn)確和有效地進(jìn)行預(yù)測(cè)，從而大幅度提高了人-物交互檢測(cè)的整體性能和可靠性。本發(fā)明與現(xiàn)有技術(shù)相比有如下優(yōu)點(diǎn)。15、增強(qiáng)數(shù)據(jù)質(zhì)量和多樣性：stable?diffusion可以生成高質(zhì)量的圖像數(shù)據(jù)，通過這種方式可以增加hoi數(shù)據(jù)集中的樣本多樣性和數(shù)量。這對(duì)于平衡數(shù)據(jù)集中的長(zhǎng)尾分布特別有用，因?yàn)榭梢陨赡切┰诂F(xiàn)有數(shù)據(jù)集中出現(xiàn)頻率較低的交互場(chǎng)景，從而提高模型對(duì)這些稀有情況的識(shí)別能力。16、改善模型泛化能力：stable?diffusion通過學(xué)習(xí)大規(guī)模圖像數(shù)據(jù)集獲得的知識(shí)可以使hoi檢測(cè)模型獲得更豐富的視覺表示。這樣的知識(shí)遷移有助于提高模型的泛化能力，使其更好地處理現(xiàn)實(shí)世界中的多變和未見過的場(chǎng)景。即使面對(duì)復(fù)雜和多樣的真實(shí)世界數(shù)據(jù)，模型也能保持較高的檢測(cè)精度。17、補(bǔ)充不足的標(biāo)注信息：stable?diffusion的生成能力可以用來補(bǔ)充數(shù)據(jù)集中的漏標(biāo)問題。對(duì)于那些缺失標(biāo)簽的樣本，可以通過擴(kuò)散模型的損失函數(shù)來篩選hoi檢測(cè)器生成的預(yù)測(cè)標(biāo)簽，并將其作為偽標(biāo)簽加入訓(xùn)練集以彌補(bǔ)缺失的標(biāo)簽。這種方式可以增加訓(xùn)練數(shù)據(jù)的完整性，有助于訓(xùn)練出表現(xiàn)更加出色的hoi檢測(cè)器。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王利民,王一森,滕堯,武港山
技術(shù)所有人：南京大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種聯(lián)合檢測(cè)與生成的循環(huán)一致性人-物交互檢測(cè)方法