日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種多模信息下的人體動作時序檢測方法

文檔序號:39722608發(fā)布日期:2024-10-22 13:16閱讀:2來源:國知局
一種多模信息下的人體動作時序檢測方法

本發(fā)明涉及視頻理解及計算機視覺領域,尤其涉及一種多模信息下的人體動作時序檢測方法。


背景技術:

1、在多媒體技術與計算機視覺技術不斷發(fā)展的背景下,視頻數量及時長不斷增加,面向以人為中心的智能監(jiān)控、態(tài)勢感知及智能視頻理解的應用需求不斷增長,如何實現對任意的未裁剪視頻中的人體動作的精準檢測,即對視頻中的動作實例進行語義類別識別及時序坐標定位,是以上相關領域技術進一步發(fā)展的關鍵。

2、現有的時序動作檢測方法通過單一可見光學模態(tài)及衍生模態(tài)視頻數據信息實現動作檢測,技術特點聚焦于視頻幀序列間的時序相關性及多尺度時序信息的有效聚合方法設計,與當前日益增長的視頻語義復雜度間存在矛盾,現有檢測方法產生性能瓶頸。其性能特征為易于關注簡單易分辨的視頻時序點,導致對動作實例檢測不完全,實例間檢測出現粘連現象,最終表現為檢測結果的不可靠,難以進行實際應用。

3、對于動作檢測的上游任務動作識別,針對以上矛盾的一種可行解決方法為引入額外模態(tài)信息,利用多種模態(tài)的信息特性,抑制易混淆的背景響應,增強動作片段級響應,實現更優(yōu)識別效果。然而對于動作檢測方法來說,如何結合多模態(tài)信息對同一語義目標的響應差異,實現從片段到實例的有效檢測,增強時序檢測語義辨別能力,最終構建多模態(tài)信息下的時序動作檢測框架,提升檢測性能,其相關技術手段目前仍不成熟。


技術實現思路

1、本發(fā)明擬提供一種多模信息下的人體動作時序檢測方法,擬解決當前檢測技術無法有效利用多模信息實現對動作實例的有效檢測問題。

2、為解決上述技術問題,本發(fā)明采用技術方案如下:

3、一種多模信息下的人體動作時序檢測方法,包括以下步驟:

4、步驟1,以公開人體動作視頻數據作為原始數據集,并對其進行數據的標注、清洗及預處理,以用于網絡訓練;

5、并劃分訓練集及測試集;

6、步驟2,根據標注語義類別,分別生成片段級及實例級文本提示序列,構建文本特征編碼器,提取文本語義特征;

7、步驟3,構建預訓練時序特征提取器與特征級多模態(tài)注意力模塊,結合文本語義特征,提取多模態(tài)時空特征序列;

8、步驟4,構建多模態(tài)時序動作序列響應模塊,生成片段級動作響應序列;

9、步驟5:構建動作提名生成器,基于片段級動作響應序列生成動作提名;

10、步驟6,構建多模態(tài)實例級動作檢測模塊,基于動作提名實現對動作實例的檢測。

11、本發(fā)明完成對公開人體動作視頻數據的處理后,根據語義類別信息利用文本特征編碼器提取文本特征,并結合時序特征提取器與多模態(tài)注意力模塊提取多模態(tài)時空序列,實現特征級的多模信息融合與特征表達;其次構建多模態(tài)時序動作序列響應模塊,利用時序級標注進行優(yōu)化,實現動作與背景的片段級分離;之后基于時序響應生成動作提名,在文本信息輔助下進行實例級動作預測并精準調整動作邊界,最終實現多模信息協同下的人體動作精準檢測。

12、進一步的,步驟1包括以下步驟:

13、步驟1.1,獲取公開人體視頻數據,對視頻數據中的動作實例進行標注得到實例標注集其中,s表示動作起始時間,e表示動作結束時間,c表示動作語義類別,ni表示該視頻中動作實例數量;

14、步驟1.2,對于每個包含人體動作的視頻以指定的抽幀率(優(yōu)選25fps)進行抽幀獲取可見光學圖像序列,并將序列中的每張圖像分辨率歸一化至統一尺寸w×h,如調整至224×224;

15、步驟1.3,對步驟1.2處理后的序列進行光流數據提取(優(yōu)選nvofa算法),得到光流圖像序列,其序列長度為可見光學圖像序列的長度l;

16、步驟1.4,分別對可見光學圖像序列、光流圖像序列按照相同的幀數進行分組,得到若干個可見光學視頻片段序列以及光流視頻片段序列其中,num1和num2分別為顏色通道數和光流通道數。

17、進一步的,步驟2包括以下步驟:

18、步驟2.1,將所有視頻標注中的動作語義類別組成語義類別集合依據集合內容將每個視頻映射為粗粒度語義類別,得到粗粒度語義類別集合yc,例如yc={sport,daily,...};其中,nc表示語義類別集合ys的集合大??;

19、步驟2.2,根據語義類別集合ys、粗粒度語義類別集合yc,對可見光學視頻片段序列以及光流視頻片段序列構建文本提示,包括可見光模態(tài)的每個動作語義類別的文本提示pi,r和光流模態(tài)的每個動作語義類別pi,f,基于所動作語義類別的文本提示得到可見光模態(tài)的多模態(tài)文本提示序列pr和光流態(tài)的多模態(tài)文本提示序列pf;

20、例如,對每個片段生成文本提示為:

21、

22、其中,i表示第i個動作語義類別,sc表示該視頻的粗粒度語義類別,bg表示背景類,r與f分別表示可見光模態(tài)和光流模態(tài)。ci表示對應的動作語義類別;

23、步驟2.3,根據語義類別集合ys,構建每個動作類別的實例級文本提示pi,i,基于所有動作類別的實例級文本提示pi,i得到實例級文本提示pi;

24、例如,某個動作類別的實例級文本提示具體為

25、pi,i='an?action?instance?of{ci/bg}',

26、其中,i表示第i個動作語義類別;

27、步驟2.4,構建預訓練的clip(contrastive?language-image?pre-training)網絡(優(yōu)選基于vit-b/16預訓練的),使用clip網絡的文本編碼分支,對多模態(tài)文本提示序列pr與pf,實例級文本提示pi進行特征編碼,最終得到文本特征以及實例文本特征其中n表示文本特征維度;

28、步驟2.5,根據實例標注集y,從xt,r,xt,f中抽取出該視頻中每個片段對應語義類別的文本特征,構建多模態(tài)文本特征序列

29、進一步的,步驟3具體包括:

30、步驟3.1,構建預訓練的tsn(time-sensit?ive?networking)網絡(優(yōu)選kinetics-600預訓練的),用于提取多模態(tài)時空特征序列的特征;

31、該tsn網絡的單流網絡采用bn-inception結構(即歸一化的inception結構),包括若干個特征級多模態(tài)注意力模塊mi(i=1,...,no),no表示特征級多模態(tài)注意力模塊的模塊數,優(yōu)選五個,即tsn網絡依次包括卷積模塊、特征級多模態(tài)注意力模塊與inception模塊交替級聯的結構,其中,特征級多模態(tài)注意力模塊與inception模塊的數量一致;該特征級多模態(tài)注意力模塊的結構依次包括:全局平均池化層、線性層和余弦相似度計算層,其中,余弦相似度計算層的輸入還包模塊輸入,再將余弦相似度與模塊的輸入相乘后再與模塊的輸入相加得到模塊的最終輸出,其數學表達式可以表示為:

32、

33、其中oi-1,t,o′i,t,x′t,t及oi+1,t中下標t表示第t個片段,其中,o′i,t表示第i個特征級多模態(tài)注意力模塊的輸入,即為上一個特征級多模態(tài)注意力模塊的輸出,首個特征級多模態(tài)注意力模塊的輸入為卷積模塊(卷積操作、批歸一化和激活函數操作)的輸出,pavg(·)表示全局平均池化層,linear(·)表示線性層將pavg(oi′,t)映射至與xt,t同一維度,sim(·)表示余弦相似度函數。

34、步驟3.2,對構建的tsn網絡進行訓練,優(yōu)選的,將該tsn網絡于kinetics-600數據集上重新訓練,優(yōu)化各特征級多模態(tài)注意力模塊中的線性層的網絡參數;

35、步驟3.3,在訓練好的tsn網絡中輸入可見光學視頻片段序列以及光流視頻片段序列以提取可見光學特征與光流特征其中n表示特征維數。

36、進一步的,步驟4具體包括:

37、步驟4.1,構建線性層將可見光學特征與光流特征等維映射為對應模態(tài)時序動作檢測特征

38、步驟4.2,構建視覺響應器,由雙流級聯的1d卷積層-relu-1d卷積層-softmax層組成,輸入時序動作檢測特征得到對應模態(tài)的視覺時序動作響應序列

39、步驟4.3,構建雙流文本-視覺聯合響應器,用于將文本特征與視覺特征fr,ff進行相似度計算,獲取對應模態(tài)的文本時序動作響應序列

40、以可見光學模態(tài)為例,在i片段對第j類別的響應為:

41、str,i,j=|sim(fr,i,xt,r,j)|;

42、步驟4.4,分別計算視覺模態(tài)與文本模態(tài)的片段級損失函數,用于優(yōu)化所構建的線性層、視覺響應器和雙流文本-視覺聯合響應器的網絡參數;

43、

44、其中,分別為視覺模態(tài)與文本模態(tài)的的片段級損失函數,ce(·)表示交叉熵損失函數,yi表示實例標注集y中對應的i片段的語義類別,即類別標簽,svr,i、svf,i分別為i片段的可見光模態(tài)和光流態(tài)的視覺時序動作響應特征,str,i、stf,i分別為可見光模態(tài)和光流態(tài)的文本時序動作響應特征。

45、進一步的,步驟5具體包括:

46、步驟5.1,融合步驟4中的多模態(tài)響應序列:

47、s=α1svr+α2svf+α3str+α4stf,

48、其中,s為融合多模態(tài)響應序列,α1,α2,α3,α4為平衡因子超參數,其中α1+α2+α3+α4=1;

49、步驟5.2,設置閾值集{ξ1,...,ξn},將高于閾值的連續(xù)片段作為動作提名,得到動作提名集其中s,e分別表示動作起始時間與結束時間,np表示提名數量。

50、進一步的,步驟6具體包括:

51、步驟6.1,對步驟5.2生成的提名,根據其中心與實例標注集y中實例的中心差異劃分正負樣本,若則為正樣本,否則為負樣本,其中xc,lc分別表示真實實例的中心坐標與長度,ψ為預置閾值;

52、步驟6.2,級聯時序動作檢測特征fr,ff,并根據提名的時間坐標從中抽取出子特征序列fi并生成實例級特征

53、fp=pavg(fi);

54、步驟6.3,構建級聯的線性層和relu激活函數層,用于將實例級特征fp映射為特征再構建線性層分類器,輸入特征fp′得到輸出實例分類概率

55、進一步的,步驟6中還包括,基于clip網絡得到的實例文本特征實例級文本特征xt,i計算多模態(tài)實例檢測損失:

56、

57、其中,fl(·)表示focal?loss,infonce(·)表示info?nce損失,npos與nneg分別表示正樣本數量與負樣本數量;

58、使用多模態(tài)實例檢測損失對實例級動作檢測模塊(級聯的線性層和relu激活函數層、線性層分類器)進行網絡優(yōu)化。

59、進一步的,步驟6中,在進行推理時,對于每個提名計算第i個動作類置信度為

60、

61、其中,xt,i,i表示第i個動作類的實例級文本特征。

62、再根據置信度使用非極大值抑制算法(soft-nms算法)抑制低質量提名,得到最終檢測結果。

63、本發(fā)明提供的技術方案至少帶來如下有益效果:

64、本發(fā)明在現有視覺多模態(tài)信息的基礎上進一步引入文本模態(tài),通過在特征級、片段級以及實例級設計相應的多模態(tài)模塊,充分利用多種模態(tài)直接的互補信息,抑制了因單一模態(tài)數據噪聲對最終人體動作檢測的性能劣化,最終從特征提取、提名生成以及置信度計算多個層面提升動作檢測性能。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1