日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39722252發(fā)布日期:2024-10-22 13:15閱讀:2來(lái)源:國(guó)知局
一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及計(jì)算機(jī)視覺(jué),具體地說(shuō),涉及一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、細(xì)粒度動(dòng)作的識(shí)別是計(jì)算機(jī)視覺(jué)中的一個(gè)重點(diǎn)研究方向,此類動(dòng)作的識(shí)別在日常生活中有著廣泛的應(yīng)用,例如動(dòng)作分析和行為監(jiān)控。細(xì)粒度動(dòng)作由一系列動(dòng)作元素組成的,它是對(duì)粗粒度動(dòng)作的進(jìn)一步細(xì)分,具有動(dòng)作持續(xù)時(shí)間尺度變化大、動(dòng)作類別之間的差異微小以及動(dòng)作序列復(fù)雜等特性。

2、現(xiàn)有的細(xì)粒度動(dòng)作識(shí)別方法按照對(duì)視頻的處理方式分為兩種,一種是固定從每個(gè)細(xì)粒度動(dòng)作視頻中采樣的視頻幀的采樣數(shù)量,另一種是固定從每個(gè)細(xì)粒度視頻中采樣視頻幀的采樣間隔。固定采樣數(shù)量的方法缺少對(duì)動(dòng)作時(shí)間的感知,無(wú)法感知細(xì)粒度動(dòng)作的視頻持續(xù)時(shí)間。固定采樣間隔的方法在細(xì)粒度動(dòng)作的視頻變長(zhǎng)的時(shí)候,計(jì)算量也會(huì)急劇增加,識(shí)別效率較低。因此現(xiàn)有技術(shù)亟需一種能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且高效的細(xì)粒度動(dòng)作識(shí)別方法。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問(wèn)題,本發(fā)明提出一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且計(jì)算量較低,能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。

2、本發(fā)明實(shí)施例提供一種細(xì)粒度動(dòng)作識(shí)別方法,所述方法包括:

3、獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;

4、將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;

5、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;

6、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;

7、根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。

8、優(yōu)選地,將所述總幀數(shù)嵌入所述視頻幀中,包括:

9、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入;

10、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后,得到處理后的視頻幀。

11、優(yōu)選地,所述將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量,包括:

12、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層;

13、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量,結(jié)合動(dòng)作元素發(fā)生順序,分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí),輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。

14、作為一種優(yōu)選方案,所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率,包括:

15、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果;

16、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率。

17、進(jìn)一步地,所述根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作,具體包括:

18、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合,得到第一動(dòng)作類別概率向量;

19、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積,并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè),將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量;

20、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別,得到第三動(dòng)作類別概率向量;

21、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加,得到綜合概率向量;

22、對(duì)所述綜合概率向量取最大值,并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。

23、優(yōu)選地,所述將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,包括:

24、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換,得到每一視頻幀的塊狀嵌入;

25、對(duì)每一視頻幀進(jìn)行位置編碼,得到每一視頻幀的位置嵌入;

26、將每一視頻幀的塊狀嵌入以及位置嵌入相加,得到其視覺(jué)嵌入。

27、作為一種優(yōu)選方案,所述將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入,包括:

28、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換,再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量;

29、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。

30、優(yōu)選地,所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量;

31、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量;

32、其中,所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量,j=1,2,…,m,i=2,3…m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量,l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。

33、優(yōu)選地,所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果,具體包括:

34、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中;

35、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè),得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui;

36、其中,預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果,i=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

37、作為一種優(yōu)選方案,所述將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率,包括:

38、對(duì)第j組查詢向量在第j個(gè)~第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和,得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej;

39、其中,j=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

40、本發(fā)明實(shí)施例還提供一種細(xì)粒度動(dòng)作識(shí)別裝置,所述裝置包括:

41、提取模塊,用于獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;

42、特征提取模塊,用于將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;

43、學(xué)習(xí)模塊,用于將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;

44、預(yù)測(cè)模塊,用于將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;

45、動(dòng)作識(shí)別模塊,用于根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。

46、優(yōu)選地,所述特征提取模塊具體用于:

47、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入;

48、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后,得到處理后的視頻幀。

49、優(yōu)選地,所述特征提取模塊具體用于:

50、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層;

51、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量,結(jié)合動(dòng)作元素發(fā)生順序,分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí),輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。

52、優(yōu)選地,所述預(yù)測(cè)模塊具體用于:

53、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果;

54、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率。

55、優(yōu)選地,所述動(dòng)作識(shí)別模塊具體用于:

56、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合,得到第一動(dòng)作類別概率向量;

57、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積,并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè),將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量;

58、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別,得到第三動(dòng)作類別概率向量;

59、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加,得到綜合概率向量;

60、對(duì)所述綜合概率向量取最大值,并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。

61、優(yōu)選地,所述轉(zhuǎn)化模塊具體用于:

62、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換,得到每一視頻幀的塊狀嵌入;

63、對(duì)每一視頻幀進(jìn)行位置編碼,得到每一視頻幀的位置嵌入;

64、將每一視頻幀的塊狀嵌入以及位置嵌入相加,得到其視覺(jué)嵌入。

65、優(yōu)選地,所述轉(zhuǎn)化模塊具體用于:

66、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換,再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量;

67、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。

68、優(yōu)選地,所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量;

69、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量;

70、其中,所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量,j=1,2,…,m,i=2,3…m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量,l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。

71、優(yōu)選地,所述預(yù)測(cè)模塊具體用于:

72、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中;

73、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè),得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui;

74、其中,預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果,i=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

75、優(yōu)選地,所述聚合計(jì)算模塊具體用于:

76、對(duì)第j組查詢向量在第j個(gè)~第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和,得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej;

77、其中,j=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

78、本發(fā)明實(shí)施例還提供一種終端設(shè)備,包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。

79、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。

80、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),通過(guò)獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且計(jì)算量較低,能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1