本發(fā)明涉及計(jì)算機(jī)視覺(jué),具體地說(shuō),涉及一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、細(xì)粒度動(dòng)作的識(shí)別是計(jì)算機(jī)視覺(jué)中的一個(gè)重點(diǎn)研究方向,此類動(dòng)作的識(shí)別在日常生活中有著廣泛的應(yīng)用,例如動(dòng)作分析和行為監(jiān)控。細(xì)粒度動(dòng)作由一系列動(dòng)作元素組成的,它是對(duì)粗粒度動(dòng)作的進(jìn)一步細(xì)分,具有動(dòng)作持續(xù)時(shí)間尺度變化大、動(dòng)作類別之間的差異微小以及動(dòng)作序列復(fù)雜等特性。
2、現(xiàn)有的細(xì)粒度動(dòng)作識(shí)別方法按照對(duì)視頻的處理方式分為兩種,一種是固定從每個(gè)細(xì)粒度動(dòng)作視頻中采樣的視頻幀的采樣數(shù)量,另一種是固定從每個(gè)細(xì)粒度視頻中采樣視頻幀的采樣間隔。固定采樣數(shù)量的方法缺少對(duì)動(dòng)作時(shí)間的感知,無(wú)法感知細(xì)粒度動(dòng)作的視頻持續(xù)時(shí)間。固定采樣間隔的方法在細(xì)粒度動(dòng)作的視頻變長(zhǎng)的時(shí)候,計(jì)算量也會(huì)急劇增加,識(shí)別效率較低。因此現(xiàn)有技術(shù)亟需一種能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且高效的細(xì)粒度動(dòng)作識(shí)別方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問(wèn)題,本發(fā)明提出一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且計(jì)算量較低,能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。
2、本發(fā)明實(shí)施例提供一種細(xì)粒度動(dòng)作識(shí)別方法,所述方法包括:
3、獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;
4、將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;
5、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;
6、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;
7、根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。
8、優(yōu)選地,將所述總幀數(shù)嵌入所述視頻幀中,包括:
9、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入;
10、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后,得到處理后的視頻幀。
11、優(yōu)選地,所述將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量,包括:
12、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層;
13、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量,結(jié)合動(dòng)作元素發(fā)生順序,分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí),輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。
14、作為一種優(yōu)選方案,所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率,包括:
15、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果;
16、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率。
17、進(jìn)一步地,所述根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作,具體包括:
18、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合,得到第一動(dòng)作類別概率向量;
19、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積,并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè),將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量;
20、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別,得到第三動(dòng)作類別概率向量;
21、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加,得到綜合概率向量;
22、對(duì)所述綜合概率向量取最大值,并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。
23、優(yōu)選地,所述將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,包括:
24、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換,得到每一視頻幀的塊狀嵌入;
25、對(duì)每一視頻幀進(jìn)行位置編碼,得到每一視頻幀的位置嵌入;
26、將每一視頻幀的塊狀嵌入以及位置嵌入相加,得到其視覺(jué)嵌入。
27、作為一種優(yōu)選方案,所述將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入,包括:
28、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換,再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量;
29、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。
30、優(yōu)選地,所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量;
31、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量;
32、其中,所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量,j=1,2,…,m,i=2,3…m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量,l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。
33、優(yōu)選地,所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果,具體包括:
34、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中;
35、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè),得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui;
36、其中,預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果,i=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。
37、作為一種優(yōu)選方案,所述將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率,包括:
38、對(duì)第j組查詢向量在第j個(gè)~第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和,得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej;
39、其中,j=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。
40、本發(fā)明實(shí)施例還提供一種細(xì)粒度動(dòng)作識(shí)別裝置,所述裝置包括:
41、提取模塊,用于獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;
42、特征提取模塊,用于將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;
43、學(xué)習(xí)模塊,用于將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;
44、預(yù)測(cè)模塊,用于將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;
45、動(dòng)作識(shí)別模塊,用于根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。
46、優(yōu)選地,所述特征提取模塊具體用于:
47、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入,將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入;
48、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后,得到處理后的視頻幀。
49、優(yōu)選地,所述特征提取模塊具體用于:
50、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層;
51、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量,結(jié)合動(dòng)作元素發(fā)生順序,分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí),輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。
52、優(yōu)選地,所述預(yù)測(cè)模塊具體用于:
53、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè),得到不同全連接層的預(yù)測(cè)結(jié)果;
54、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算,得到不同動(dòng)作元素的預(yù)測(cè)概率。
55、優(yōu)選地,所述動(dòng)作識(shí)別模塊具體用于:
56、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合,得到第一動(dòng)作類別概率向量;
57、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積,并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè),將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量;
58、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別,得到第三動(dòng)作類別概率向量;
59、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加,得到綜合概率向量;
60、對(duì)所述綜合概率向量取最大值,并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。
61、優(yōu)選地,所述轉(zhuǎn)化模塊具體用于:
62、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換,得到每一視頻幀的塊狀嵌入;
63、對(duì)每一視頻幀進(jìn)行位置編碼,得到每一視頻幀的位置嵌入;
64、將每一視頻幀的塊狀嵌入以及位置嵌入相加,得到其視覺(jué)嵌入。
65、優(yōu)選地,所述轉(zhuǎn)化模塊具體用于:
66、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換,再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量;
67、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。
68、優(yōu)選地,所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量;
69、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量;
70、其中,所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量,j=1,2,…,m,i=2,3…m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量,l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。
71、優(yōu)選地,所述預(yù)測(cè)模塊具體用于:
72、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中;
73、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè),得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui;
74、其中,預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果,i=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。
75、優(yōu)選地,所述聚合計(jì)算模塊具體用于:
76、對(duì)第j組查詢向量在第j個(gè)~第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和,得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej;
77、其中,j=1,2,…,m,m為所述層次化序列聚合解碼器中解碼層的數(shù)量。
78、本發(fā)明實(shí)施例還提供一種終端設(shè)備,包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。
79、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。
80、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),通過(guò)獲取待識(shí)別的動(dòng)作視頻,計(jì)算所述動(dòng)作視頻的總幀數(shù),從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀;將所述總幀數(shù)嵌入所述視頻幀中,并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取,得到持續(xù)時(shí)間感知的視覺(jué)特征;將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層,輸出不同解碼層學(xué)習(xí)后的識(shí)別向量;將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層,得到不同動(dòng)作元素的預(yù)測(cè)概率;根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間,并且計(jì)算量較低,能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。