一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：39722252發(fā)布日期：2024-10-22 13:15閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及計(jì)算機(jī)視覺(jué)，具體地說(shuō)，涉及一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、細(xì)粒度動(dòng)作的識(shí)別是計(jì)算機(jī)視覺(jué)中的一個(gè)重點(diǎn)研究方向，此類動(dòng)作的識(shí)別在日常生活中有著廣泛的應(yīng)用，例如動(dòng)作分析和行為監(jiān)控。細(xì)粒度動(dòng)作由一系列動(dòng)作元素組成的，它是對(duì)粗粒度動(dòng)作的進(jìn)一步細(xì)分，具有動(dòng)作持續(xù)時(shí)間尺度變化大、動(dòng)作類別之間的差異微小以及動(dòng)作序列復(fù)雜等特性。

2、現(xiàn)有的細(xì)粒度動(dòng)作識(shí)別方法按照對(duì)視頻的處理方式分為兩種，一種是固定從每個(gè)細(xì)粒度動(dòng)作視頻中采樣的視頻幀的采樣數(shù)量，另一種是固定從每個(gè)細(xì)粒度視頻中采樣視頻幀的采樣間隔。固定采樣數(shù)量的方法缺少對(duì)動(dòng)作時(shí)間的感知，無(wú)法感知細(xì)粒度動(dòng)作的視頻持續(xù)時(shí)間。固定采樣間隔的方法在細(xì)粒度動(dòng)作的視頻變長(zhǎng)的時(shí)候，計(jì)算量也會(huì)急劇增加，識(shí)別效率較低。因此現(xiàn)有技術(shù)亟需一種能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間，并且高效的細(xì)粒度動(dòng)作識(shí)別方法。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問(wèn)題，本發(fā)明提出一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間，并且計(jì)算量較低，能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。

2、本發(fā)明實(shí)施例提供一種細(xì)粒度動(dòng)作識(shí)別方法，所述方法包括：

3、獲取待識(shí)別的動(dòng)作視頻，計(jì)算所述動(dòng)作視頻的總幀數(shù)，從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀；

4、將所述總幀數(shù)嵌入所述視頻幀中，并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取，得到持續(xù)時(shí)間感知的視覺(jué)特征；

5、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量；

6、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，得到不同動(dòng)作元素的預(yù)測(cè)概率；

7、根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。

8、優(yōu)選地，將所述總幀數(shù)嵌入所述視頻幀中，包括：

9、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入，將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入；

10、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后，得到處理后的視頻幀。

11、優(yōu)選地，所述將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量，包括：

12、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層；

13、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量，結(jié)合動(dòng)作元素發(fā)生順序，分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí)，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。

14、作為一種優(yōu)選方案，所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，得到不同動(dòng)作元素的預(yù)測(cè)概率，包括：

15、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè)，得到不同全連接層的預(yù)測(cè)結(jié)果；

16、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算，得到不同動(dòng)作元素的預(yù)測(cè)概率。

17、進(jìn)一步地，所述根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作，具體包括：

18、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合，得到第一動(dòng)作類別概率向量；

19、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積，并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè)，將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量；

20、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別，得到第三動(dòng)作類別概率向量；

21、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加，得到綜合概率向量；

22、對(duì)所述綜合概率向量取最大值，并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。

23、優(yōu)選地，所述將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入，包括：

24、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換，得到每一視頻幀的塊狀嵌入；

25、對(duì)每一視頻幀進(jìn)行位置編碼，得到每一視頻幀的位置嵌入；

26、將每一視頻幀的塊狀嵌入以及位置嵌入相加，得到其視覺(jué)嵌入。

27、作為一種優(yōu)選方案，所述將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入，包括：

28、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換，再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量；

29、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。

30、優(yōu)選地，所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量；

31、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量；

32、其中，所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量，j＝1,2，…，m，i＝2,3…m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量，l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。

33、優(yōu)選地，所述將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，通過(guò)不同的全連接層分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作預(yù)測(cè)，得到不同全連接層的預(yù)測(cè)結(jié)果，具體包括：

34、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中；

35、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè)，得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui；

36、其中，預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果，i＝1,2，…，m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

37、作為一種優(yōu)選方案，所述將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算，得到不同動(dòng)作元素的預(yù)測(cè)概率，包括：

38、對(duì)第j組查詢向量在第j個(gè)～第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和，得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej；

39、其中，j＝1,2，…，m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

40、本發(fā)明實(shí)施例還提供一種細(xì)粒度動(dòng)作識(shí)別裝置，所述裝置包括：

41、提取模塊，用于獲取待識(shí)別的動(dòng)作視頻，計(jì)算所述動(dòng)作視頻的總幀數(shù)，從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀；

42、特征提取模塊，用于將所述總幀數(shù)嵌入所述視頻幀中，并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取，得到持續(xù)時(shí)間感知的視覺(jué)特征；

43、學(xué)習(xí)模塊，用于將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量；

44、預(yù)測(cè)模塊，用于將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，得到不同動(dòng)作元素的預(yù)測(cè)概率；

45、動(dòng)作識(shí)別模塊，用于根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。

46、優(yōu)選地，所述特征提取模塊具體用于：

47、將每一視頻幀轉(zhuǎn)化為視覺(jué)嵌入，將所述總幀數(shù)轉(zhuǎn)化為持續(xù)時(shí)間嵌入；

48、在每一視頻幀的視覺(jué)嵌入中加入所述持續(xù)時(shí)間嵌入后，得到處理后的視頻幀。

49、優(yōu)選地，所述特征提取模塊具體用于：

50、將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層；

51、通過(guò)不同解碼層中分別對(duì)不同動(dòng)作元素設(shè)置的查詢向量，結(jié)合動(dòng)作元素發(fā)生順序，分別對(duì)所述視覺(jué)特征進(jìn)行動(dòng)作查詢學(xué)習(xí)，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量。

52、優(yōu)選地，所述預(yù)測(cè)模塊具體用于：

53、將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，通過(guò)不同的全連接層分別進(jìn)行動(dòng)作預(yù)測(cè)，得到不同全連接層的預(yù)測(cè)結(jié)果；

54、將不同全連接層的預(yù)測(cè)結(jié)果進(jìn)行聚合計(jì)算，得到不同動(dòng)作元素的預(yù)測(cè)概率。

55、優(yōu)選地，所述動(dòng)作識(shí)別模塊具體用于：

56、將不同動(dòng)作元素的預(yù)測(cè)概率進(jìn)行組合，得到第一動(dòng)作類別概率向量；

57、對(duì)包含所有動(dòng)作元素的查詢向量的解碼層輸出的識(shí)別向量進(jìn)行卷積，并輸入到全連接層中進(jìn)行動(dòng)作預(yù)測(cè)，將得到的預(yù)測(cè)結(jié)果進(jìn)行組合得到第二動(dòng)作類別概率向量；

58、將求均值后的所述視覺(jué)特征輸入到預(yù)設(shè)的全連接層中預(yù)測(cè)細(xì)粒度動(dòng)作類別，得到第三動(dòng)作類別概率向量；

59、將所述第一動(dòng)作類別概率向量、所述第二動(dòng)作類別概率向量以及所述第三動(dòng)作類別概率向量相加，得到綜合概率向量；

60、對(duì)所述綜合概率向量取最大值，并將最大值對(duì)應(yīng)的動(dòng)作類別作為識(shí)別的細(xì)粒度動(dòng)作。

61、優(yōu)選地，所述轉(zhuǎn)化模塊具體用于：

62、采用線性映射對(duì)每一視頻幀進(jìn)行轉(zhuǎn)換，得到每一視頻幀的塊狀嵌入；

63、對(duì)每一視頻幀進(jìn)行位置編碼，得到每一視頻幀的位置嵌入；

64、將每一視頻幀的塊狀嵌入以及位置嵌入相加，得到其視覺(jué)嵌入。

65、優(yōu)選地，所述轉(zhuǎn)化模塊具體用于：

66、將所述總幀數(shù)進(jìn)行二進(jìn)制轉(zhuǎn)換，再通過(guò)全連接層將所述總幀數(shù)轉(zhuǎn)化為預(yù)設(shè)長(zhǎng)度的特征向量；

67、將所述特征向量復(fù)制為與所述視覺(jué)嵌入相同維度的持續(xù)時(shí)間嵌入。

68、優(yōu)選地，所述層次化序列聚合解碼器的第1解碼層中包括第1組查詢向量；

69、第i解碼層中包括第i-1解碼層輸出的i-1組識(shí)別向量以及第i組查詢向量；

70、其中，所述第j組查詢向量為按照細(xì)粒度動(dòng)作中動(dòng)作元素發(fā)生的先后順序中第(j-1)×l+1至第j×l個(gè)動(dòng)作元素對(duì)應(yīng)的l個(gè)查詢向量，j＝1,2，…，m，i＝2,3…m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量，l為將所有查詢向量劃分m組后每組查詢向量的數(shù)量。

71、優(yōu)選地，所述預(yù)測(cè)模塊具體用于：

72、將第i解碼層輸出的i組識(shí)別向量輸入到第i個(gè)全連接層中；

73、通過(guò)第i個(gè)全連接層進(jìn)行細(xì)粒度動(dòng)作中動(dòng)作元素的預(yù)測(cè)，得到第i個(gè)全連接層的預(yù)測(cè)結(jié)果ui；

74、其中，預(yù)測(cè)結(jié)果ui中包括i組識(shí)別向量的預(yù)測(cè)結(jié)果，i＝1,2，…，m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

75、優(yōu)選地，所述聚合計(jì)算模塊具體用于：

76、對(duì)第j組查詢向量在第j個(gè)～第m個(gè)全連接層輸出的預(yù)測(cè)結(jié)果與預(yù)設(shè)的學(xué)習(xí)權(quán)重進(jìn)行加權(quán)求和，得到第j組查詢向量對(duì)應(yīng)的動(dòng)作元素類別的預(yù)測(cè)概率ej；

77、其中，j＝1,2，…，m，m為所述層次化序列聚合解碼器中解碼層的數(shù)量。

78、本發(fā)明實(shí)施例還提供一種終端設(shè)備，包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。

79、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序，其中，在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如上述任一項(xiàng)實(shí)施例所述的一種細(xì)粒度動(dòng)作識(shí)別方法。

80、與現(xiàn)有技術(shù)相比，本發(fā)明提供一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，通過(guò)獲取待識(shí)別的動(dòng)作視頻，計(jì)算所述動(dòng)作視頻的總幀數(shù)，從所述動(dòng)作視頻中提取預(yù)設(shè)數(shù)量的視頻幀；將所述總幀數(shù)嵌入所述視頻幀中，并將處理后的視頻幀輸入到預(yù)設(shè)的特征提取層中進(jìn)行特征提取，得到持續(xù)時(shí)間感知的視覺(jué)特征；將所述視覺(jué)特征輸入到預(yù)先構(gòu)建的層次化序列聚合解碼器的不同解碼層，輸出不同解碼層學(xué)習(xí)后的識(shí)別向量；將不同解碼層輸出的識(shí)別向量分別輸入到不同的全連接層，得到不同動(dòng)作元素的預(yù)測(cè)概率；根據(jù)不同動(dòng)作元素的預(yù)測(cè)概率確定識(shí)別的細(xì)粒度動(dòng)作。本技術(shù)能夠感知細(xì)粒度動(dòng)作的持續(xù)時(shí)間，并且計(jì)算量較低，能夠高效地進(jìn)行細(xì)粒度動(dòng)作的識(shí)別。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉志浩,張毅,黃文輝
技術(shù)所有人：中國(guó)移動(dòng)通信有限公司研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

一種細(xì)粒度動(dòng)作識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程