基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法

文檔序號：39718443發(fā)布日期：2024-10-22 13:05閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機(jī)視覺與深度學(xué)習(xí)方法，具體涉及基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法。

背景技術(shù)：

1、在近年來，計算機(jī)視覺應(yīng)用迅猛發(fā)展，特別是在機(jī)器人技術(shù)、自動駕駛汽車、三維場景重建以及增強(qiáng)現(xiàn)實(shí)等高端應(yīng)用中。這些技術(shù)的實(shí)現(xiàn)的關(guān)鍵之一在于準(zhǔn)確提取場景的三維深度信息，以實(shí)現(xiàn)對環(huán)境的準(zhǔn)確感知和理解。盡管立體視覺和時間序列分析等現(xiàn)有深度估計技術(shù)在精度上取得了重大突破，但它們往往需要依賴于多個視角的圖像或連續(xù)的幀序列。這種依賴限制了這些技術(shù)在資源受限或?qū)?shí)時處理有嚴(yán)格要求的應(yīng)用場景中的廣泛部署。相比之下，單目深度估計技術(shù)僅通過分析單個圖像中的視覺線索來預(yù)測場景的深度信息，因此在實(shí)際應(yīng)用中更具吸引力，尤其是在資源有限或?qū)崟r性要求較高的場景中。然而，現(xiàn)有單目深度估計方法在模型學(xué)習(xí)過程中可能忽略精細(xì)特征和，影響其在處理復(fù)雜場景、低紋理區(qū)域或遮擋區(qū)域時恢復(fù)局部細(xì)節(jié)和保持深度連續(xù)性的能力。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法，能夠增強(qiáng)模型對多尺度物體的感知能力以及對復(fù)雜場景細(xì)節(jié)結(jié)構(gòu)的恢復(fù)效果。

2、本發(fā)明采用的技術(shù)方案如下：

3、基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法，具體按以下步驟實(shí)施：

4、步驟1，圖像特征提取；

5、步驟2，多尺度特征提取；

6、步驟3，分塊細(xì)節(jié)提?。?/p>

7、步驟4，長距離依賴捕捉；

8、步驟5，多級特征聚合；

9、步驟6，深度值預(yù)測；

10、步驟7，相對位姿估計；

11、步驟8，自監(jiān)督信號生成；

12、步驟9，模型訓(xùn)練優(yōu)化。

13、本發(fā)明的特點(diǎn)在于，

14、步驟1具體按以下步驟實(shí)施：

15、步驟1.1，輸入圖像分割，將輸入rgb圖像分割成大小為p×p的非重疊patches，每個patch視為一個token；

16、步驟1.2，線性投影，對每個token進(jìn)行線性投影，將其映射到更高維度的特征空間

17、步驟1.3，特征合并，使用patch?merging模塊將相鄰的patch特征合并，實(shí)現(xiàn)特征圖的下采樣；

18、步驟1.4，多階段特征提取，構(gòu)建4個分層式transformer?blocks，每個階段的輸出作為下一階段的輸入，生成4種不同分辨率的特征圖

19、步驟1.5，特征圖上采樣與拼接，通過上采樣將低分辨率的特征圖恢復(fù)到高分辨率，并與解碼器中的高分辨率特征通過跳躍連接進(jìn)行拼接，以聚合高級別和低級別的特征信息，最終輸出特征圖x的分辨率為

20、步驟2具體按以下步驟實(shí)施：

21、步驟2.1，構(gòu)建3個金字塔池化層，每個層分別使用1×1、3×3和6×6尺寸的卷積核，在不同尺度上聚合特征；

22、步驟2.2，同時進(jìn)行池化操作，對于每個尺度的特征圖應(yīng)用平均池化操作；

23、步驟2.3，特征上采樣，對經(jīng)過平均池化的每個尺度的特征圖執(zhí)行上采樣操作，采用雙線性插值技術(shù)將特征圖的尺寸恢復(fù)至與原始輸入特征圖一致的空間分辨率；

24、步驟2.4，輸出多尺度特征圖。

25、步驟3具體按以下步驟實(shí)施：

26、步驟3.1，特征圖分割，將輸入的多尺度特征圖分割為n個相同大小的每個patch為特征圖中的一個特定區(qū)域，其中和

27、步驟3.2，應(yīng)用通道注意力，對每個分割得到的patchespi獨(dú)立應(yīng)用通道注意力機(jī)制，如下式(1)所示：

28、

29、式中，p′i表示經(jīng)過通道注意力機(jī)制調(diào)整后的通道數(shù)據(jù)，表示通道注意力，通過計算得到的中間權(quán)重圖對通道維度進(jìn)行加權(quán)，以此來調(diào)整pi各個通道的貢獻(xiàn)度；此外，γ(·)表示一個用于非線性變換的激活函數(shù)，αi(·)表示一個通道權(quán)重映射函數(shù)；

30、步驟3.3，應(yīng)用空間注意力，對通道注意力的結(jié)果p′i應(yīng)用空間注意力，如下式(2)所示：

31、

32、式中，p″i表示經(jīng)過空間注意力處理后的通道數(shù)據(jù)，表示通道注意力，空間注意力函數(shù)βi作用于通道注意力的結(jié)果p′i，生成一個空間權(quán)重圖該權(quán)重圖用于調(diào)整不同空間位置的貢獻(xiàn)度，δ(·)表示一個對空間權(quán)重圖進(jìn)行非線性變換的激活函數(shù)；

33、步驟3.4，特征聚合與細(xì)化，將空間注意力的結(jié)果p″i與原始數(shù)據(jù)pi在通道維度上進(jìn)行拼接，通過空間全局平均池化對拼接后的特征進(jìn)行細(xì)化，得到精細(xì)的公式表示如下：

34、zi＝ρ([p″i,pi]),i＝1,2,…,n??(3)

35、式中，ρ(·)表示全局空間平均池化，[·]表示特征拼接操作；

36、步驟3.5，特征重組，對所有patches重復(fù)以上步驟，并將所有得到的精細(xì)tokens重新排列，形成有序的特征序列并使用一維卷積對token序列z的通道進(jìn)行降維處理，以適應(yīng)后續(xù)網(wǎng)絡(luò)層的輸入要求；

37、步驟4具體按以下步驟實(shí)施：

38、步驟4.1，應(yīng)用多頭注意力，對每個特征序列應(yīng)用多頭注意力來捕獲序列內(nèi)部長距離依賴關(guān)系，公式表示如下：

39、

40、式中，q，k，v分別是查詢、鍵和值矩陣，和表示可學(xué)習(xí)的參數(shù)矩陣，n表示注意力頭的數(shù)量，softmax(·)函數(shù)是將注意力分?jǐn)?shù)轉(zhuǎn)換為概率分布，dk是鍵的通道維度數(shù)；

41、步驟4.2，應(yīng)用前饋網(wǎng)絡(luò)，對多頭注意力的輸出應(yīng)用前饋網(wǎng)絡(luò)來進(jìn)一步提取特征，公式表示如下：

42、ffn(ei′)＝relu(ei′·w1+b1)·w2+b2??(7)

43、式中，ei′表示步驟4.1應(yīng)用多頭注意力的結(jié)果，w1和w2是可學(xué)習(xí)的權(quán)重矩陣，b1和n2是對應(yīng)的偏置項(xiàng)，以及relu(·)是激活函數(shù)，用于引入非線性；

44、步驟4.3，層歸一化與殘差連接，對前饋網(wǎng)絡(luò)的輸出進(jìn)行層歸一化，并加上殘差連接來增強(qiáng)模型的學(xué)習(xí)能力和穩(wěn)定性，公式表示如下：

45、e″i＝ln(e′i+ffn(e′i))??(8)

46、式中，ln(·)是層歸一化操作，它對每個特征通道進(jìn)行歸一化。

47、步驟5具體按以下步驟實(shí)施：

48、步驟5.1，多尺度特征序列輸入，獲取步驟4輸出的多尺度token特征序列(e1,e2,e3,e4)；

49、步驟5.2，初始化查詢序列，選擇最精細(xì)的特征序列e1，以保留盡可能多的細(xì)節(jié)信息，并將其初始化為起始查詢序列

50、步驟5.3，維度對齊，利用線性映射將查詢序列和其他token序列映射到同一維度；

51、步驟5.4，遞歸多尺度特征交互，以作為起點(diǎn)，逐步與其低尺度的token序列e2,e3,e4,e1，進(jìn)行遞歸交互；

52、步驟5.5，應(yīng)用多頭交叉注意力，對于每一對查詢序列和token序列ei，執(zhí)行多頭交叉注意力來整合跨尺度的特征信息，公式表示如下：

53、

54、

55、式中，和是可學(xué)習(xí)的參數(shù)矩陣，用于將查詢序列和token序列ei分別映射到查詢、鍵和值表示，n表示注意力頭的數(shù)量，以允許模型在多個子空間中并行地捕獲信息，dk是鍵的通道維度，softmax(·)函數(shù)是將注意力分?jǐn)?shù)轉(zhuǎn)換為概率分布；

56、步驟5.6，應(yīng)用多頭自注意力，對多頭交叉注意力的輸出應(yīng)用多頭自注意力來捕獲序列內(nèi)部長距離依賴性，公式表示如下：

57、

58、式中，和是可學(xué)習(xí)的參數(shù)矩陣，n表示注意力頭的數(shù)量與步驟5.5所設(shè)置的參數(shù)一致，a(·)表示注意力函數(shù)與步驟5.5一致；

59、步驟5.7，殘差連接與層歸一化，將多頭自注意力的輸出與原始查詢序列相加并通過層歸一化，公式表示如下：

60、

61、式中，ln(·)是層歸一化操作，用于將通道特征進(jìn)行歸一化處理，以確保數(shù)據(jù)分布的穩(wěn)定性和減少內(nèi)部協(xié)變量偏移；

62、步驟5.8，更新查詢序列，輸出更新查詢序列并與下一個尺度的token序列ei+1交互，直到所有尺度的序列都被交互和聚合；

63、步驟5.9，輸出全局上下文特征，在完成所有遞歸交互后，輸出聚合后的全局上下文特征。

64、步驟6具體按以下步驟實(shí)施：

65、步驟6.1，像素級概率分布計算，首先對深度線索圖應(yīng)用卷積操作，將通道映射到n維；接著，對經(jīng)過映射的深度線索圖應(yīng)用softmax激活函數(shù)，得到每個像素在深度區(qū)間(bins)中的概率分布pi,j,k,1≤i≤n,1≤j≤h,1≤k≤w，n,h和w分別代表深度bins維度、圖像的高度和寬度；

66、步驟6.2，計算bins中心，根據(jù)bins的寬度計算bins中心值，公式表示如下：

67、

68、式中，dmin和dmax分別指代深度范圍的下限和上限，bi表示各個深度區(qū)間(bins)的寬度；

69、步驟6.3，計算最終深度值，對于圖像中的每個像素，基于softmax分?jǐn)?shù)和bin中心值的概率線性組合，計算最終深度值d，公式表示如下：

70、

71、步驟6.4，深度值規(guī)范化，對計算得到的深度值進(jìn)行規(guī)范化處理，確保在預(yù)定的深度范圍[-dmin,dmax]內(nèi)。

72、步驟7具體按以下步驟實(shí)施：

73、步驟7.1，圖像特征提取，使用與深度網(wǎng)絡(luò)共享主干網(wǎng)絡(luò)從目標(biāo)圖像it和相鄰幀圖像it′中提取特征；

74、步驟7.2，相對位姿估計，聯(lián)合訓(xùn)練一個輔助位姿網(wǎng)絡(luò)，該網(wǎng)絡(luò)從目標(biāo)圖像it和參考圖像it′估計它們之間的相對位姿tt→t′，該位姿包含了從目標(biāo)圖像到參考圖像的旋轉(zhuǎn)和平移信息。

75、步驟8具體按以下步驟實(shí)施：

76、步驟8.1，圖像投影，使用步驟6獲得的深度圖dt和步驟7輸出的相對位姿tt→t′，通過投影函數(shù)proj(·)來計算it中每個像素在相鄰幀圖像it′中對應(yīng)的2d坐標(biāo)；

77、步驟8.2，圖像合成，根據(jù)投影的2d坐標(biāo)，通過采樣算子<·>合成變形后的圖像it→t′，公式表示如下：

78、it→t′＝it′<proj(dt,tt→t′,k)>??(17)

79、式中，proj(dt,tt→t′,k)返回深度圖dt在it′中投影的2d坐標(biāo)，<·>用于從相鄰幀圖像it′中采樣對應(yīng)位置的像素值，k表示相機(jī)的內(nèi)參矩陣。

80、步驟9具體按以下步驟實(shí)施：

81、步驟9.1，計算光度誤差，公式表示如下：

82、

83、式中，α是用于平衡ssim和l1范數(shù)的權(quán)重，通常設(shè)置為0.85，ssim是結(jié)構(gòu)相似性指數(shù)，用于衡量兩幅圖像的視覺相似度；

84、步驟9.2，計算最小光度誤差，公式表示如下：

85、lp(it,it′)＝mint′pe(it,it→t′)??(19)

86、式中，t′∈{t-1,t+1}表示考慮目標(biāo)圖像it的前一幀或后一幀；

87、步驟9.3，生成自動掩膜，用于過濾靜止像素和低紋理區(qū)域，減少動態(tài)場景中移動物體對訓(xùn)練的干擾，公式表示如下：

88、μ＝[mint′pe(it,it′→t)<mint′pe(it,it′)]??(20)

89、式中，[.]表示iverson括號用于將表達(dá)式轉(zhuǎn)換為二進(jìn)制值，因此μ∈{0,1}；

90、步驟9.4，計算圖像重投影誤差，公式表示如下：

91、lr(it,it→t′)＝μ·lp(it,it′)??(21)。

92、本發(fā)明的有益效果是：

93、本發(fā)明基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法，利用自監(jiān)督單目深度估計模型，不依賴于外部標(biāo)注數(shù)據(jù)，而是通過內(nèi)部數(shù)據(jù)結(jié)構(gòu)的特性進(jìn)行自我學(xué)習(xí)與優(yōu)化；通過逐步深入挖掘局部區(qū)域的精細(xì)特征，并結(jié)合多級特征序列跨層交互不斷提煉和聚合多尺度上下文信息，顯著增強(qiáng)了模型對多尺度物體的感知能力以及對復(fù)雜場景細(xì)節(jié)結(jié)構(gòu)的恢復(fù)效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋霄罡,劉健,黑新宏
技術(shù)所有人：西安理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法