本發(fā)明涉及計算機(jī)視覺與深度學(xué)習(xí)方法,具體涉及基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法。
背景技術(shù):
1、在近年來,計算機(jī)視覺應(yīng)用迅猛發(fā)展,特別是在機(jī)器人技術(shù)、自動駕駛汽車、三維場景重建以及增強(qiáng)現(xiàn)實(shí)等高端應(yīng)用中。這些技術(shù)的實(shí)現(xiàn)的關(guān)鍵之一在于準(zhǔn)確提取場景的三維深度信息,以實(shí)現(xiàn)對環(huán)境的準(zhǔn)確感知和理解。盡管立體視覺和時間序列分析等現(xiàn)有深度估計技術(shù)在精度上取得了重大突破,但它們往往需要依賴于多個視角的圖像或連續(xù)的幀序列。這種依賴限制了這些技術(shù)在資源受限或?qū)?shí)時處理有嚴(yán)格要求的應(yīng)用場景中的廣泛部署。相比之下,單目深度估計技術(shù)僅通過分析單個圖像中的視覺線索來預(yù)測場景的深度信息,因此在實(shí)際應(yīng)用中更具吸引力,尤其是在資源有限或?qū)崟r性要求較高的場景中。然而,現(xiàn)有單目深度估計方法在模型學(xué)習(xí)過程中可能忽略精細(xì)特征和,影響其在處理復(fù)雜場景、低紋理區(qū)域或遮擋區(qū)域時恢復(fù)局部細(xì)節(jié)和保持深度連續(xù)性的能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法,能夠增強(qiáng)模型對多尺度物體的感知能力以及對復(fù)雜場景細(xì)節(jié)結(jié)構(gòu)的恢復(fù)效果。
2、本發(fā)明采用的技術(shù)方案如下:
3、基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法,具體按以下步驟實(shí)施:
4、步驟1,圖像特征提取;
5、步驟2,多尺度特征提取;
6、步驟3,分塊細(xì)節(jié)提?。?/p>
7、步驟4,長距離依賴捕捉;
8、步驟5,多級特征聚合;
9、步驟6,深度值預(yù)測;
10、步驟7,相對位姿估計;
11、步驟8,自監(jiān)督信號生成;
12、步驟9,模型訓(xùn)練優(yōu)化。
13、本發(fā)明的特點(diǎn)在于,
14、步驟1具體按以下步驟實(shí)施:
15、步驟1.1,輸入圖像分割,將輸入rgb圖像分割成大小為p×p的非重疊patches,每個patch視為一個token;
16、步驟1.2,線性投影,對每個token進(jìn)行線性投影,將其映射到更高維度的特征空間
17、步驟1.3,特征合并,使用patch?merging模塊將相鄰的patch特征合并,實(shí)現(xiàn)特征圖的下采樣;
18、步驟1.4,多階段特征提取,構(gòu)建4個分層式transformer?blocks,每個階段的輸出作為下一階段的輸入,生成4種不同分辨率的特征圖
19、步驟1.5,特征圖上采樣與拼接,通過上采樣將低分辨率的特征圖恢復(fù)到高分辨率,并與解碼器中的高分辨率特征通過跳躍連接進(jìn)行拼接,以聚合高級別和低級別的特征信息,最終輸出特征圖x的分辨率為
20、步驟2具體按以下步驟實(shí)施:
21、步驟2.1,構(gòu)建3個金字塔池化層,每個層分別使用1×1、3×3和6×6尺寸的卷積核,在不同尺度上聚合特征;
22、步驟2.2,同時進(jìn)行池化操作,對于每個尺度的特征圖應(yīng)用平均池化操作;
23、步驟2.3,特征上采樣,對經(jīng)過平均池化的每個尺度的特征圖執(zhí)行上采樣操作,采用雙線性插值技術(shù)將特征圖的尺寸恢復(fù)至與原始輸入特征圖一致的空間分辨率;
24、步驟2.4,輸出多尺度特征圖。
25、步驟3具體按以下步驟實(shí)施:
26、步驟3.1,特征圖分割,將輸入的多尺度特征圖分割為n個相同大小的每個patch為特征圖中的一個特定區(qū)域,其中和
27、步驟3.2,應(yīng)用通道注意力,對每個分割得到的patchespi獨(dú)立應(yīng)用通道注意力機(jī)制,如下式(1)所示:
28、
29、式中,p′i表示經(jīng)過通道注意力機(jī)制調(diào)整后的通道數(shù)據(jù),表示通道注意力,通過計算得到的中間權(quán)重圖對通道維度進(jìn)行加權(quán),以此來調(diào)整pi各個通道的貢獻(xiàn)度;此外,γ(·)表示一個用于非線性變換的激活函數(shù),αi(·)表示一個通道權(quán)重映射函數(shù);
30、步驟3.3,應(yīng)用空間注意力,對通道注意力的結(jié)果p′i應(yīng)用空間注意力,如下式(2)所示:
31、
32、式中,p″i表示經(jīng)過空間注意力處理后的通道數(shù)據(jù),表示通道注意力,空間注意力函數(shù)βi作用于通道注意力的結(jié)果p′i,生成一個空間權(quán)重圖該權(quán)重圖用于調(diào)整不同空間位置的貢獻(xiàn)度,δ(·)表示一個對空間權(quán)重圖進(jìn)行非線性變換的激活函數(shù);
33、步驟3.4,特征聚合與細(xì)化,將空間注意力的結(jié)果p″i與原始數(shù)據(jù)pi在通道維度上進(jìn)行拼接,通過空間全局平均池化對拼接后的特征進(jìn)行細(xì)化,得到精細(xì)的公式表示如下:
34、zi=ρ([p″i,pi]),i=1,2,…,n??(3)
35、式中,ρ(·)表示全局空間平均池化,[·]表示特征拼接操作;
36、步驟3.5,特征重組,對所有patches重復(fù)以上步驟,并將所有得到的精細(xì)tokens重新排列,形成有序的特征序列并使用一維卷積對token序列z的通道進(jìn)行降維處理,以適應(yīng)后續(xù)網(wǎng)絡(luò)層的輸入要求;
37、步驟4具體按以下步驟實(shí)施:
38、步驟4.1,應(yīng)用多頭注意力,對每個特征序列應(yīng)用多頭注意力來捕獲序列內(nèi)部長距離依賴關(guān)系,公式表示如下:
39、
40、式中,q,k,v分別是查詢、鍵和值矩陣,和表示可學(xué)習(xí)的參數(shù)矩陣,n表示注意力頭的數(shù)量,softmax(·)函數(shù)是將注意力分?jǐn)?shù)轉(zhuǎn)換為概率分布,dk是鍵的通道維度數(shù);
41、步驟4.2,應(yīng)用前饋網(wǎng)絡(luò),對多頭注意力的輸出應(yīng)用前饋網(wǎng)絡(luò)來進(jìn)一步提取特征,公式表示如下:
42、ffn(ei′)=relu(ei′·w1+b1)·w2+b2??(7)
43、式中,ei′表示步驟4.1應(yīng)用多頭注意力的結(jié)果,w1和w2是可學(xué)習(xí)的權(quán)重矩陣,b1和n2是對應(yīng)的偏置項(xiàng),以及relu(·)是激活函數(shù),用于引入非線性;
44、步驟4.3,層歸一化與殘差連接,對前饋網(wǎng)絡(luò)的輸出進(jìn)行層歸一化,并加上殘差連接來增強(qiáng)模型的學(xué)習(xí)能力和穩(wěn)定性,公式表示如下:
45、e″i=ln(e′i+ffn(e′i))??(8)
46、式中,ln(·)是層歸一化操作,它對每個特征通道進(jìn)行歸一化。
47、步驟5具體按以下步驟實(shí)施:
48、步驟5.1,多尺度特征序列輸入,獲取步驟4輸出的多尺度token特征序列(e1,e2,e3,e4);
49、步驟5.2,初始化查詢序列,選擇最精細(xì)的特征序列e1,以保留盡可能多的細(xì)節(jié)信息,并將其初始化為起始查詢序列
50、步驟5.3,維度對齊,利用線性映射將查詢序列和其他token序列映射到同一維度;
51、步驟5.4,遞歸多尺度特征交互,以作為起點(diǎn),逐步與其低尺度的token序列e2,e3,e4,e1,進(jìn)行遞歸交互;
52、步驟5.5,應(yīng)用多頭交叉注意力,對于每一對查詢序列和token序列ei,執(zhí)行多頭交叉注意力來整合跨尺度的特征信息,公式表示如下:
53、
54、
55、式中,和是可學(xué)習(xí)的參數(shù)矩陣,用于將查詢序列和token序列ei分別映射到查詢、鍵和值表示,n表示注意力頭的數(shù)量,以允許模型在多個子空間中并行地捕獲信息,dk是鍵的通道維度,softmax(·)函數(shù)是將注意力分?jǐn)?shù)轉(zhuǎn)換為概率分布;
56、步驟5.6,應(yīng)用多頭自注意力,對多頭交叉注意力的輸出應(yīng)用多頭自注意力來捕獲序列內(nèi)部長距離依賴性,公式表示如下:
57、
58、式中,和是可學(xué)習(xí)的參數(shù)矩陣,n表示注意力頭的數(shù)量與步驟5.5所設(shè)置的參數(shù)一致,a(·)表示注意力函數(shù)與步驟5.5一致;
59、步驟5.7,殘差連接與層歸一化,將多頭自注意力的輸出與原始查詢序列相加并通過層歸一化,公式表示如下:
60、
61、式中,ln(·)是層歸一化操作,用于將通道特征進(jìn)行歸一化處理,以確保數(shù)據(jù)分布的穩(wěn)定性和減少內(nèi)部協(xié)變量偏移;
62、步驟5.8,更新查詢序列,輸出更新查詢序列并與下一個尺度的token序列ei+1交互,直到所有尺度的序列都被交互和聚合;
63、步驟5.9,輸出全局上下文特征,在完成所有遞歸交互后,輸出聚合后的全局上下文特征。
64、步驟6具體按以下步驟實(shí)施:
65、步驟6.1,像素級概率分布計算,首先對深度線索圖應(yīng)用卷積操作,將通道映射到n維;接著,對經(jīng)過映射的深度線索圖應(yīng)用softmax激活函數(shù),得到每個像素在深度區(qū)間(bins)中的概率分布pi,j,k,1≤i≤n,1≤j≤h,1≤k≤w,n,h和w分別代表深度bins維度、圖像的高度和寬度;
66、步驟6.2,計算bins中心,根據(jù)bins的寬度計算bins中心值,公式表示如下:
67、
68、式中,dmin和dmax分別指代深度范圍的下限和上限,bi表示各個深度區(qū)間(bins)的寬度;
69、步驟6.3,計算最終深度值,對于圖像中的每個像素,基于softmax分?jǐn)?shù)和bin中心值的概率線性組合,計算最終深度值d,公式表示如下:
70、
71、步驟6.4,深度值規(guī)范化,對計算得到的深度值進(jìn)行規(guī)范化處理,確保在預(yù)定的深度范圍[-dmin,dmax]內(nèi)。
72、步驟7具體按以下步驟實(shí)施:
73、步驟7.1,圖像特征提取,使用與深度網(wǎng)絡(luò)共享主干網(wǎng)絡(luò)從目標(biāo)圖像it和相鄰幀圖像it′中提取特征;
74、步驟7.2,相對位姿估計,聯(lián)合訓(xùn)練一個輔助位姿網(wǎng)絡(luò),該網(wǎng)絡(luò)從目標(biāo)圖像it和參考圖像it′估計它們之間的相對位姿tt→t′,該位姿包含了從目標(biāo)圖像到參考圖像的旋轉(zhuǎn)和平移信息。
75、步驟8具體按以下步驟實(shí)施:
76、步驟8.1,圖像投影,使用步驟6獲得的深度圖dt和步驟7輸出的相對位姿tt→t′,通過投影函數(shù)proj(·)來計算it中每個像素在相鄰幀圖像it′中對應(yīng)的2d坐標(biāo);
77、步驟8.2,圖像合成,根據(jù)投影的2d坐標(biāo),通過采樣算子<·>合成變形后的圖像it→t′,公式表示如下:
78、it→t′=it′<proj(dt,tt→t′,k)>??(17)
79、式中,proj(dt,tt→t′,k)返回深度圖dt在it′中投影的2d坐標(biāo),<·>用于從相鄰幀圖像it′中采樣對應(yīng)位置的像素值,k表示相機(jī)的內(nèi)參矩陣。
80、步驟9具體按以下步驟實(shí)施:
81、步驟9.1,計算光度誤差,公式表示如下:
82、
83、式中,α是用于平衡ssim和l1范數(shù)的權(quán)重,通常設(shè)置為0.85,ssim是結(jié)構(gòu)相似性指數(shù),用于衡量兩幅圖像的視覺相似度;
84、步驟9.2,計算最小光度誤差,公式表示如下:
85、lp(it,it′)=mint′pe(it,it→t′)??(19)
86、式中,t′∈{t-1,t+1}表示考慮目標(biāo)圖像it的前一幀或后一幀;
87、步驟9.3,生成自動掩膜,用于過濾靜止像素和低紋理區(qū)域,減少動態(tài)場景中移動物體對訓(xùn)練的干擾,公式表示如下:
88、μ=[mint′pe(it,it′→t)<mint′pe(it,it′)]??(20)
89、式中,[.]表示iverson括號用于將表達(dá)式轉(zhuǎn)換為二進(jìn)制值,因此μ∈{0,1};
90、步驟9.4,計算圖像重投影誤差,公式表示如下:
91、lr(it,it→t′)=μ·lp(it,it′)??(21)。
92、本發(fā)明的有益效果是:
93、本發(fā)明基于分塊細(xì)節(jié)提取和多級特征聚合的自監(jiān)督深度估計方法,利用自監(jiān)督單目深度估計模型,不依賴于外部標(biāo)注數(shù)據(jù),而是通過內(nèi)部數(shù)據(jù)結(jié)構(gòu)的特性進(jìn)行自我學(xué)習(xí)與優(yōu)化;通過逐步深入挖掘局部區(qū)域的精細(xì)特征,并結(jié)合多級特征序列跨層交互不斷提煉和聚合多尺度上下文信息,顯著增強(qiáng)了模型對多尺度物體的感知能力以及對復(fù)雜場景細(xì)節(jié)結(jié)構(gòu)的恢復(fù)效果。