本發(fā)明屬于計算機視覺,具體涉及到一種基于雙向融合的多模態(tài)激光雷達(dá)點云目標(biāo)檢測方法。
背景技術(shù):
1、在計算機視覺和自動駕駛系統(tǒng)領(lǐng)域,三維目標(biāo)檢測技術(shù)是一個快速增長的領(lǐng)域,并取得了重大進(jìn)展。三維目標(biāo)檢測任務(wù)的目標(biāo)是獲得物體的空間結(jié)構(gòu)信息,在二維目標(biāo)檢測的基礎(chǔ)上增加了對目標(biāo)尺寸,深度和姿態(tài)信息的估計。而三維目標(biāo)檢測往往通過點云數(shù)據(jù)提供真實三維空間物體的深度信息,從而可以檢測出物體的類別和真實三維空間位置,還可以檢測出物體姿態(tài)和空間角度等信息,從而彌補二維目標(biāo)檢測在感知上的不足。
2、圖像和點云是場景理解中的重要數(shù)據(jù)源。前者提供了豐富的視覺信息,而后者提供了準(zhǔn)確的深度信息,這是高精度的三維定位和尺寸估計所必需的條件。隨著距離的增加,點云密度趨于快速減小,而圖像仍然可以為檢測遠(yuǎn)距離目標(biāo)提供補充信息。激光雷達(dá)擁有精確的深度點云信息,包括點的三維坐標(biāo)、反射強度等,但由于數(shù)據(jù)的無序性、稀疏性和遮擋性,使得部分?jǐn)?shù)據(jù)不完整,數(shù)據(jù)處理相對復(fù)雜。相對而言,攝像頭保留了更詳細(xì)的紋理語義信息,并可以通過使用深度學(xué)習(xí)方法快速實時地檢測對象。但從圖像中估計物體的三維位姿比較困難,且容易受到光照強度、背景環(huán)境等因素的影響,使得檢測效果不夠穩(wěn)定。因此采用激光雷達(dá)點云和rgb圖像的融合,可以顯著提高系統(tǒng)的冗余度,提高自動駕駛中三維目標(biāo)檢測算法的準(zhǔn)確性,從而保證決策的實時性和正確性。
3、從傳感器的角度來看,激光雷達(dá)測量的點云數(shù)據(jù)可以提供高精度接近線性誤差的深度信息,但它容易受到惡劣天氣的影響。相機拍攝的rgb圖片在視覺識別方面可以提供顏色或紋理信息,但無法獲取深度信息。圖像數(shù)據(jù)和點云數(shù)據(jù)單獨用于三維目標(biāo)檢測仍有很多缺陷,因此基于圖像與點云融合的三維目標(biāo)檢測方法應(yīng)運而生,之前的研究工作使用的融合方法大多是用圖像語義特征裝飾點云特征,兩種模態(tài)信息交互不夠全面,數(shù)據(jù)資源沒有得到充分利用,因此考慮點到像素的傳播,實現(xiàn)點云特征和圖像特征的雙向融合。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是為解決在傳統(tǒng)融合方法中點云信息和圖片信息之間沒有實現(xiàn)充分的模態(tài)交互,導(dǎo)致現(xiàn)有多模態(tài)檢測方法的目標(biāo)檢測精度低的問題,而提出的一種基于雙向融合的多模態(tài)激光雷達(dá)點云目標(biāo)檢測方法。
2、本發(fā)明通過如下技術(shù)方案實現(xiàn):
3、一種基于雙向融合的多模態(tài)激光雷達(dá)點云目標(biāo)檢測方法,具體包括以下步驟:
4、步驟1:獲取激光雷達(dá)采集的原始點云數(shù)據(jù),獲取相機采集的原始圖像數(shù)據(jù),其中,原始點云數(shù)據(jù)包括空間坐標(biāo)信息(x,y,z),原始圖像數(shù)據(jù)包含rgb信息;然后對獲得的原始點云數(shù)據(jù)和原始圖像數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的點云數(shù)據(jù)和圖像數(shù)據(jù);
5、步驟2:將預(yù)處理后的點云數(shù)據(jù)和圖像數(shù)據(jù)輸入基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò)中進(jìn)行處理,得到三維邊界框的檢測結(jié)果;
6、步驟3:采用kitti數(shù)據(jù)集的訓(xùn)練集訓(xùn)練基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò);
7、步驟4:采用訓(xùn)練好的基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò)對kitti測試集的點云數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行處理,輸出3d邊界框,實現(xiàn)3d目標(biāo)檢測。
8、進(jìn)一步地,步驟1中,所獲得的原始點云數(shù)據(jù)和原始圖像數(shù)據(jù)均來源于kitti數(shù)據(jù)集。
9、進(jìn)一步地,步驟2中,所述基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò)包括激光雷達(dá)點云特征提取模塊、圖像特征提取模塊、雙向融合模塊及目標(biāo)檢測模塊;
10、所述激光雷達(dá)點云特征提取模塊包括三個集抽象層(sa)和三個特征傳播層(fp),將點云數(shù)據(jù)輸入至sa層進(jìn)行逐步下采樣,得到代表性更強的不同尺度下的點云特征,再通過fp層進(jìn)行插值操作,實現(xiàn)點云特征上采樣,將點云特征恢復(fù)至原有尺度;
11、所述圖像特征提取模塊包括四個卷積塊和三個轉(zhuǎn)置卷積層,其中前三個卷積塊用來提取不同分辨率下的圖像特征,和不同分辨率下的點云特征做匹配;后將得到的不同分辨率下的圖像特征分別放入三個不同的轉(zhuǎn)置卷積層中實現(xiàn)圖像特征上采樣;然后將恢復(fù)至原來分辨率的圖像特征以串聯(lián)的方式進(jìn)行結(jié)合,送入第四個卷積塊中,經(jīng)處理得到最終的圖像特征;
12、所述雙向融合模塊包括點云增強圖像特征模塊和圖像增強點云特征模塊;
13、所述點云增強圖像特征模塊用于將三維點云數(shù)據(jù)投影至二維圖像平面,對點方向的特征進(jìn)行網(wǎng)格級插值形成二維特征圖,對于圖像的每一個像素位置(u,v),采集投影在該像素范圍內(nèi)的所有點云數(shù)據(jù)所包含的的幾何特征,對采集到的特征進(jìn)行最大池化聚合處理,最終得到的特征代表該像素部分的特征;
14、
15、其中,fp表示最終得到的像素特征,表示該像素位置下每個點的特征,n表示位于第u行和第v列的像素范圍內(nèi)可以投影的點的個數(shù),對于內(nèi)部沒有投影點的空像素位置,將其特征值定義為0;
16、將得到的二維網(wǎng)格特征與二維原始圖像特征串聯(lián)結(jié)合,外接一個1×1的卷積層,得到最終二維特征圖;
17、ff=conv(cat(fp,f))
18、其中,f表示二維原始圖像特征,ff表示最終得到的二維特征圖,最后將得到的二維特征圖送入圖像特征處理模塊的后續(xù)層中;
19、所述圖像增強點云特征模塊用于將三維點云數(shù)據(jù)投影到二維圖像平面,利用投影和校準(zhǔn)矩陣來計算每個三維點云pj(xj,yj,zj)在二維圖像平面的投影坐標(biāo)p′j(x′j,y′j);
20、p′j=r_rect_in×r_rect_×tv_to_c×pj
21、其中,r_rect_in表示攝像機的內(nèi)參矩陣,r_rect_表示攝像機的校準(zhǔn)矩陣,tv_to_c表示激光雷達(dá)到相機的轉(zhuǎn)換矩陣;
22、然后采用雙線性插值的方法得到逐點的圖像特征表示,公式如下:
23、
24、其中,表示pj對應(yīng)的圖像特征,k表示雙線性插值函數(shù),表示投影位置p′j的相鄰像素的圖像特征,最后將得到的結(jié)果送入激光雷達(dá)點云特征提取模塊的后續(xù)層中。
25、進(jìn)一步地,所述圖像特征提取模塊中前三個卷積塊中每個卷積塊都包含一個bn層、一個relu激活函數(shù)和兩個3×3卷積層,其中,第二個卷積層的步幅設(shè)置為2;第四個卷積塊包含一個bn層,一個relu激活函數(shù)和一個1×1的卷積層。
26、進(jìn)一步地,步驟2具體包括如下內(nèi)容:
27、步驟2.1:將預(yù)處理后的點云數(shù)據(jù)輸入激光雷達(dá)點云特征提取模塊,經(jīng)特征提取后輸出三個不同尺度的點云特征,所述點云特征輸出給雙向特征融合模塊;
28、步驟2.2:將預(yù)處理后的圖像數(shù)據(jù)輸入圖像特征提取模塊,經(jīng)特征提取后輸出三個不同分辨率下的圖像特征;所述圖像特征輸出給雙向特征融合模塊;
29、步驟2.3:所述點云特征與所述圖像特征在雙向融合模塊中進(jìn)行特征融合,得到三個對應(yīng)尺度的多模態(tài)融合特征;所述多模態(tài)融合特征回傳給激光雷達(dá)特征提取模塊和圖像特征提取模塊中相應(yīng)尺度的特征提取層,雙向融合模塊中只包含圖像增強點云特征部分,輸入為經(jīng)圖像特征提取模塊提取的最終二維特征圖,輸出多模態(tài)融合特征給目標(biāo)檢測模塊;
30、步驟2.4:目標(biāo)檢測模塊采用基于bin的3d邊界框生成操作對前景點生成3d邊界框和對應(yīng)的分?jǐn)?shù);對于生成的邊界框利用非極大值抑制nms處理,去除邊界框中得分?jǐn)?shù)較低的邊界框,同時保留最大的得分的邊界框作為最終目標(biāo)檢測的結(jié)果。
31、進(jìn)一步地,步驟2.4中,采用基于bin的3d邊界框生成操作對前景點生成3d邊界框和對應(yīng)的分?jǐn)?shù),具體包括如下內(nèi)容:
32、對經(jīng)過基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò)得到的多模態(tài)融合特征,用一層一維卷積來生成該融合特征對應(yīng)的點云分類分?jǐn)?shù),分類分?jǐn)?shù)大于0.2的點被認(rèn)為是前景點,反之則為背景點,然后采用基于bin的3d邊界框生成操作對前景點生成3d邊界框和對應(yīng)的分?jǐn)?shù),對于生成的邊界框我們利用非極大值抑制nms處理,去除邊界框中得分?jǐn)?shù)較低的邊界框,同時保留最大的得分的邊界框作為最終目標(biāo)檢測的結(jié)果。
33、進(jìn)一步地,步驟2.4中,對于生成的邊界框利用非極大值抑制nms處理,具體包括如下內(nèi)容:
34、根據(jù)分?jǐn)?shù)對所有的邊界框排序,選擇得分最高的邊界框,使用預(yù)定義的閾值抑制所有其他與得分最大的邊界框有顯著重疊的邊界框;這個過程依次應(yīng)用于剩下的邊界框,并計算得分最高的邊界框與其他候選區(qū)域的邊界框的交并比iou,交并比iou是預(yù)測框和真值邊界框之間的交集和并集的比率;nms算法的計算公式如下:
35、
36、其中,si是比較和計算后的邊界框得分,si為邊界框的初始得分,m為得分最高的邊界框,bi為當(dāng)前邊界框,iou(m,bi)為m和bi之間的交并比,nt為閾值。
37、進(jìn)一步地,步驟3中,基于雙向融合的多模態(tài)目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,網(wǎng)絡(luò)的總損失包括一致性強制損失lce、分類損失lcls和回歸損失lreg。
38、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點如下:
39、本發(fā)明的一種基于雙向融合的多模態(tài)激光雷達(dá)點云目標(biāo)檢測方法,通過提取不同尺度的點云特征和圖像特征可以獲得更高質(zhì)量的特征信息,在多個尺度上加入雙向特征融合模塊可以使圖像特征和點云特征實現(xiàn)更充分的融合,使這兩種數(shù)據(jù)得到更充分地利用,減少了數(shù)據(jù)損耗,在目標(biāo)檢測任務(wù)中有更高的檢測率。