DSGN: Deep Stereo Geometry Network for 3D Object Detection
論文DSGN: Deep Stereo Geometry Network for 3D Object Detection發(fā)表在CVPR 2020上经宏。論文提出了一個(gè)基于雙目圖像(stereo-based)的端到端的三維物體檢測(cè)管線——Deep Stereo Geometry Network (DSGN)。其核心在構(gòu)建于通過空間變換將2D特征轉(zhuǎn)換成有效的3D結(jié)構(gòu)昧互,作者稱之為3D geometric volume (3DGV)。3DGV的核心思想在于構(gòu)建編碼了三維幾何信息的3D幾何體倡缠。它由在相機(jī)視錐體中構(gòu)建的平面掃描體(plane-sweep volume诽嘉,PSV)轉(zhuǎn)換到真實(shí)三維世界空間坐標(biāo)中而成。像素對(duì)應(yīng)的約束可以在PSV中很好地學(xué)習(xí)杀赢,而現(xiàn)實(shí)世界物體的三維特征可以在3DGV中學(xué)習(xí)辨萍。PSV的構(gòu)造是完全可導(dǎo)的棋恼,因此可以共同優(yōu)化立體匹配和物體檢測(cè)的學(xué)習(xí)。
論文主要貢獻(xiàn)如下:
- 通過在PSV中構(gòu)建立體照片之間的關(guān)系锈玉,再將其轉(zhuǎn)換成能夠同時(shí)編碼進(jìn)三維幾何信息和語義信息的3DGV爪飘,使得2D照片與3D空間之間建起了橋梁。
- 設(shè)計(jì)了一個(gè)端到端的框架拉背,提取像素級(jí)特征用于立體匹配和高級(jí)特征用于目標(biāo)識(shí)別师崎。網(wǎng)絡(luò)能同時(shí)估計(jì)場(chǎng)景深度和進(jìn)行3D目標(biāo)檢測(cè),從而實(shí)現(xiàn)多種實(shí)際應(yīng)用椅棺。
- 無需額外的技巧犁罩,此簡單且完全可導(dǎo)的網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上的表現(xiàn)超越所有其他基于雙目圖像的3D目標(biāo)檢測(cè)器(AP高出10個(gè)點(diǎn))。(插句題外話两疚,作者原文使用了Without bells and whistles…我一開始還以為是什么相關(guān)的技術(shù)床估,查了才知道是英語中的一句習(xí)語,指那些額外的诱渤、不必要的但通常令人愉快的東西丐巫。可以簡單理解為“花里胡哨的東西”??)
2D Feature Extraction
圖片特征提取部分沿用了PSMNet(Pyramid Stereo Matching Network)的主要設(shè)計(jì)勺美,輸入的雙目圖像通過一個(gè)孿生網(wǎng)絡(luò)——其中包含了了何愷明大神提出的空間金字塔池化(SPP Module)(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)——分別得到左右兩幅圖像的特征递胧。不過這一塊內(nèi)容在論文中并不是重點(diǎn),原文中也一帶而過了赡茸。
Constructing PSV and 3DGV
首先將左圖像的特征和重投影到左圖像坐標(biāo)系下的右圖像特征
在等深度間隔處進(jìn)行拼接(concatenating)缎脾,從而構(gòu)建了PSV。PSV的坐標(biāo)表示在相機(jī)視錐體網(wǎng)格空間(grid camera frustum space)
中坛掠,其中
是圖片中的像素位置赊锚,
是間隔為
的離散網(wǎng)格中的一個(gè)距離取值治筒。
計(jì)算得到的PSV在一條分支上用于計(jì)算cost volume屉栓,另一條分支上用于計(jì)算3DGV舷蒲。
如圖所示,通過逆投影矩陣
Depth Estimation
與其他方法不同,此網(wǎng)絡(luò)通過使用上一個(gè)步驟計(jì)算得到的PSV來計(jì)算cost volume域滥。對(duì)PSV進(jìn)行2次3D卷積纵柿,得到一個(gè)1D的cost volume,作者稱之為plane-sweep cost volume启绰。然后通過soft max對(duì)每個(gè)像素計(jì)算深度值昂儒,其中
是之前預(yù)定義的空間網(wǎng)格中間隔為
的離散采樣。
3D Object Detection
對(duì)于形狀為的3DGV委可,在
上逐步下采樣最終得到
的鳥瞰圖特征
渊跋。(論文原文這里寫成了
,應(yīng)該是筆誤着倾。)對(duì)于每個(gè)
拾酝,多個(gè)anchor被用于計(jì)算回歸。
DSGN++: Exploiting Visual-Spatial Relation for Stereo-Based 3D Detectors
作者團(tuán)隊(duì)在后續(xù)又提出了改進(jìn)版的網(wǎng)絡(luò):DSGN++: Exploiting Visual-Spatial Relation for Stereo-Based 3D Detectors發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence 2023上卡者。
作者首先指出從2D語義到3D體素的信息流質(zhì)量決定了后續(xù)的3D幾何表征的質(zhì)量蒿囤。而當(dāng)前構(gòu)建有效的立體特征體積有三個(gè)重要挑戰(zhàn)(valid information flow from 2D semantics to stereo volume determines the efficacy of the following 3D geometric representation for both geometric and semantic cues. However, current 3D modeling remains as an approximation of realistic 3D representation and poses three vital challenges for creating effective stereo feature volumes):
- 由于3D volume 的計(jì)算成本大,原始的2D features被限制在較小的channel數(shù)量崇决,這限制了后續(xù)的3D表征的能力材诽。
- 通過平面掃描(plane sweeping),可以獲得兩個(gè)視圖的幾何體:相機(jī)視錐體(camera frustum)內(nèi)的平面掃描體(Plane-sweep volume, PSV)和常規(guī)3D空間中的三維幾何體 (3D-geometry volume, 3DGV)恒傻。然而岳守,現(xiàn)實(shí)中的3D物體是非剛性的和不規(guī)則的。例如碌冶,一些類別像行人在鳥瞰圖中占用的體素較少湿痢,但在前視圖中卻很清晰可見。這兩種單視圖幾何體表現(xiàn)出不同的特性扑庞。
- 對(duì)于室外場(chǎng)景譬重,鳥瞰圖中前景物體的比例通常很小,這會(huì)限制數(shù)據(jù)的有效性罐氨。其次臀规,不平衡的類別分布也會(huì)導(dǎo)致梯度流偏向出現(xiàn)頻率較高的物體,從而抑制立體建模的泛化能力栅隐。這兩個(gè)困難限制了模型生成無偏估計(jì)的能力塔嬉。
對(duì)于這三個(gè)問題玩徊,作者分別給出了解決方案。
Depth-wise Plane Sweeping
從2D features構(gòu)建3D volume谨究,產(chǎn)生的tensor增加了一個(gè)維度恩袱。并且。從一個(gè)3維的tensor憑空增加了一個(gè)維度到4維胶哲,原始3維tensor的信息又不夠畔塔,必然會(huì)導(dǎo)致所構(gòu)建的3D volume表征能力有限。而一般來說鸯屿,
是一個(gè)比較大的值澈吨,例如192。
和
一般至少保持原始圖片分辨率的
谅辣。這幾項(xiàng)的數(shù)值基本是固定的,所以構(gòu)建出的3D volume的表征能力主要受限于
的大小婶恼。因此增加
的大小是一個(gè)理想的方法桑阶。但是增大
的數(shù)量會(huì)導(dǎo)致計(jì)算量的增大。(原文這里的從
到
的邏輯我沒搞懂熙尉,如果
同步增大联逻,由于維度增加帶來的信息gap不是還是沒解決嗎,當(dāng)然不能直接增大啊检痰。還是說作者想強(qiáng)調(diào)常規(guī)的方法
的大小總是跟
保持一致的包归,所以不能簡單的這么做?)因此作者提出了Depth-wise (Disparity-wise) Plane Sweeping (D-PS)方法铅歼,保持一個(gè)相對(duì)較大的
公壤,例如96,然后使用滑動(dòng)窗口(sliding window)在
上滑動(dòng)取值椎椰,窗口的長度就是
厦幅。滑動(dòng)的步長取決于pixel disparity的大小慨飘。
作者又說确憨,如果直接滑動(dòng)窗口對(duì)feature進(jìn)行切片,會(huì)導(dǎo)致獲取到的特征通道順序是固定的瓤的,而這種順序可能會(huì)影響到特征的表示能力休弃。因此,作者提出Cyclic Slicing來對(duì)切片特征的通道進(jìn)行重新排序以保持通道的一致性圈膏,使得相鄰物體之間的局部特征具有相似性(to ensure local feature similarity for adjacent objects)塔猾。具體操作看圖更清晰。
個(gè)人理解這個(gè)操作使得在Depth維度上相鄰的兩個(gè)調(diào)整順序后的feature切片絕大部分channel是對(duì)齊的稽坤,但是原始的2D feature在channel上并不是間隔
Dual-View Stereo Volume
作者首先對(duì)兩種體素表示方式(Front-View Representation和Top-View Representation)進(jìn)行對(duì)比睦擂。Front-View(FV)方式使用PSV在相機(jī)視錐空間中進(jìn)行前視圖的深度信息學(xué)習(xí)得湘。Top-View(TV)方式則在常規(guī)的3D空間中構(gòu)建3DGV。這使得兩種方式在本質(zhì)上具有不同的感受野(receptive fields)和體素占用密度(voxel occupancy)祈匙。作者在KITTI數(shù)據(jù)集上對(duì)三種類型的目標(biāo)在不同距離上的體素占用密度進(jìn)行了統(tǒng)計(jì)和比較忽刽,如下圖所示天揖。
可以看出夺欲,在FV方法中,近距離的物體明顯占有更多的體素今膊,這會(huì)阻礙網(wǎng)絡(luò)對(duì)較遠(yuǎn)目標(biāo)的學(xué)習(xí)能力些阅。TV方法的體素占用情況則相對(duì)平滑,但是對(duì)于行人和騎自行車的人這樣小目標(biāo)的平均體素占有量很小斑唬,阻礙了網(wǎng)絡(luò)對(duì)小目標(biāo)的學(xué)習(xí)能力市埋。
由此,作者提出將之前得到的D-PSV和D-3DGV的信息流整合在一起恕刘。這樣做可以使得每個(gè)體素可以聚合不同的3D結(jié)構(gòu)信息缤谎。為了實(shí)現(xiàn)這個(gè)目標(biāo),首先將D-PSV轉(zhuǎn)換到3D空間褐着,然后將它和D-3DGV通過一個(gè)3D Hourglass module進(jìn)行拼接坷澡。通過這種方式使得模型可以有效地利用不同的3D結(jié)構(gòu)信息。
為了實(shí)現(xiàn)對(duì)物體前表面深度的準(zhǔn)確感知含蓉,首先將得到的立體視覺體轉(zhuǎn)換到相機(jī)視錐體空間中频敛,然后進(jìn)行前視圖深度監(jiān)督。
Stereo-LiDAR Copy-Paste
作者還提出了對(duì)前景對(duì)象進(jìn)行數(shù)據(jù)增強(qiáng)以平衡分布的方法馅扣,此處暫略斟赚。
結(jié)論
此論文提出了一個(gè)端到端的雙目視覺3D目標(biāo)檢測(cè)模型,在KITTI數(shù)據(jù)集所有類別上的表現(xiàn)優(yōu)于當(dāng)前所有純視覺的3D目標(biāo)檢測(cè)方法差油,甚至由于一些基于LiDAR的方法拗军。