DSGN及DSGN++論文解讀

DSGN: Deep Stereo Geometry Network for 3D Object Detection

論文DSGN: Deep Stereo Geometry Network for 3D Object Detection發(fā)表在CVPR 2020上经宏。論文提出了一個(gè)基于雙目圖像（stereo-based）的端到端的三維物體檢測(cè)管線——Deep Stereo Geometry Network (DSGN)。其核心在構(gòu)建于通過空間變換將2D特征轉(zhuǎn)換成有效的3D結(jié)構(gòu)昧互，作者稱之為3D geometric volume (3DGV)。3DGV的核心思想在于構(gòu)建編碼了三維幾何信息的3D幾何體倡缠。它由在相機(jī)視錐體中構(gòu)建的平面掃描體（plane-sweep volume诽嘉，PSV）轉(zhuǎn)換到真實(shí)三維世界空間坐標(biāo)中而成。像素對(duì)應(yīng)的約束可以在PSV中很好地學(xué)習(xí)杀赢，而現(xiàn)實(shí)世界物體的三維特征可以在3DGV中學(xué)習(xí)辨萍。PSV的構(gòu)造是完全可導(dǎo)的棋恼，因此可以共同優(yōu)化立體匹配和物體檢測(cè)的學(xué)習(xí)。
論文主要貢獻(xiàn)如下：

通過在PSV中構(gòu)建立體照片之間的關(guān)系锈玉，再將其轉(zhuǎn)換成能夠同時(shí)編碼進(jìn)三維幾何信息和語義信息的3DGV爪飘，使得2D照片與3D空間之間建起了橋梁。
設(shè)計(jì)了一個(gè)端到端的框架拉背，提取像素級(jí)特征用于立體匹配和高級(jí)特征用于目標(biāo)識(shí)別师崎。網(wǎng)絡(luò)能同時(shí)估計(jì)場(chǎng)景深度和進(jìn)行3D目標(biāo)檢測(cè)，從而實(shí)現(xiàn)多種實(shí)際應(yīng)用椅棺。
無需額外的技巧犁罩，此簡單且完全可導(dǎo)的網(wǎng)絡(luò)在KITTI數(shù)據(jù)集上的表現(xiàn)超越所有其他基于雙目圖像的3D目標(biāo)檢測(cè)器（AP高出10個(gè)點(diǎn)）。（插句題外話两疚，作者原文使用了Without bells and whistles…我一開始還以為是什么相關(guān)的技術(shù)床估，查了才知道是英語中的一句習(xí)語，指那些額外的诱渤、不必要的但通常令人愉快的東西丐巫。可以簡單理解為“花里胡哨的東西”??）

2D Feature Extraction

圖片特征提取部分沿用了PSMNet（Pyramid Stereo Matching Network）的主要設(shè)計(jì)勺美，輸入的雙目圖像通過一個(gè)孿生網(wǎng)絡(luò)——其中包含了了何愷明大神提出的空間金字塔池化（SPP Module）（Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）——分別得到左右兩幅圖像的特征递胧。不過這一塊內(nèi)容在論文中并不是重點(diǎn)，原文中也一帶而過了赡茸。

Constructing PSV and 3DGV

首先將左圖像的特征 $F_L$ 和重投影到左圖像坐標(biāo)系下的右圖像特征 $F_{R{\rightarrow}L}$ 在等深度間隔處進(jìn)行拼接（concatenating）缎脾，從而構(gòu)建了PSV。PSV的坐標(biāo)表示在相機(jī)視錐體網(wǎng)格空間(grid camera frustum space) $(u, v, d)$ 中坛掠，其中 $(u, v)$ 是圖片中的像素位置赊锚， $d$ 是間隔為 $v_d$ 的離散網(wǎng)格中的一個(gè)距離取值治筒。
計(jì)算得到的PSV在一條分支上用于計(jì)算cost volume屉栓，另一條分支上用于計(jì)算3DGV舷蒲。

如圖所示，通過逆投影矩陣

\left(\begin{array}{l}x \\ y \\ z\end{array}\right)=\left(\begin{array}{ccc}1 / f_x & 0 & -c_u / f_x \\ 0 & 1 / f_y & -c_v / f_y \\ 0 & 0 & 1\end{array}\right)\left(\begin{array}{c}u d \\ v d \\ d\end{array}\right)

友多，將PSV轉(zhuǎn)換到現(xiàn)實(shí)空間得到3DGV牲平。

Depth Estimation

與其他方法不同，此網(wǎng)絡(luò)通過使用上一個(gè)步驟計(jì)算得到的PSV來計(jì)算cost volume域滥。對(duì)PSV進(jìn)行2次3D卷積纵柿，得到一個(gè)1D的cost volume，作者稱之為plane-sweep cost volume启绰。然后通過soft max對(duì)每個(gè)像素計(jì)算深度值 $\hatjnbpzuz=\sum_{d \in\left\{z_{\min }, z_{\min }+v_d, \ldots, z_{\max }\right\}} d \times \sigma\left(-c_d\right)$ 昂儒，其中 $d$ 是之前預(yù)定義的空間網(wǎng)格中間隔為 $v_d$ 的離散采樣。

3D Object Detection

對(duì)于形狀為 $(W,H,D)$ 的3DGV委可，在 $H$ 上逐步下采樣最終得到 $(W,D)$ 的鳥瞰圖特征 $F$ 渊跋。（論文原文這里寫成了 $(W,H)$ ，應(yīng)該是筆誤着倾。）對(duì)于每個(gè) $F$ 拾酝，多個(gè)anchor被用于計(jì)算回歸。

最后附上網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)圖：

DSGN++: Exploiting Visual-Spatial Relation for Stereo-Based 3D Detectors

作者團(tuán)隊(duì)在后續(xù)又提出了改進(jìn)版的網(wǎng)絡(luò)：DSGN++: Exploiting Visual-Spatial Relation for Stereo-Based 3D Detectors發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence 2023上卡者。
作者首先指出從2D語義到3D體素的信息流質(zhì)量決定了后續(xù)的3D幾何表征的質(zhì)量蒿囤。而當(dāng)前構(gòu)建有效的立體特征體積有三個(gè)重要挑戰(zhàn)（valid information flow from 2D semantics to stereo volume determines the efficacy of the following 3D geometric representation for both geometric and semantic cues. However, current 3D modeling remains as an approximation of realistic 3D representation and poses three vital challenges for creating effective stereo feature volumes）：

由于3D volume 的計(jì)算成本大，原始的2D features被限制在較小的channel數(shù)量崇决，這限制了后續(xù)的3D表征的能力材诽。
通過平面掃描（plane sweeping），可以獲得兩個(gè)視圖的幾何體：相機(jī)視錐體（camera frustum）內(nèi)的平面掃描體（Plane-sweep volume, PSV）和常規(guī)3D空間中的三維幾何體（3D-geometry volume, 3DGV）恒傻。然而岳守，現(xiàn)實(shí)中的3D物體是非剛性的和不規(guī)則的。例如碌冶，一些類別像行人在鳥瞰圖中占用的體素較少湿痢，但在前視圖中卻很清晰可見。這兩種單視圖幾何體表現(xiàn)出不同的特性扑庞。
對(duì)于室外場(chǎng)景譬重，鳥瞰圖中前景物體的比例通常很小，這會(huì)限制數(shù)據(jù)的有效性罐氨。其次臀规，不平衡的類別分布也會(huì)導(dǎo)致梯度流偏向出現(xiàn)頻率較高的物體，從而抑制立體建模的泛化能力栅隐。這兩個(gè)困難限制了模型生成無偏估計(jì)的能力塔嬉。

對(duì)于這三個(gè)問題玩徊，作者分別給出了解決方案。

Depth-wise Plane Sweeping

從2D features構(gòu)建3D volume谨究，產(chǎn)生的tensor增加了一個(gè)維度恩袱。并且 $H_V × W_V × D_V × C_V \gg H_I × W_I × C_I$ 。從一個(gè)3維的tensor憑空增加了一個(gè)維度到4維胶哲，原始3維tensor的信息又不夠畔塔，必然會(huì)導(dǎo)致所構(gòu)建的3D volume表征能力有限。而一般來說鸯屿， $D_V$ 是一個(gè)比較大的值澈吨，例如192。 $H_V$ 和 $W_V$ 一般至少保持原始圖片分辨率的 $1/4$ 谅辣。這幾項(xiàng)的數(shù)值基本是固定的，所以構(gòu)建出的3D volume的表征能力主要受限于 $C_I$ 的大小婶恼。因此增加 $C_I$ 的大小是一個(gè)理想的方法桑阶。但是增大 $C_V$ 的數(shù)量會(huì)導(dǎo)致計(jì)算量的增大。（原文這里的從 $C_I$ 到 $C_V$ 的邏輯我沒搞懂熙尉，如果 $C_V$ 同步增大联逻，由于維度增加帶來的信息gap不是還是沒解決嗎，當(dāng)然不能直接增大啊检痰。還是說作者想強(qiáng)調(diào)常規(guī)的方法 $C_V$ 的大小總是跟 $C_I$ 保持一致的包归，所以不能簡單的這么做？）因此作者提出了Depth-wise (Disparity-wise) Plane Sweeping (D-PS)方法铅歼，保持一個(gè)相對(duì)較大的 $C_I$ 公壤，例如96，然后使用滑動(dòng)窗口（sliding window）在 $C_I$ 上滑動(dòng)取值椎椰，窗口的長度就是 $C_V$ 厦幅。滑動(dòng)的步長取決于pixel disparity的大小慨飘。
作者又說确憨，如果直接滑動(dòng)窗口對(duì)feature進(jìn)行切片，會(huì)導(dǎo)致獲取到的特征通道順序是固定的瓤的，而這種順序可能會(huì)影響到特征的表示能力休弃。因此，作者提出Cyclic Slicing來對(duì)切片特征的通道進(jìn)行重新排序以保持通道的一致性圈膏，使得相鄰物體之間的局部特征具有相似性（to ensure local feature similarity for adjacent objects）塔猾。具體操作看圖更清晰。

個(gè)人理解這個(gè)操作使得在Depth維度上相鄰的兩個(gè)調(diào)整順序后的feature切片絕大部分channel是對(duì)齊的稽坤，但是原始的2D feature在channel上并不是間隔

C_V

長度就完全重復(fù)的丈甸，所以最后得到的Depth-wise Volume應(yīng)該只是在Depth維度上相近的feature的channel是相互對(duì)齊的糯俗。這個(gè)圖畫的會(huì)讓人產(chǎn)生誤解。

Dual-View Stereo Volume

作者首先對(duì)兩種體素表示方式（Front-View Representation和Top-View Representation）進(jìn)行對(duì)比睦擂。Front-View(FV)方式使用PSV在相機(jī)視錐空間中進(jìn)行前視圖的深度信息學(xué)習(xí)得湘。Top-View(TV)方式則在常規(guī)的3D空間中構(gòu)建3DGV。這使得兩種方式在本質(zhì)上具有不同的感受野（receptive fields）和體素占用密度(voxel occupancy)祈匙。作者在KITTI數(shù)據(jù)集上對(duì)三種類型的目標(biāo)在不同距離上的體素占用密度進(jìn)行了統(tǒng)計(jì)和比較忽刽，如下圖所示天揖。

可以看出夺欲，在FV方法中，近距離的物體明顯占有更多的體素今膊，這會(huì)阻礙網(wǎng)絡(luò)對(duì)較遠(yuǎn)目標(biāo)的學(xué)習(xí)能力些阅。TV方法的體素占用情況則相對(duì)平滑，但是對(duì)于行人和騎自行車的人這樣小目標(biāo)的平均體素占有量很小斑唬，阻礙了網(wǎng)絡(luò)對(duì)小目標(biāo)的學(xué)習(xí)能力市埋。
由此，作者提出將之前得到的D-PSV和D-3DGV的信息流整合在一起恕刘。這樣做可以使得每個(gè)體素可以聚合不同的3D結(jié)構(gòu)信息缤谎。為了實(shí)現(xiàn)這個(gè)目標(biāo)，首先將D-PSV轉(zhuǎn)換到3D空間褐着，然后將它和D-3DGV通過一個(gè)3D Hourglass module進(jìn)行拼接坷澡。通過這種方式使得模型可以有效地利用不同的3D結(jié)構(gòu)信息。
為了實(shí)現(xiàn)對(duì)物體前表面深度的準(zhǔn)確感知含蓉，首先將得到的立體視覺體轉(zhuǎn)換到相機(jī)視錐體空間中频敛，然后進(jìn)行前視圖深度監(jiān)督。

Stereo-LiDAR Copy-Paste

作者還提出了對(duì)前景對(duì)象進(jìn)行數(shù)據(jù)增強(qiáng)以平衡分布的方法馅扣，此處暫略斟赚。

結(jié)論

此論文提出了一個(gè)端到端的雙目視覺3D目標(biāo)檢測(cè)模型，在KITTI數(shù)據(jù)集所有類別上的表現(xiàn)優(yōu)于當(dāng)前所有純視覺的3D目標(biāo)檢測(cè)方法差油，甚至由于一些基于LiDAR的方法拗军。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市蓄喇，隨后出現(xiàn)的幾起案子发侵，更是在濱河造成了極大的恐慌，老刑警劉巖公罕，帶你破解...
沈念sama閱讀 219,039評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件器紧，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡楼眷，警方通過查閱死者的電腦和手機(jī)铲汪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門熊尉，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人掌腰，你說我怎么就攤上這事狰住。” “怎么了齿梁？”我有些...
開封第一講書人閱讀 165,417評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵催植，是天一觀的道長。經(jīng)常有香客問我勺择，道長创南，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,868評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任省核，我火速辦了婚禮稿辙，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘气忠。我一直安慰自己邻储，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布旧噪。她就那樣靜靜地躺著吨娜，像睡著了一般。火紅的嫁衣襯著肌膚如雪淘钟。梳的紋絲不亂的頭發(fā)上宦赠，一...
開封第一講書人閱讀 51,692評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音日月，去河邊找鬼袱瓮。笑死，一個(gè)胖子當(dāng)著我的面吹牛爱咬，可吹牛的內(nèi)容都是我干的尺借。我是一名探鬼主播，決...
沈念sama閱讀 40,416評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼精拟，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼燎斩！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蜂绎，我...
開封第一講書人閱讀 39,326評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤栅表，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后师枣，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體怪瓶，經(jīng)...
沈念sama閱讀 45,782評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年践美，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了洗贰。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片找岖。...
茶點(diǎn)故事閱讀 40,102評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖敛滋，靈堂內(nèi)的尸體忽然破棺而出许布，到底是詐尸還是另有隱情，我是刑警寧澤绎晃，帶...
沈念sama閱讀 35,790評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蜜唾，位于F島的核電站，受9級(jí)特大地震影響庶艾，放射性物質(zhì)發(fā)生泄漏袁余。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一落竹、第九天我趴在偏房一處隱蔽的房頂上張望泌霍。院中可真熱鬧货抄，春花似錦述召、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評(píng)論 0贊 22
一樁弒父案积暖，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至怪与，卻和暖如春夺刑，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背分别。一陣腳步聲響...
開封第一講書人閱讀 33,113評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工遍愿，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人耘斩。一個(gè)月前我還...
沈念sama閱讀 48,332評(píng)論 3贊 373
代替公主和親
正文我出身青樓沼填，卻偏偏與公主長得像，于是被迫代替她去往敵國和親括授。傳聞我的和親對(duì)象是個(gè)殘疾皇子坞笙，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評(píng)論 2贊 355