科技魔方

Facebook開源3D識別訓練工具3DETR、DepthContrast

AR/VR

2021年10月28日

  使用大型標記數據集進行預訓練已成為開發高性能計算機視覺模型的核心工具。不過,盡管這種方法適用于多種類型的媒介,但它尚未廣泛用于3D識別任務,例如在客廳的3D掃描中識別和定位沙發。

  這是由于缺少帶注釋的數據,以及標記3D數據集非常耗時。另外,用于3D理解的模型通常依賴于與特定3D數據集緊密耦合的人工架構設計。

  針對這個問題,Facebook人工智能團隊將在國際計算機視覺2021大會介紹3DETR和DepthContrast。這是兩種互補的新模型,能夠促進對3D的理解,并大大簡化了入門開始。通過建立一個簡化3D理解的通用3D架構,并通過一種不需要標簽的自我監督學習方法,研究人員希望能夠解決上述的常見挑戰。

  同時,Facebook人工智能團隊宣布將向開源社區提供這項研究和相關代碼。

  1. 為機器理解世界解鎖一種強大的新方式

  出于一系列的原因,打造能夠理解世界3D數據的機器非常重要。自動駕駛汽車需要3D理解以實現移動和避免撞到障礙物,而AR/VR應用則可以幫助人們完成各種任務,例如可視化沙發是否適合客廳。

  來自2D圖像和視頻的數據表示為規則的像素網格,而3D數據則反映為點坐標。由于更難獲取和標記,3D數據集通常比圖像和視頻數據集小得多。這意味著它們通常在總體規模和包含的類或概念數量方面受到限制。

  以前,專注于3D理解的從業者需要關鍵的領域知識來調整標準計算機視覺架構。單視圖3D數據比多視圖3D更容易收集,因為前者來自一臺同時記錄深度信息的攝影頭,而后者則需要利用兩臺或多臺攝影頭記錄同一場景。多視圖3D數據通常由單視圖3D后處理生成,但這個處理步驟存在故障率(有研究人員估計達到78%),原因包括源圖像模糊或攝像頭過度運動。

  DepthContrast旨在解決所述的數據挑戰,因為它能夠從任何3D數據(包括單視圖和多視圖)訓練自我監督模型,所以消除了使用小型、未標記數據集的挑戰(即使是對大量2D圖像或視頻進行預訓練,都不太可能對AR/VR等復雜應用產生準確的3D理解)。

  團隊的第二個研究3DETR是3D Detection Transformer的縮寫。這個模型是一種基于Transformer的簡單3D檢測和分類架構,可作為檢測和分類任務的通用3D主干。這個模型簡化了用于訓練3D檢測模型的損失函數,這使得它更容易實現。

  研究人員指出,性能相當于或超過了依賴于手動調整的3D架構和損耗函數的現有最先進方法。Facebook表示:“從幫助機器人導航世界,到為使用智能手機和未來設備(如AR眼鏡)的人們帶來豐富的新VR/AR體驗,所述模型都具有巨大的潛力。”

  隨著3D傳感器逐漸在手機等移動設備實現普及,研究人員甚至可以從自己的設備獲取單視圖3D數據來訓練模型。DepthContrast技術是以自我監督方式使用所述數據的第一步。通過處理單視圖和多視圖數據類型,DepthContrast大大增加了3D自監督學習的潛在用例。

  2. 3DETR: 在檢測和分類中建模3D數據的Transformers

  3DETR將3D場景(表示為點云或一組XYZ點坐標)作為輸入,并為場景中的對象生成一組3D bounding box。這項新的研究是基于Facebook用于檢測3D點云中的對象的VoteNet模型,以及基于Facebook人工智能團隊在應對對象檢測挑戰所提出的架構Detection Transformers (DETR)。

  為了實現從2D檢測到3D檢測的跳躍,Facebook確定了兩個重要的變化,以便將Transformers用于3D理解。所以,團隊需要非參數查詢嵌入和傅立葉編碼。

  這兩種設計決策都十分有必要,因為點云在大量空白空間和噪點之間具有不同的密度。3DETR主要是通過所述兩種技術來處理這個問題。與DETR和其他Transformer模型/DETR中使用的標準嵌入相比,傅里葉編碼是表示XYZ坐標的更好方法。

  其次,DETR使用一組固定的參數(稱為查詢)來預測對象的位置。團隊發現這一設計決策不適用于點云。取而代之的是,他們從場景中采樣隨機點,并預測相對于所述點的對象。實際上,研究人員沒有一組固定的參數來預測位置,隨機點采樣能夠適應3D點云的不同密度。

  使用點云輸入,Transformer編碼器生成場景中對象形狀和位置的坐標表示。它通過一系列的self-attention操作來捕獲識別所需的全局和局部情景。例如,它可以檢測3D場景的幾何特性,例如放置在圓桌周圍的椅子的椅腳和靠背。正如下面的圖例所示,編碼器能夠自動捕獲重要的幾何特性。

  團隊在3DETR中可視化Transformer編碼器生成的self-attention map,并觀察到編碼器會自動捕獲椅子的腿和靠背等概念。

  Transformer解碼器將點特征作為輸入,并且輸出一組3D bounding box。它對點特征和查詢嵌入應用一系列cross-attention操作。解碼器的self-attention表示它關注于對象,以便預測它們周圍的bounding box。

  3DETR的解碼器attention map顯示,它可以隔離屬于對象的點。解碼器在從輸入的三維點云預測對象的三維邊界框時可能依賴于所述信息。

  Transformer編碼器同時非常通用,可以用于其他3D任務,例如形狀分類。

  總的來說,3DETR的實現比以前的研究要簡單得多。在3D基準測試中,3DETR的性能與之前的人工3D架構相比具有競爭力。它的設計決策同時與之前的3D研究兼容,使得研究人員能夠靈活地將3DETR中的組件調整到自己的管道中。

  3. DepthContrast:使用任意3D點云進行自我監督預訓練

  自我監督學習一直是業界關注的一個主要領域。DepthContrast是Facebook人工智能團隊的最新嘗試。它旨在不適用標記數據的情況下學習強大的3D表示。這項研究同時與Facebook以前在這方面的PointContrast相關(這同時是一種用于3D的自我監督技術)。

  現在獲得3D數據的機會很多。傳感器和多視點立體算法通常為視頻或圖像提供補充信息。但在之前,理解這種數據一直是一個挑戰,因為3D數據具有不同的物理特征,具體取決于獲取數據的方式和地點。例如,與戶外傳感器的數據相比,商用手機傳感器的深度數據看起來非常不同。

  人工智能研究中使用的大多數3D數據是以單視圖深度映射的形式獲取,其通過稱為3D配準的步驟進行后處理,從而獲得多視圖3D數據。以前的研究依賴于多視圖3D數據來學習自我監督的特征,而損失的設計則考慮了3D點對應。

  如上所述,盡管將單視圖數據轉換為多視圖數據的故障率很高,但DepthContrast顯示,僅使用單視圖3D數據就足以學習最先進的3D功能。

  利用3D數據增強,研究人員可以從單個視圖深度映射生成稍微不同的3D深度映射。DepthContrast通過使用對比學習來對齊從增強深度映射獲得的特征來實現這一點。

  實驗表明,這種學習信號可以用來預訓練不同類型的3D結構,如PointNet++和Sparse ConvNets。

  更重要的是,無論是室內還是室外采集,無論是單視圖還是多視圖,DepthContrast可以應用于任何類型的3D數據。研究表明,使用DepthContrast預訓練的模型在ScanNet 3D檢測基準上達到了絕對的先進水平。

  DepthContrast的功能提供了各種3D基準測試的增益,如形狀分類、對象檢測和分割。

  這個模型同時表明,自監督學習在3D理解方面同樣非常具有前景。事實上,DepthContrast分享了學習增強不變特征的基本原理,而后者已用于支持Facebook的SEER等自我監督模型

  4. 尋找利用3D理解的新方法

  自監督學習依然是一種跨文本、圖像和視頻學習表示的強大工具?,F在,大多數智能手機都配備了深度傳感器,而這為提高3D理解和創造更多人可以享受的新體驗提供了重要機會。

  Facebook人工智能團隊表示:“我們希望3DETR和DepthContrast能夠幫助當前和新的從業者開發更好的3D識別工具,并打破先前要求的高進入壁壘。我們非常期待開源社區將如何應用這些新技術。”

+1

來源:映維網

推薦文章

亚洲无码在线视频