科技魔方

基于3D視頻重建虛實場景交互 Meta提出3D mask volume

AR/VR

2021年11月04日

  視圖合成的最新進展顯示了從圖像創建沉浸式虛擬體驗的出色結果。盡管如此,為了重建與虛擬場景的忠實交互,我們非常需要結合時間信息的能力。

  在名為《Deep 3D Mask Volume for View Synthesis of Dynamic Scenes》的論文中,已改名為Meta的Facebook和加利福尼亞大學研究了一種特定的設置,其中輸入視頻來自靜態的雙目攝像頭,并且新視圖大多是從輸入視頻中推斷出來。團隊相信,隨著雙攝像頭和多攝像頭智能手機越來越受歡迎,這種情況將非常有用,而且可能會對3D電話會議、監控或虛擬現實頭顯帶來非常有趣的影響。另外,研究人員可以從靜態攝像頭裝置中獲取數據集。

  盡管可以在每個單獨的視頻幀應用最先進的圖像視圖合成算法,但結果缺乏時間一致性,并且經常顯示閃爍偽影。問題主要來自于看不見的遮擋區域,因為算法在每幀基礎上預測它們。由此產生的估計在整個時間維度上不一致,并且在視頻中顯示時會導致某些區域變得不穩定。

  在研究中,團隊通過利用跨時間的靜態背景信息來解決外推視圖時的時間不一致性。為此,研究人員采用了一個3D mask volume,它允許在3D空間(而不是2D mask)中進行操作,以推斷場景中的移動對象,并在整個視頻中重復使用靜態背景觀察。

  團隊首先通過MPI網絡將瞬時和背景輸入提升為兩組多平面圖像(MPI)。然后,扭曲同一組輸入圖像以創建時間平面掃描volume,從而提供有關場景三維結構的信息。mask網絡將這個volume轉換為3D mask volume,使得能夠在兩組MPI之間混合。最后,混合MPI volume可以渲染具有最小閃爍瑕疵的新視圖。

  由于GPU內存的限制,團隊選擇了兩步訓練方案來訓練網絡。首先在RealEstate10K數據集上訓練MPI網絡,然后在自己的視頻數據集上只訓練mask網絡。這種訓練方案可以使內存使用保持在合理的范圍內,并且速度足夠快。MPI生成網絡是通過預測一個新的視圖并應用渲染損失L作為監控來訓練。本階段訓練800K步。

  在前一個預訓練階段之后,團隊凍結MPI網絡的權重,并使用loss L僅訓練mask網絡。所述網絡從10個視圖中隨機選取2個視圖作為輸入,然后在每一步從其余視圖中隨機選擇一個目標camera位置。團隊從96個場景中選擇86個作為訓練數據集,并將圖像重新縮放到640×360。第二階段為100K步的訓練。訓練管道在PyTorch中實施,在單個RTX 2080Ti GPU上訓練大約需要5天。分辨率為640×360時,使用完整管道推斷Mo大約需要1.75秒,而渲染需要另外0.28秒。請注意,渲染管道在PyTorch中實現,無需進一步優化。在實踐中,使用OpenGL或其他光柵化器可以大大加快速度。

  為了訓練這個網絡,團隊同時引入了一個新的多視圖視頻數據集來解決公共可用數據的不足。研究人員構建了一個由10個動作攝像頭組成的定制攝像裝置,并使用靜態裝置捕捉高質量的120FPS視頻。所述數據集包含96個不同戶外環境和人類交互的動態場景。實驗證明,所述方法能夠在僅使用兩個輸入視圖的情況下生成時間穩定的結果。

  對于比較,團隊從數據集中選擇了7個看不見的視頻,并將它們細分為14個片段,重點關注場景中的顯式運動。結果顯示,團隊的渲染損失依然提供了時間上最穩定的結果,而其他兩個損失則為了更好的解釋性而犧牲了時間一致性。

  當然,團隊提出的數據集和算法存在一定的局限性:首先,攝像頭限制為拍攝時保持靜止。這主要是由于同步和姿態估計的限制。盡管可以使用基于軟件的方法實現良好的同步,但仍然會存在幾毫秒的錯誤。當攝影裝備處于運動狀態時,錯誤可能會被放大,并導致對camera姿勢的錯誤估計。攝像頭在不同時間的姿態同時需要更多的計算,這可能會導致系統中累積錯誤。所述問題可以通過校準其中一個攝像頭的camera軌跡并利用剛性假設推斷其他camera軌跡來解決。

  另一個限制是,團隊需要對靜態背景進行估計。這很容易通過應用中值濾波器實現。盡管它適用于大多數場景,但這種方法有時并不可靠。不過,業內有更先進的方法可以在未來使用。

  總的來說,團隊討論了立體輸入視頻動態場景的視圖合成。主要的挑戰是,渲染結果容易出現時間偽影,如無序區域中的閃爍。為了解決這個問題,團隊引入了一種新的3D mask volume擴展,用從時間幀獲取的背景信息小心地替換無序區域。另外,團隊還介紹了一個高質量的多視圖視頻數據集,其中包含96個以120FPS拍攝的各種人類交互場景和室外環境。在未來的研究中,研究人員希望擴大數據集以考慮動態攝像頭運動,并在更大的基線操作。團隊相信,動態場景的視頻視圖合成是沉浸式應用的下一個前沿領域,而本次研究在這方面邁出了關鍵的一步。

  研究貢獻可以總結為:

  1.一個由96個動態場景組成的多視圖視頻數據集

  2.一種新穎的3D mask volume,其能夠在3D中從靜態背景分割動態對象,并產生更高質量和時間穩定的結果。

  相關論文:Deep 3D Mask Volume for View Synthesis of Dynamic Scenes

  高質量的視頻數據集對于基于學習的新型視點視頻合成算法至關重要。理想的數據集將包含多種場景,在多個同步視圖中捕獲。在這項研究中,團隊介紹了一種新的多視圖視頻數據集,并討論了現有數據集與所述數據集相比的局限性。

  團隊的目標是在給定立體視頻輸入的情況下合成時間一致的新視圖視頻。所以,研究人員在多平面圖像的前期研究基礎上構建了算法,并提出了一種新的mask volume結構,以充分利用時間背景信息和分層表示。

+1

來源:映維網

推薦文章

亚洲无码在线视频