科技魔方

Facebook研究為AR/VR開發能推理回答視覺信息問題的智能系統

AR/VR

2021年11月01日

  視覺問答研究(VQA)旨在開發能夠推理和回答視覺信息問題的智能系統。為了研究這一問題,早期的數據集重點關注圖像作為視覺輸入。最近,業界提出了眾多QA基準,以將視覺信息從圖像擴展到視頻領域。盡管圖像QA基準問題需要一個系統來學習跨模態交互,但視頻QA基準問題并不局限于捕獲具有時間變化的視覺信息。作為VQA問題的正交延伸,另一個研究方向是在對話環境中研究圖像/視頻VQA。

  在這個問題中,關于給定視頻或圖像的問題定位在多輪對話中。在每個對話輪中,一個問題通常與先前對話輪中的其他問題表現出不同類型的交叉輪關系,例如對象共同引用和主題對齊。在名為《DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue》的研究中,Facebook和新加坡管理大學的團隊研究了多輪視覺問答。

  相關論文:DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue

  在構建智能多模式系統方面,業界針對多輪視覺問答提出的多種方法表現出了卓越的性能。然而,大多數都呈現邊際性能增益,而我們理解其局限性的能力受限于任務的復雜性?,F有的基準設計沒有足夠的信息來確定當前的方法是否能夠進行復雜的推理,而這已經成為視覺語言系統中的一個常見問題。

  為了解決現有基準的局限性并更有效地分析對話系統,團隊提出了一個相應數據集DVD。

  團隊在圖1中演示了DVD中的對話示例。

  對于DVD這個研究課題,團隊一共引入了17個新的功能模塊以用于視頻和對話輸入組件。如上圖所示,系統會根據視頻詢問和回答一系列的問題。Q1:在立方體旋轉結束之前,最大的家伙會執行什么類型的動作?A1:飛行;Q2:在同一時間段內,有多少個滑動對象?A2:2個;Q3:其中有一個球,它在視頻中執行了什么類型的動作?A3:沒執行任何動作;Q4:現在呢?A4:滑動……

  在每個對話回合中,DVD問題測試對話系統,從而對視頻執行不同類型的推理,如動作識別和時空推理。在每個回合中,系統通過合并不同類型的語義關系來生成相互關聯的問題,包括:(1)時間關系:這需要系統學習在不同的時間段之間定位視頻的不同時間段;(2)對象引用:需要系統解析整個對話歷史中提到的短引用(代詞)或長引用(例如,“前面提到的大對象”);和(3)主題轉移:需要系統維護最后一個問題回合的內存,以解決當前回合中的問題。

  對于DVD,團隊訓練了一組基線方法,并從視覺和語言復雜性的幾個方面分析了結果。研究人員發現這些方法在需要視頻時間和空間定位的問題方面存在困難。在視頻和對話中,它們容易受到長句推理的影響,因為它們不是為了在整個對話環境中跟蹤活動的視覺對象或相關視頻片段而設計。

  團隊希望DVD數據集將帶來新的研究途徑,以開發能夠在視頻和對話媒體進行復雜推理的智能系統。值得一提的是,DVD數據集和代碼將在日后公開。

  團隊的基準提供了一個可用于進行豐富診斷,以更好地理解對話系統的推理能力的數據集。其中,對象通過其屬性進行標識,包括對象形狀、大小、材質和顏色。團隊同時將視頻間隔定義為連續視頻幀,每個起點和終點可以是對象動作的起點或終點,或整個視頻的起點或終點。

  DVD數據集通過平衡問答分布生成,嚴格控制數據偏差,并基于原則性方法構建問題,以反映視頻和對話中的復雜性。研究結果表明,DVD可以提供有關系統能力和限制的有趣見解。具體而言,團隊分析揭示了當前模型的一些關鍵缺陷,包括:(1)有效整合時空視覺信息的能力有限;(2) 在長視頻間隔內識別和編譯多個動作的能力有限;(3) 在對話回合中表現不一致,特別是當系統需要暫時轉移注意力時;(4)在對話語境中解決賓語共指的性能不穩定,尤其是當賓語參照的旋轉距離增加時。所以,團隊希望DVD將成為探索新想法的有用基準。

  總的來說,研究人員主要討論兩個研究方向:

  對話對象跟蹤。為了進一步診斷一個對話系統,團隊目標是研究它們的長記憶推理能力,以跟蹤對象及其在對話情景中提到的屬性。為了更好地理解當前系統的長推理能力,評估指標的引入需要一個新的學習任務,即基于視頻的對話系統中的對話對象跟蹤。

  視頻間隔追蹤。對話系統的另一個方面是它們在多回合設置中定位視頻片段的能力。隨著對話時間的推移,每一個問題都會集中在視頻的不同部分。了解一個系統如何將視頻的正確片段逐回合定位非常重要。團隊為視頻間隔跟蹤定義了一項新的學習任務,其性質與文本剪輯任務類似。所述任務可以定義為分段候選項的排序任務,以在每個問題回合中選擇相關分段。這個任務通過排名指標進行評估。在DVD中,基于時間注意的方法可用于確定模型定位問題視頻間隔正確位置的能力。最后要強調的是,DVD設計為一個用于診斷目的的合成數據集,以系統地評估模型能力?;鶞什粦糜谌〈祟悓υ挼臄祿?,而應用于補充現實世界的對話數據集。

+1

來源:映維網

推薦文章

亚洲无码在线视频