Meta 研究人員提出了 MCC,這是一種可以從單個圖像重建 3D 模型的方法。該公司從中看到了 VR/AR 和機器人技術的應用前景。
基于 Transformer 等架構和大量訓練數據的 AI 模型已經產生了令人印象深刻的語言模型,例如 OpenAI 的 GPT-3 或最近的 ChatGPT。

自然語言處理的突破帶來了一個核心見解:擴展使基本模型能夠拋棄以前的方法。先決條件是獨立于領域的架構,例如轉換器,它可以處理不同模式,以及來自非結構化和部分未標記數據的自我監控訓練。
結合大規模的、獨立于類別的學習,這種架構近年來越來越多地用于語言處理以外的領域,如圖像合成或圖像分析。
Meta MCC 為 3D 重建帶來規?;幚?/strong>
Meta FAIR Lab 展示了多視圖壓縮編碼(MCC),這是一種基于變壓器的編碼器-解碼器模型,可以從單個 RGB-D 圖像重建 3D 對象。
研究人員認為 MCC 是邁向用于 3D 重建的通用 AI 模型的重要一步,可用于機器人或 AR/VR 應用,為更好地了解 3D 空間和對象或視覺重建開辟了許多可能性。
雖然其他方法,如 NERF 需要多幅圖像,或者它們的模型需要與 3D CAD 模型或其他難以獲取并因此無法擴展的數據進行訓練,但 Meta 數據依賴于從 RGB D 圖像中重建 3D 點。
這些具有深度信息的圖像現在已經很容易獲得了,這是由于帶有深度傳感器的 iPhone 和簡單 AI 網絡的普及,后者從 RGB 圖像中獲取深度信息。根據 Meta 的說法,這種方法具有很好的可伸縮性,而且將來很容易產生大數據集。

為了證明這種方法的優點,研究人員使用大量圖像和視頻來訓練 MCC,這些圖像和錄像包含來自不同數據集的深度信息,從多個角度顯示物體或整個場景。
在 AI 培訓期間,模型將被剝奪每個場景或對象的一些可用視圖,它們作為 AI 重建的學習信號。該方法類似于語言或圖像模型的培訓,其中部分數據也經常被屏蔽。
Metas 3D 重建顯示了強大的通用性
Metas AI 模型在測試中顯示了有效且優于其他方案的優勢。該團隊還表示,MCC 還可以處理以前沒見過的對象類別或整個場景。
此外,MCC 顯示了預期的擴展特性:隨著更多的訓練數據和更多樣化的對象類別,性能顯著提升。ImageNet 和 DALL-E 2 圖像也可以在 3D 點云中重建,并提供相應的深度信息。

0