Copyright 2014-2025 觀經(jīng)濟(jì) 版權(quán)所有 京ICP備20151973號(hào)-1
本文共同第一作者為李鴻宇(布朗大學(xué)博士生)和孫凌峰(Robotics and AI Institute 研究員,博士畢業(yè)于加州大學(xué)伯克利分校)。通訊作者付佳慧在 Robotics and AI Institute 任研究員,博士畢業(yè)于麻省理工學(xué)院。George Konidaris 為布朗大學(xué)副教授。
構(gòu)建能夠在新環(huán)境中、無需任何針對(duì)性訓(xùn)練就能執(zhí)行多樣化任務(wù)的通用機(jī)器人,是機(jī)器人學(xué)領(lǐng)域一個(gè)長期追逐的圣杯。近年來,隨著大型語言模型(LLMs)和視覺語言模型(VLMs)的飛速發(fā)展,許多研究者將希望寄托于視覺 - 語言 - 動(dòng)作(VLA)模型,期望它們能復(fù)刻 LLM 和 VLM 在泛化性上取得的輝煌。然而,理想很豐滿,現(xiàn)實(shí)卻很骨感。VLA 模型的端到端訓(xùn)練范式,要求海量與特定機(jī)器人相關(guān)的 “視覺 - 語言 - 動(dòng)作” 數(shù)據(jù)。與 LLM 和 VLM 可以輕易獲取的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)不同,機(jī)器人數(shù)據(jù)的采集成本極高、難度極大,這形成了一個(gè)巨大的 “數(shù)據(jù)瓶頸”。有沒有可能繞過這個(gè)瓶頸,讓機(jī)器人不依賴于昂貴的 “親身經(jīng)歷” 數(shù)據(jù),也能學(xué)會(huì)新技能呢?
最近,來自布朗大學(xué)(Brown University)和機(jī)器人與人工智能研究所(Robotics and AI Institute,前波士頓動(dòng)力人工智能研究所)的研究團(tuán)隊(duì)提出了一個(gè)全新的自動(dòng)操作框架NovaFlow。該方法另辟蹊徑,不再要求通過機(jī)器人或者人類演示去收集數(shù)據(jù),而是巧妙地利用了大型視頻生成模型中蘊(yùn)含的、源于互聯(lián)網(wǎng)海量視頻的 “常識(shí)” 知識(shí)。通過讓機(jī)器人 “觀看” 由視頻模型生成的任務(wù)視頻,并從中提煉出一種名為 “可執(zhí)行 3D 對(duì)象流” 的任務(wù)表征,NovaFlow 成功實(shí)現(xiàn)了在無需任何真實(shí)演示或額外訓(xùn)練的情況下,讓機(jī)器人零樣本(Zero-Shot)完成復(fù)雜的操控任務(wù)。這項(xiàng)工作為通用機(jī)器人的實(shí)現(xiàn)提供了一條極具潛力的新路徑。