无码内射中文字幕岛国片_国产精品无码一区二区三区四区_福利姬液液酱喷水_人妻无码中文字幕_国产精品无码翘臀在线看_色爱综合激情五月激情_日韩美女人体艺术_男人边做边吃奶头视频_欧美黑人又粗又大高潮喷水_亚洲精品无码高潮喷水在线

登錄

首頁 > 今日新聞 > Vision-Zero：零數據VLM自我進化！陳怡然團隊提出零監(jiān)督訓練

Vision-Zero：零數據VLM自我進化！陳怡然團隊提出零監(jiān)督訓練

發(fā)布時間：2025-10-12 09:42:32

盡管目前VLM在多模態(tài)任務上表現突出，但訓練過度依賴人工標注的數據與精心設計的強化學習獎勵。這種依賴帶來數據稀缺問題：多模態(tài)標注成本高昂，限制了訓練數據的規(guī)模與多樣性。同時存在知識天花板：模型能力受人類監(jiān)督邊界限制，難以突破人類已有知識和策略。曾經AlphaGo所使用的自博弈技術通過模型與自身副本競爭交互并自動獲取反饋，把計算轉變?yōu)閿祿耐瑫r消除了對人工監(jiān)督的依賴，這使得它能夠持續(xù)推動模型進步并突破人類能力上限。但是受制于VLM的多模態(tài)特性，目前鮮有對自博弈在VLM上應用的系統性研究。為此研究團隊設計了一套適應VLM特性的自博弈框架Vision-Zero，此框架有如下特點：

（1）策略自博弈框架：Vision-Zero在以社交推理類游戲為模板的環(huán)境中訓練VLM，使得agent在自博弈過程中自動生成高復雜度推理數據，而無需人工標注。

（2）任意形式的圖片都可作為輸入：和以往有限制條件的游戲化訓練框架不同的是，Vision-Zero可在任意形式的圖片上啟動游戲，這使得模型可以在很多不同的領域里獲得相應的能力提升，并有很好的泛化性能。

（3）持續(xù)的性能提升：研究團隊提出了自博弈和可驗證獎勵的強化學習（RLVR）交替優(yōu)化的自博弈策略優(yōu)化算法（Iterative-SPO），這一算法解決了傳統自博弈算法中常見的性能瓶頸問題。

盡管沒有用任何標注數據做訓練，Vision-Zero在多個領域如推理，圖表問答和Vision-Centric理解任務上超越了其他有標注的SOTA后訓練方法。

Vision-Zero：零數據VLM自我進化！陳怡然團隊提出零監(jiān)督訓練

從棋盤到現實：

AlphaGo自博弈思想的泛化

自博弈作為OpenAI早期的重要技術路線之一，也是人工智能發(fā)展歷程中多項里程碑事件的關鍵推動力。典型代表包括2016年AlphaGo戰(zhàn)勝李世石，以及2019年OpenAI Five在Dota 2上擊敗世界冠軍OG戰(zhàn)隊。人們在看到自博弈在某些特定領域大幅超越人類智能的同時，往往也會思考我們是否有可能把這種思想應用到更多的開放場景中。然而讓AlphaGo從棋盤走入現實需要解決以下幾個難題：

（1）Agent為贏得博弈所習得的技能，應當與目標任務所需的技能高度一致。

（2）博弈環(huán)境應當足夠多樣且復雜，以便廣泛的目標任務都能夠滿足條件(1)。

（3）技能增長應當具有可擴展性：隨著自博弈的進行，環(huán)境應當不斷提高難度，使得越來越強的智能體能夠涌現，而不是讓訓練收斂到一個固定的上限。

受到社交推理游戲，如“誰是臥底”的啟發(fā)，研究團隊設計了一套完備的自博弈規(guī)則以解決上述難題，具體規(guī)則如下：

（1）游戲中有n名平民和1名臥底。玩家首先被告知自己的角色。

（2）每名玩家會得到一張圖片，臥底的圖片與平民略有不同（如缺失、添加或修改了某個物體）。

（3）線索階段：每位玩家觀察自己的圖片，并給出一個口頭線索，描述圖片內容（可以是物體描述、推斷信息等）。

（4）決策階段：多輪線索給出后，進入決策階段。玩家根據線索結合自己的圖片，投票找出臥底。

Vision-Zero：零數據VLM自我進化！陳怡然團隊提出零監(jiān)督訓練

此游戲具有高度策略性與挑戰(zhàn)性，臥底需要根據他人線索推斷并偽裝自己，避免暴露。平民需要提供足夠準確但不泄密的線索，同時分析他人線索尋找可疑點。如此一來，Agent在游戲過程中便可生成足夠長且復雜的推理鏈條，并且隨著對手能力的提升，其所面臨的挑戰(zhàn)也會越來越大，并被激發(fā)出更強的視覺理解與推理能力。

【返回列表】

特別聲明：以上內容(如有圖片或視頻亦包括在內)為“觀經濟用戶上傳并發(fā)布"，本平臺僅提供信息存儲服務。

下一篇:這次，張一鳴為何親自站臺？

上一篇:掃街榜小店引流破億，高德美團進入新基建之戰(zhàn)

今日新聞更多>>

黑客挖出蘋果隱藏硬件！你的MacBook里有加速計/陀螺儀剛剛，宇樹發(fā)布馬年首個重磅機器人新品，小身板扛起200斤大漢這個春節(jié)，AI 不聊天了，開始替我買單剛剛，Seedream 5.0上線！字節(jié)又一新模型他在戈壁灘上，為全球算力退燒馬斯克“點火”，重估中國光伏？｜行業(yè)風向標 2026，巨頭大戰(zhàn)AI教育穹徹智能完成A輪數億元融資

房產家居更多>>

敦泰電子：引領車用顯示觸控技術發(fā)展，助力智能座艙時代當汽車“卷”向天空：小鵬匯天、峰飛、廣汽等攜eVTOL首次亮相上海車展 | 車展新勢力國補倒計時！軒逸家族年末大促，幸福座駕觸手可及！家用MPV選TA，長超5.2m，油耗5.27L，純電能跑200km，比傳祺M8省解放/陜汽/徐工斬千輛大單東風/宇通訂單火爆重卡市場12月誰稱霸宇通/中車斬千輛大單海格/金龍頻現超百輛訂單客車市場12月爆了？新能源車分體式大燈設計，投射出了行業(yè)變革的陰影車企“沖量戰(zhàn)”打響，車是現在買還是等年后？

汽車頻道更多>>

年檢又有“新規(guī)定”？交警：6到15年內的車主注意，車友們知道嗎 smart易寒：三個核心關鍵詞既是品牌基石又啟示未來走向 2025年春運拉開大幕高德地圖同步啟動“溫暖回家路”春運出行服務以變革應對變革！2025年的吉利將變成什么樣？捷豹XEL官降至18.98萬，和前驅奧迪A4L相比值得選嗎？魏牌全新藍山榮獲“五星＋” 坐實智能駕駛學霸無“名”亦出挑，坦克400 Hi4-T以“戰(zhàn)損”之軀成功穿越道頓公路高銳和袁小華掌舵的廣汽本田，是怎么變得越來越“不值錢”的

讀書樂趣更多>>

國內車企開始不宣傳智能駕駛：比誰的車更安全銀河星耀8加推基礎駕駛輔助版型預售價13.38萬元起！ 12月MPV銷量排行榜！五菱征程躍升第一，別克GL8位居第七福田汽車：瞅準新能源“大蛋糕”，能否獨占鰲頭？文能勝出武亦不輸奧迪A7L力壓寶馬5系有法寶 70 萬用戶成為 “忠實粉絲團”，傳祺的魅力遠超想象 10.99萬就能買新能源中型SUV？兩種動力，奇瑞全新SUV將上市新勢力1月第2周銷量榜：小鵬理想爭第一，蔚來意外跌出前十

電子產品更多>>

9月開啟旗艦大戰(zhàn)！高通驍龍8 Elite 2/聯發(fā)科天璣9500提前發(fā)：硬剛蘋果尊界S800內飾官圖，完全就是超豪華的“老錢風” 新能源真的省錢嗎？聽我一句勸，1年開不到10000km，燃油車更劃算上海車展觀察：智駕進入“冷靜期”，安全重回第一性零跑用盈利換信任，“小理想”的春天來了唐L尺寸空間夠大有高階智駕動力與無人機平臺增添用車樂趣續(xù)航達成率超95%，埃安RT讓你沒有續(xù)航焦慮，出行又有面兒 3000萬輛！中國首個！上汽通用五菱迎來新里程碑

財經播報更多>>

不學抖音學INS，OpenAI想站著把錢掙了華為WATCH 5評測：首款鴻蒙AI+麒麟+5G智能手表 2025必入之選自動落鎖這么好的功能，卻讓部分車主頭疼不已，買車時要注意福特夠“野”！新F-150猛禽、烈馬復古特別版首秀銷量增長被指含水分，長安福特前景真有那么不堪？ 2024以高增長收官，2025喜迎開門紅，一汽奔騰“火力全開”！從內卷中抽離，2024捷豹路虎用實力證明“精神鏈接”更可貴嵐圖李博曉：首發(fā)LFC新技術，做最適合東北用的電動車！