无码内射中文字幕岛国片_国产精品无码一区二区三区四区_福利姬液液酱喷水_人妻无码中文字幕_国产精品无码翘臀在线看_色爱综合激情五月激情_日韩美女人体艺术_男人边做边吃奶头视频_欧美黑人又粗又大高潮喷水_亚洲精品无码高潮喷水在线

登錄
首頁(yè) > 今日新聞 > Vision-Zero:零數(shù)據(jù)VLM自我進(jìn)化!陳怡然團(tuán)隊(duì)提出零監(jiān)督訓(xùn)練

Vision-Zero:零數(shù)據(jù)VLM自我進(jìn)化!陳怡然團(tuán)隊(duì)提出零監(jiān)督訓(xùn)練

發(fā)布時(shí)間:2025-10-12 09:42:32

盡管目前VLM在多模態(tài)任務(wù)上表現(xiàn)突出,但訓(xùn)練過(guò)度依賴(lài)人工標(biāo)注的數(shù)據(jù)與精心設(shè)計(jì)的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)。這種依賴(lài)帶來(lái)數(shù)據(jù)稀缺問(wèn)題:多模態(tài)標(biāo)注成本高昂,限制了訓(xùn)練數(shù)據(jù)的規(guī)模與多樣性。同時(shí)存在知識(shí)天花板:模型能力受人類(lèi)監(jiān)督邊界限制,難以突破人類(lèi)已有知識(shí)和策略。曾經(jīng)AlphaGo所使用的自博弈技術(shù)通過(guò)模型與自身副本競(jìng)爭(zhēng)交互并自動(dòng)獲取反饋,把計(jì)算轉(zhuǎn)變?yōu)閿?shù)據(jù)的同時(shí)消除了對(duì)人工監(jiān)督的依賴(lài),這使得它能夠持續(xù)推動(dòng)模型進(jìn)步并突破人類(lèi)能力上限。但是受制于VLM的多模態(tài)特性,目前鮮有對(duì)自博弈在VLM上應(yīng)用的系統(tǒng)性研究。為此研究團(tuán)隊(duì)設(shè)計(jì)了一套適應(yīng)VLM特性的自博弈框架Vision-Zero,此框架有如下特點(diǎn):

(1)策略自博弈框架:Vision-Zero在以社交推理類(lèi)游戲?yàn)槟0宓沫h(huán)境中訓(xùn)練VLM,使得agent在自博弈過(guò)程中自動(dòng)生成高復(fù)雜度推理數(shù)據(jù),而無(wú)需人工標(biāo)注。

(2)任意形式的圖片都可作為輸入:和以往有限制條件的游戲化訓(xùn)練框架不同的是,Vision-Zero可在任意形式的圖片上啟動(dòng)游戲,這使得模型可以在很多不同的領(lǐng)域里獲得相應(yīng)的能力提升,并有很好的泛化性能。

(3)持續(xù)的性能提升:研究團(tuán)隊(duì)提出了自博弈和可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)交替優(yōu)化的自博弈策略優(yōu)化算法(Iterative-SPO),這一算法解決了傳統(tǒng)自博弈算法中常見(jiàn)的性能瓶頸問(wèn)題。

盡管沒(méi)有用任何標(biāo)注數(shù)據(jù)做訓(xùn)練,Vision-Zero在多個(gè)領(lǐng)域如推理,圖表問(wèn)答和Vision-Centric理解任務(wù)上超越了其他有標(biāo)注的SOTA后訓(xùn)練方法。



從棋盤(pán)到現(xiàn)實(shí):

AlphaGo自博弈思想的泛化

自博弈作為OpenAI早期的重要技術(shù)路線之一,也是人工智能發(fā)展歷程中多項(xiàng)里程碑事件的關(guān)鍵推動(dòng)力。典型代表包括2016年AlphaGo戰(zhàn)勝李世石,以及2019年OpenAI Five在Dota 2上擊敗世界冠軍OG戰(zhàn)隊(duì)。人們?cè)诳吹阶圆┺脑谀承┨囟I(lǐng)域大幅超越人類(lèi)智能的同時(shí),往往也會(huì)思考我們是否有可能把這種思想應(yīng)用到更多的開(kāi)放場(chǎng)景中。然而讓AlphaGo從棋盤(pán)走入現(xiàn)實(shí)需要解決以下幾個(gè)難題:

(1)Agent為贏得博弈所習(xí)得的技能,應(yīng)當(dāng)與目標(biāo)任務(wù)所需的技能高度一致。

(2)博弈環(huán)境應(yīng)當(dāng)足夠多樣且復(fù)雜,以便廣泛的目標(biāo)任務(wù)都能夠滿足條件(1)。

(3)技能增長(zhǎng)應(yīng)當(dāng)具有可擴(kuò)展性:隨著自博弈的進(jìn)行,環(huán)境應(yīng)當(dāng)不斷提高難度,使得越來(lái)越強(qiáng)的智能體能夠涌現(xiàn),而不是讓訓(xùn)練收斂到一個(gè)固定的上限。

受到社交推理游戲,如“誰(shuí)是臥底”的啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一套完備的自博弈規(guī)則以解決上述難題,具體規(guī)則如下:

(1)游戲中有n名平民和1名臥底。玩家首先被告知自己的角色。

(2)每名玩家會(huì)得到一張圖片,臥底的圖片與平民略有不同(如缺失、添加或修改了某個(gè)物體)。

(3)線索階段:每位玩家觀察自己的圖片,并給出一個(gè)口頭線索,描述圖片內(nèi)容(可以是物體描述、推斷信息等)。

(4)決策階段:多輪線索給出后,進(jìn)入決策階段。玩家根據(jù)線索結(jié)合自己的圖片,投票找出臥底。



此游戲具有高度策略性與挑戰(zhàn)性,臥底需要根據(jù)他人線索推斷并偽裝自己,避免暴露。平民需要提供足夠準(zhǔn)確但不泄密的線索,同時(shí)分析他人線索尋找可疑點(diǎn)。如此一來(lái),Agent在游戲過(guò)程中便可生成足夠長(zhǎng)且復(fù)雜的推理鏈條,并且隨著對(duì)手能力的提升,其所面臨的挑戰(zhàn)也會(huì)越來(lái)越大,并被激發(fā)出更強(qiáng)的視覺(jué)理解與推理能力。

Copyright 2014-2025 觀經(jīng)濟(jì) 版權(quán)所有  京ICP備20151973號(hào)-1
凤山县| 广饶县| 青阳县| 教育| 漳州市| 瑞丽市| 云浮市| 夏河县| 山阴县| 柘城县| 湖口县| 曲沃县| 遂川县| 专栏| 郧西县| 二连浩特市| 简阳市| 石泉县| 靖州| 吉首市| 武宣县| 贵州省| 伊春市| 秦皇岛市| 莆田市| 济源市| 山东省| 邯郸市| 巴塘县| 托克托县| 镇康县| 温州市| 威远县| 阳泉市| 文安县| 旺苍县| 鄂托克前旗| 安仁县| 育儿| 平度市| 丰原市|