12月8日,美團(tuán)LongCat團(tuán)隊(duì)今日正式發(fā)布并開(kāi)源其圖像生成與編輯模型LongCat-Image。該模型參數(shù)規(guī)模為60億(6B),官方稱其旨在通過(guò)一套統(tǒng)一架構(gòu)處理文本生成圖像及自然語(yǔ)言指令編輯任務(wù)。

模型架構(gòu)
根據(jù)官方介紹,LongCat-Image采用文生圖與圖像編輯同源的混合骨干架構(gòu)(MM-DiT+Single-DiT),并整合了視覺(jué)語(yǔ)言模型(VLM)條件編碼器。其主要技術(shù)特點(diǎn)包括:
1. 集成生成與編輯:模型支持通過(guò)文本提示生成圖像,并可通過(guò)自然語(yǔ)言指令對(duì)圖像進(jìn)行多輪編輯。官方列舉了包括對(duì)象添加/移除、風(fēng)格遷移、背景替換、文本修改等在內(nèi)的15類編輯任務(wù),并宣稱在多輪編輯中能保持圖像風(fēng)格、光照的一致性。

風(fēng)格遷移與屬性編輯能力對(duì)比
2. 中文文本渲染能力:模型強(qiáng)調(diào)對(duì)中文文本生成的支持,聲稱能夠處理標(biāo)準(zhǔn)漢字、生僻字及部分書(shū)法字體,并可根據(jù)場(chǎng)景自動(dòng)調(diào)整字體、大小和排版。技術(shù)實(shí)現(xiàn)上,模型通過(guò)預(yù)訓(xùn)練階段學(xué)習(xí)字形,并在后續(xù)訓(xùn)練中引入真實(shí)世界文本圖像數(shù)據(jù)以提升泛化能力。

文字生成能力對(duì)比
3. 輸出效率與質(zhì)量:通過(guò)模型結(jié)構(gòu)輕量化與訓(xùn)練策略優(yōu)化,宣稱可在消費(fèi)級(jí)GPU上實(shí)現(xiàn)高效推理,并生成具有“攝影棚級(jí)”細(xì)節(jié)的圖像。

圖像生成綜合能力對(duì)比
在性能評(píng)估方面,官方提供了部分基準(zhǔn)測(cè)試數(shù)據(jù):
