數(shù)字人的生產(chǎn)方式與價值邊界正在被重新界定。
在京東全球科技探索者大會(簡稱JDD)上,京東數(shù)字人JoyStreamer平臺發(fā)布了4.0版本,用戶或品牌僅需輸入一段描述性文字,或上傳任意一張圖片,便可在短時間內(nèi)生成一個1分鐘以上的高質(zhì)量、可商用的數(shù)字人視頻。

在此發(fā)布之前,一個行業(yè)顯著的趨勢是,數(shù)字人越來越多地被用于完美復(fù)刻某個真實人物,充當(dāng)其“數(shù)字分身”。它們化身為24小時無休的直播主播、耐心解答重復(fù)問題的客服、以及各大晚會中的表演者,以其高效、穩(wěn)定、低成本的特性,成為企業(yè)降本增效的一把利器。
但當(dāng)熱潮退去,一個更深層次的問題浮出水面:如果數(shù)字人僅僅是“真實世界的完美倒影”,那么它的想象空間和商業(yè)價值,是否也被這份“真實”所局限?
“真實,但又很局限。”這正是許多品牌方和技術(shù)探索者共同的感受。對于一個追求天馬行空創(chuàng)意的吉他品牌,一個希望讓千年文物開口講述歷史的文旅機(jī)構(gòu),甚至是一些AI時代的內(nèi)容創(chuàng)作者而言,一個標(biāo)準(zhǔn)化的“真人替身”顯然不夠。他們需要的,不是復(fù)刻,而是創(chuàng)造。
京東JoyStreamer數(shù)字人4.0的發(fā)布,正是對這一行業(yè)痛點的直接回應(yīng),通過推動數(shù)字人產(chǎn)業(yè)從“替身執(zhí)行”邁向“個性創(chuàng)造”,從而讓數(shù)字人撕掉“工具人”的標(biāo)簽,成為能夠沉淀品牌價值、激發(fā)創(chuàng)意、與消費(fèi)者建立情感連接的核心資產(chǎn),也由此拓寬數(shù)字人的商業(yè)化路徑。
1
從“完美復(fù)刻”到“隨心所欲”
數(shù)字人技術(shù)的發(fā)展,呈現(xiàn)出兩條并行且互補(bǔ)的進(jìn)化路線。以京東數(shù)字人3.0為代表的“高保真復(fù)刻”路線,其核心是通過專業(yè)設(shè)備錄制真人的形象、聲音、身體動作,進(jìn)行精細(xì)化訓(xùn)練和驅(qū)動。覆蓋超過20000家品牌的京東直播數(shù)字人便是這一技術(shù)的典型產(chǎn)物,在直播間穩(wěn)定地輸出信息,展現(xiàn)了技術(shù)在“替身執(zhí)行”層面的成熟。
然而,當(dāng)品牌的創(chuàng)意需求爆炸式增長時,新的挑戰(zhàn)也隨之而來。如果數(shù)字人的形象庫始終受制于有限的真人模特,風(fēng)格便難以突破。想要一個賽博朋克風(fēng)格的代言人?或是讓一只可愛的貓咪開口說話?傳統(tǒng)路徑難以實現(xiàn),成本與周期也無法估量。
新的答案,指向了以DiT架構(gòu)為基礎(chǔ)的生成式AI。在JDD大會上發(fā)布的京東JoyStreamer數(shù)字人4.0,正是這一路線的踐行者,通過對模型架構(gòu)和訓(xùn)練方法的優(yōu)化,讓數(shù)字人的“個性化創(chuàng)造”真正實現(xiàn)了零門檻和隨心所欲。
具體而言,JoyStreamer 4.0攻克了三大核心難關(guān):
首先,實現(xiàn)了電影級質(zhì)量的長視頻生成。在基于文本、音頻、參考圖像、姿態(tài)等多種控制條件的輸入下,模型能夠穩(wěn)定生成超過一小時的高質(zhì)量長視頻。視頻中的數(shù)字人不僅匹配度高、想象力強(qiáng),且動作豐富連貫,足以應(yīng)對嚴(yán)肅的商業(yè)內(nèi)容輸出。
