乱人伦中文无码视频在线观看,另类制服丝袜人妻无码专区,色综合天天综合高清网国产在线 ,一本无码av中文出轨人

分享縮略圖

分享到:
鏈接已復(fù)制

新聞

新聞直播 要聞 國際 軍事 社會 政協(xié) 政務(wù) 圖片 視頻

財(cái)經(jīng)

財(cái)經(jīng) 金融 證券 汽車 科技 消費(fèi) 能源 地產(chǎn) 農(nóng)業(yè)

觀點(diǎn)

觀點(diǎn) 理論 智庫 中國3分鐘 中國訪談 中國網(wǎng)評 中國關(guān)鍵詞

文化

文化 文創(chuàng) 藝術(shù) 時(shí)尚 旅游 悅讀 民藏 中醫(yī) 中網(wǎng)藝云

國情

國情 助殘 一帶一路 海洋 草原 黃河 運(yùn)河 灣區(qū) 聯(lián)盟 心理 老年

首頁> 聯(lián)盟>

智源研究院發(fā)布悟界Emu3.5,開啟多模態(tài)世界大模型新紀(jì)元

時(shí)間:2025-11-04

來源:中國網(wǎng)

分享到:
鏈接已復(fù)制
字體:

2025年10月30日,智源研究院在北京舉辦“悟界?Emu系列技術(shù)交流會”,智源研究院院長王仲遠(yuǎn)、多模態(tài)大模型負(fù)責(zé)人王鑫龍,發(fā)布了Emu3.5多模態(tài)世界大模型。這項(xiàng)工作的發(fā)布開啟了人工智能從語言學(xué)習(xí)向多模態(tài)世界學(xué)習(xí)演進(jìn)的新紀(jì)元,率先指明了多模態(tài)Scaling的新范式。而Emu作為“悟界”系列模型的重要組成部分,標(biāo)志著AI正加速從數(shù)字世界邁向物理世界的關(guān)鍵一步。

image.png

2024年10月,智源研究院發(fā)布了全球首個(gè)原生多模態(tài)世界模型Emu3,該模型只基于下一個(gè)token預(yù)測,無需擴(kuò)散模型或組合方法,實(shí)現(xiàn)圖像、文本、視頻的大一統(tǒng)。模型一經(jīng)上線便在技術(shù)社區(qū)引發(fā)了熱議。

一年后,智源發(fā)布Emu3.5,在“Next-Token Prediction”范式的基礎(chǔ)上,模擬人類自然學(xué)習(xí)方式,以自回歸架構(gòu)實(shí)現(xiàn)了對多模態(tài)序列的“Next-State Prediction (NSP)”,獲得了可泛化的世界建模能力。

image.png

王仲遠(yuǎn)表示:“通過Emu3我們驗(yàn)證了自回歸架構(gòu)實(shí)現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性,Emu3.5則開啟了多模態(tài)Scaling的新時(shí)代。更重要的是,它為通往更通用的、能夠理解并與物理世界交互的通用人工智能,提供了一條堅(jiān)實(shí)的、可度量的實(shí)踐路徑。”

Emu3.5在超過10萬億token的大規(guī)模多模態(tài)數(shù)據(jù)基礎(chǔ)上展開訓(xùn)練,其視頻數(shù)據(jù)訓(xùn)練量時(shí)長實(shí)現(xiàn)從15年到790年的躍升,參數(shù)量從8B上升至34B,揭示了原生多模態(tài)Scaling范式。其推理時(shí),創(chuàng)新性地提出“離散擴(kuò)散自適應(yīng)”(Discrete Diffusion Adaptation,DiDA)技術(shù),這一高效的混合推理預(yù)測方法,可以在不犧牲性能的前提下,將每張圖片的推理速度提升了近20倍,首次使自回歸模型的生成效率媲美頂尖的閉源擴(kuò)散模型。

王鑫龍介紹:“EMU3.5突破了原生多模態(tài)的大規(guī)模預(yù)訓(xùn)練、大規(guī)模強(qiáng)化學(xué)習(xí)和高效推理,指出了多模態(tài)世界模型的一種簡單易擴(kuò)展的Scaling范式。”

EMU3.5模型開始具備學(xué)習(xí)現(xiàn)實(shí)世界物理動態(tài)與因果的能力,為探索通用世界模型奠定了堅(jiān)實(shí)的基礎(chǔ)。它具備三大重要特點(diǎn)。一是從意圖到規(guī)劃,模型能夠理解高層級的人類意圖(如“如何制作一艘宇宙飛船”“如何做咖啡拉花”),并自主生成詳細(xì)、連貫的多步驟行動路徑。二是動態(tài)世界模擬,模型在統(tǒng)一框架內(nèi)無縫融合了對世界的理解、規(guī)劃與模擬,能夠預(yù)測物理動態(tài)、時(shí)空演化和長時(shí)程因果關(guān)系。三是可成為泛化交互基礎(chǔ):其涌現(xiàn)出的因果推理和規(guī)劃能力,為AI與人類及物理環(huán)境進(jìn)行泛化交互(如具身操控)提供了關(guān)鍵的認(rèn)知基礎(chǔ)。

這些特點(diǎn)這讓新一代世界模型具備從“理解”到“行動”的全面智能能力,可生成行動指南、進(jìn)行圖文編輯,并且同時(shí)具備物理直覺可開展多場景的探索。

image.png

Emu3.5能以精準(zhǔn)可控的方式完成文圖生成

image.png

展現(xiàn)出基于視覺理解的圖像生成能力

Emu3.5的多模態(tài)指導(dǎo)能力:輸入“如何做芹菜餃子”,模型輸出有步驟的圖文指導(dǎo)

Emu3.5在多模態(tài)指導(dǎo)中展現(xiàn)出卓越的時(shí)序一致性與步驟推理能力,讓復(fù)雜任務(wù)的執(zhí)行過程一目了然。多模態(tài)敘事能力上,Emu 3.5能圍繞任意主題生成沉浸式的故事體驗(yàn),釋放無限想象力。此外模型可實(shí)現(xiàn)跨場景的具身操作,具備泛化的動作規(guī)劃與復(fù)雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實(shí)與虛擬的動態(tài)環(huán)境,實(shí)現(xiàn)自由探索與精準(zhǔn)控制。

image.png

Emu 3.5能圍繞任意主題生成沉浸式的體驗(yàn),上面是宇航員在探索中遇到皮卡丘的故事

image.png

只需一句“疊衣服”的簡單指令,Emu3.5便能自主規(guī)劃、拆解任務(wù),并精確生成機(jī)器人完成一整套復(fù)雜的折疊動作

image.png

Emu3.5能夠完成復(fù)雜的圖文編輯任務(wù):進(jìn)行時(shí)空變換后,依舊保持物體與場景的高度一致

同時(shí),圖文編輯方面,它既能通過自然語言實(shí)現(xiàn)任意指令的圖片編輯與時(shí)空變換,也能以精準(zhǔn)、智能、可控且富有創(chuàng)意的方式完成文圖生成,讓文字與視覺內(nèi)容的融合更加自然與高保真。在基準(zhǔn)測試中,Emu3.5的表現(xiàn)超越了眾多知名的閉源模型。

王仲遠(yuǎn)總結(jié),以第一性原理看大模型未來,我們相信AI的下一次躍遷,將來自模型對現(xiàn)實(shí)世界的深層表征與可泛化行動指導(dǎo)的能力。我們期待與更多科研機(jī)構(gòu)與產(chǎn)業(yè)伙伴一起,開創(chuàng)多模態(tài)世界大模型新范式,探索通往AGI的演進(jìn)之路。(智源研究院供圖供稿)(推廣)

【責(zé)任編輯:沈曄】
返回頂部