2025年7月3日,字節(jié)跳動(dòng)旗下PICO-MR團(tuán)隊(duì)正式宣布開源EX-4D——這一具有突破性意義的4D視頻生成框架。該框架能夠基于單一視角(單目)視頻,高效生成具備高質(zhì)量、多視角特性的4D視頻序列(涵蓋3D空間信息與時(shí)間維度),為視頻生成技術(shù)的發(fā)展樹立了全新里程碑。EX-4D不僅在多項(xiàng)技術(shù)指標(biāo)上顯著超越現(xiàn)有開源方案,更為沉浸式3D內(nèi)容創(chuàng)作以及“世界模型”的構(gòu)建提供了強(qiáng)有力的技術(shù)支撐。
傳統(tǒng)視頻生成技術(shù)在多視角領(lǐng)域長期面臨雙重枷鎖。高昂的數(shù)據(jù)成本首當(dāng)其沖,多視角拍攝需專業(yè)設(shè)備陣列,數(shù)據(jù)集構(gòu)建成本呈幾何級(jí)增長。更棘手的是物理一致性困境——當(dāng)視角偏移超過30度,物體邊緣開始出現(xiàn)撕裂,遮擋區(qū)域暴露邏輯混亂的“數(shù)字穿幫”。
現(xiàn)有技術(shù)路線陷入兩難:依賴相機(jī)外參數(shù)控制的方法面臨數(shù)據(jù)分布偏移風(fēng)險(xiǎn);而點(diǎn)云投影方案無法準(zhǔn)確表達(dá)物體遮擋關(guān)系,在復(fù)雜場景中頻頻“露餡”。
2025年6月,PICO-MR團(tuán)隊(duì)在預(yù)印本平臺(tái)公開EX-4D論文時(shí),展示了一段對(duì)比演示:當(dāng)傳統(tǒng)方法在90度視角生成中讓車輛“懸浮”在錯(cuò)位背景上時(shí),他們的系統(tǒng)精準(zhǔn)保留了輪胎與地面的接觸陰影,連車窗反射的云朵移動(dòng)都保持連續(xù)軌跡。
核心技術(shù)突破點(diǎn)在于“腦補(bǔ)”能力——僅憑單目視頻推斷全視角信息,這正是構(gòu)建真實(shí)世界模型的關(guān)鍵跳板。
DW-Mesh是EX-4D的核心技術(shù),其通過構(gòu)建全密閉網(wǎng)格結(jié)構(gòu),精準(zhǔn)記錄場景中的可見與隱形面片信息,無需依賴多視角監(jiān)督便可統(tǒng)一處理復(fù)雜場景拓?fù)?。結(jié)合預(yù)訓(xùn)練深度預(yù)測模型,EX-4D能將單幀像素投影至3D空間,形成網(wǎng)格頂點(diǎn),并根據(jù)幾何關(guān)系精確標(biāo)記遮擋區(qū)域。這一方法確保了生成視頻即便在極端視角(如±90°)下,仍能維持物理一致性與細(xì)節(jié)完整性。
此外,EX-4D引入了渲染mask和跟蹤mask兩種模擬mask生成策略,通過模擬視角移動(dòng)與幀間一致性,有效破解了多視角訓(xùn)練數(shù)據(jù)稀缺的難題。這些策略讓EX-4D僅憑單目視頻便能“腦補(bǔ)”出全視角數(shù)據(jù),大幅降低了數(shù)據(jù)采集成本。
性能測試結(jié)果顯示,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)和VBench等行業(yè)標(biāo)準(zhǔn)指標(biāo)上,均全面超越現(xiàn)有開源方法。尤其在極端視角(如接近90°)的生成任務(wù)中,EX-4D的性能優(yōu)勢更加顯著,生成的視頻在物體細(xì)節(jié)與遮擋邏輯上均展現(xiàn)出更高的線
在性能測試環(huán)節(jié),EX-4D交出了一份令人矚目的答卷。依托包含150個(gè)網(wǎng)絡(luò)視頻的測試數(shù)據(jù)集,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)以及VBench等業(yè)界公認(rèn)的標(biāo)準(zhǔn)指標(biāo)上,全方位超越了現(xiàn)有的開源方法。特別是在處理接近90°極端視角的生成任務(wù)時(shí),EX-4D展現(xiàn)出的性能優(yōu)勢格外突出,生成視頻中的物體細(xì)節(jié)刻畫更為精細(xì),遮擋邏輯也更為自然線位志愿者參與的主觀評(píng)價(jià)活動(dòng)中,高達(dá)70.7%的參與者明確表示,EX-4D在極端視角下呈現(xiàn)出的物理一致性顯著優(yōu)于其他開源方案。這一結(jié)果充分證明,EX-4D不僅在技術(shù)指標(biāo)上占據(jù)領(lǐng)先地位,更在實(shí)際應(yīng)用中贏得了用戶的廣泛贊譽(yù)。
當(dāng)Sora、Veo等2D視頻模型還在平面維度上突破時(shí),字節(jié)跳動(dòng)旗下PICO-MR團(tuán)隊(duì)推出的EX-4D已開啟三維空間革命。這款全球首個(gè)單目視頻到自由視角4D生成框架,不僅突破了傳統(tǒng)視頻生成的技術(shù)邊界,更通過空間智能的范式升級(jí),為元宇宙、數(shù)字孿生、自動(dòng)駕駛等領(lǐng)域注入核心動(dòng)能。正如李飛飛教授所言:空間智能是AI理解物理世界的北極星,
EX-4D的開源標(biāo)志著人類向數(shù)字宇宙邁出了關(guān)鍵一步。
在視頻生成領(lǐng)域,ag九游會(huì)官方網(wǎng)站EX-4D所引領(lǐng)的變革正推動(dòng)技術(shù)向更深層次的演進(jìn)。未來,視頻生成將不再局限于靜態(tài)空間的重構(gòu),而是朝著動(dòng)態(tài)環(huán)境交互與實(shí)時(shí)物理模擬的方向躍遷?;贓X-4D的DW-Mesh動(dòng)態(tài)建模技術(shù),下一代視頻生成框架或?qū)?shí)現(xiàn)場景自進(jìn)化——系統(tǒng)能根據(jù)用戶交互行為實(shí)時(shí)調(diào)整空間布局,例如在虛擬演唱會(huì)中,觀眾彈幕可觸發(fā)舞臺(tái)結(jié)構(gòu)的動(dòng)態(tài)重組,或是在開放世界游戲中,NPC會(huì)根據(jù)環(huán)境變化自主生成符合物理規(guī)則的避險(xiǎn)動(dòng)作。
多模態(tài)融合將成為另一核心方向。EX-4D已展現(xiàn)出單目視頻到4D空間的轉(zhuǎn)換能力,而未來技術(shù)將進(jìn)一步整合觸覺、聽覺甚至氣味數(shù)據(jù),構(gòu)建全感官沉浸體驗(yàn)。例如,自動(dòng)駕駛仿線D視覺場景,還能模擬輪胎與路面的摩擦聲、急剎車時(shí)的G力反饋,甚至通過氣味模塊還原暴雨中的泥土氣息,使訓(xùn)練數(shù)據(jù)更貼近真實(shí)駕駛環(huán)境。
聚焦創(chuàng)新融通,30+跨國公司、50+CVC機(jī)構(gòu)、112家科技公司亮相!2025 DEMO WORLD上海松江開幕
《工業(yè)數(shù)據(jù)庫規(guī)范 第3部分:時(shí)序數(shù)據(jù)庫》標(biāo)準(zhǔn)發(fā)布,浪潮KaiwuDB 深度參與
又向世界模型邁進(jìn)一步:字節(jié)跳動(dòng)EX-4D震撼開源,單目視頻秒變自由視角4D大片