騰訊混元團(tuán)隊(duì)今日正式推出HunyuanWorld-Voyager(混元Voyager)模型,標(biāo)志著AI在3D空間智能領(lǐng)域取得重大突破。這款業(yè)界首創(chuàng)的原生3D重建超長(zhǎng)漫游世界模型,在斯坦福大學(xué)李飛飛團(tuán)隊(duì)制定的WorldScore基準(zhǔn)測(cè)試中表現(xiàn)卓越,綜合能力位居榜首。
該模型在視頻生成與3D重建兩大核心任務(wù)上展現(xiàn)出顯著優(yōu)勢(shì)。其創(chuàng)新性地采用空間與特征融合技術(shù),實(shí)現(xiàn)了原生3D記憶和場(chǎng)景重建功能,有效規(guī)避了傳統(tǒng)后處理方式帶來(lái)的精度損失和延遲問(wèn)題。通過(guò)輸入端3D條件精準(zhǔn)控制畫面視角,輸出端直接生成3D點(diǎn)云,為虛擬現(xiàn)實(shí)、游戲開發(fā)等應(yīng)用場(chǎng)景提供了更高效的解決方案。
混元Voyager突破了傳統(tǒng)視頻生成技術(shù)的局限,能夠創(chuàng)建具有空間一致性的長(zhǎng)距離漫游場(chǎng)景,并支持將視頻內(nèi)容直接轉(zhuǎn)換為3D格式。該模型與已開源的混元世界模型1.0完美兼容,不僅能擴(kuò)展原有模型的漫游范圍,還能提升復(fù)雜場(chǎng)景的生成質(zhì)量,同時(shí)支持場(chǎng)景風(fēng)格化編輯功能。
在應(yīng)用層面,該模型展現(xiàn)出強(qiáng)大的多任務(wù)處理能力,包括視頻場(chǎng)景重建、3D物體紋理生成、視頻風(fēng)格定制化處理以及深度估計(jì)等3D理解與生成功能。其獨(dú)特的深度信息處理技術(shù)為各類3D應(yīng)用提供了更豐富的可能性。