GitHub的Lvmin Zhang聯(lián)合斯坦福大學(xué)的Maneesh Agrawala發(fā)布了一項(xiàng)名為FramePack的突破性新技術(shù)。這項(xiàng)技術(shù)通過(guò)在視頻擴(kuò)散模型中使用固定長(zhǎng)度的時(shí)域上下文,實(shí)現(xiàn)了更高效、更高質(zhì)量的視頻生成。
FramePack作為一種神經(jīng)網(wǎng)絡(luò)架構(gòu),采用多級(jí)優(yōu)化策略完成本地AI視頻生成。它底層基于定制版的騰訊混元模型,但現(xiàn)有的預(yù)訓(xùn)練模型都可以通過(guò)FramePack進(jìn)行微調(diào)、適配。這一技術(shù)的最大亮點(diǎn)在于,它顯著降低了對(duì)顯存的需求。基于FramePack構(gòu)建的130億參數(shù)模型,僅需一塊6GB顯存的顯卡,就能生成60秒鐘的視頻。
傳統(tǒng)的視頻擴(kuò)散模型在生成視頻時(shí),需要處理此前生成的帶有噪音的幀,并預(yù)測(cè)下一個(gè)噪音更少的幀。而每生成一幀所需要輸入的幀數(shù)量(即時(shí)域上下文長(zhǎng)度)會(huì)隨著視頻的體積而增加,這對(duì)顯存有著很高的要求。然而,F(xiàn)ramePack會(huì)根據(jù)輸入幀的重要性,對(duì)所有輸入幀進(jìn)行壓縮,改變?yōu)楣潭ǖ纳舷挛拈L(zhǎng)度,從而顯著降低了顯存需求。同時(shí),它的計(jì)算消耗與圖片擴(kuò)散模型類(lèi)似,每一幀畫(huà)面生成之后都會(huì)實(shí)時(shí)顯示,方便即時(shí)預(yù)覽。
此外,F(xiàn)ramePack還能有效緩解“漂移”現(xiàn)象,即視頻長(zhǎng)度增加時(shí)質(zhì)量下降的問(wèn)題。這意味著,在不顯著犧牲質(zhì)量的同時(shí),可以生成更長(zhǎng)的視頻。該技術(shù)數(shù)據(jù)格式支持FP16、BF16,顯卡硬件支持RTX 50、RTX 40、RTX 30系列顯卡(除RTX 3050 4GB外),操作系統(tǒng)則支持Windows和Linux。性能方面,RTX 4090經(jīng)過(guò)teacache優(yōu)化后,每秒可以生成大約0.6幀。這一技術(shù)的推出,無(wú)疑為視頻生成領(lǐng)域帶來(lái)了新的突破和發(fā)展機(jī)遇。