微軟開發(fā)的視頻生成模型DragNUWA,讓清明上河圖動起來!
只要通過拖動給出運(yùn)動軌跡,DragNUWA就可以使圖像中的物體按照軌跡運(yùn)動,生成連貫的視頻。
DragNUWA 可以同時控制攝像機(jī)和多個物體的運(yùn)動和復(fù)雜的軌跡,以生成具有真實(shí)世界場景和藝術(shù)繪畫的視頻。
近年來,可控視頻生成技術(shù)備受關(guān)注。 然而,現(xiàn)有的可控視頻生成仍然存在兩個主要限制:
1.現(xiàn)有作品大多集中于文本、圖像或基于軌跡的控制,導(dǎo)致無法實(shí)現(xiàn)視頻中的細(xì)粒度控制。
2. 軌跡控制的研究還處于早期階段,大多數(shù)實(shí)驗(yàn)都是在Human3.6M等簡單數(shù)據(jù)集上進(jìn)行。 這種限制限制了模型處理開放域圖像和有效處理復(fù)雜曲線軌跡的能力。
微軟的研究人員提出了一種基于開放域擴(kuò)散的視頻生成模型:DragNUWA。
論文地址:
針對現(xiàn)有研究中控制粒度不足的問題,DragNUWA還引入了文本、圖像和軌跡信息,從語義、空間和時間角度對視頻內(nèi)容進(jìn)行精細(xì)控制。
第一組演示了對復(fù)雜軌跡的控制,包括復(fù)雜運(yùn)動(紅色彎曲箭頭)和相機(jī)移動(紅色向右箭頭)。
第二組演示了語言控制的影響,將不同的文本與相同的圖像和軌跡配對,以達(dá)到將新物體引入圖像的效果。
第三組展示了圖像控制的影響,展示了現(xiàn)實(shí)世界和藝術(shù)視頻的生成。
為了解決當(dāng)前研究中有限的開域軌跡控制問題,研究人員從三個方面提出了軌跡建模:
首先,通過軌跡采樣器(TS)實(shí)現(xiàn)任意軌跡的開域控制; 其次,通過多尺度融合(MF)控制不同粒度的軌跡; 最后,通過自適應(yīng)訓(xùn)練(AT)策略根據(jù)軌跡生成一致的視頻。 。
工作準(zhǔn)則
DragNUWA支持三種可選輸入:文本p、圖像s和軌跡g,并重點(diǎn)從三個方面設(shè)計軌跡。
首先,軌跡采樣器 (TS) 從開放域視頻流中動態(tài)采樣軌跡。
其次,多尺度融合(MF)將軌跡與文本和圖像深度融合到 UNet 架構(gòu)的每個塊中。
最后,自適應(yīng)訓(xùn)練(AT)根據(jù)光流條件調(diào)整模型,使軌跡更加友好。
最終,DragNUWA 能夠處理包含多個對象及其復(fù)雜軌跡的開放域視頻。
DragNUWA 訓(xùn)練流程概覽
為了驗(yàn)證軌跡控制的有效性,研究人員對DragNUWA在相機(jī)運(yùn)動和復(fù)雜軌跡方面進(jìn)行了測試。
在視頻制作中,攝像機(jī)運(yùn)動在為觀眾創(chuàng)造動態(tài)且引人入勝的視覺效果方面發(fā)揮著重要作用。
不同類型的攝像機(jī)移動有助于講述故事或強(qiáng)調(diào)場景中的元素。 常見的相機(jī)運(yùn)動不僅包括水平和垂直運(yùn)動,還包括放大和縮小。
如下圖所示,雖然DragNUWA沒有明確地對相機(jī)運(yùn)動進(jìn)行建模,但它可以從開放域軌跡建模中學(xué)習(xí)各種相機(jī)運(yùn)動:
通過使用相同的文字和圖像,同時改變拖動軌跡,可以實(shí)現(xiàn)多種相機(jī)移動效果。 例如,您可以通過在所需的縮放位置繪制方向軌跡來表達(dá)放大和縮小效果。
視頻中的物體通常具有復(fù)雜的運(yùn)動軌跡。 面對多個運(yùn)動對象、復(fù)雜的運(yùn)動軌跡以及不同對象之間不同的運(yùn)動幅度,視頻生成中的運(yùn)動建模是一個巨大的挑戰(zhàn)。
研究人員通過使用相同的文字和圖片,同時改變拖動軌跡,實(shí)現(xiàn)了各種復(fù)雜的軌跡效果。
這證明了 DragNUWA 精確建模復(fù)雜運(yùn)動的能力:支持復(fù)雜的彎曲軌跡,允許可變軌跡長度,并支持同時控制多個對象的軌跡。
DragNUWA通過集成文本、圖像和軌跡三種基本控制來實(shí)現(xiàn)細(xì)粒度的視頻生成,分別對應(yīng)語義、空間和時間方面。
這三個條件缺一不可:
s2v 和 p2v 說明了圖像和文本控件作為單獨(dú)條件使用時的局限性:
如s2v所示,雖然圖像本身提供了一些潛在的語義和動態(tài)信息,但它并不能實(shí)現(xiàn)對背景和角色運(yùn)動的精確控制。
如p2v所示,當(dāng)僅提供文本時,模型成功生成與文本相關(guān)的視頻,但外觀和動態(tài)仍然完全失控。
gs2v和ps2v強(qiáng)調(diào)文本(p)和軌跡(g)的重要性。 在沒有文字的情況下,無法確定模糊圖像代表的是海上沖浪還是雪上沖浪。 在沒有軌跡的情況下,模型會自動假設(shè)角色正在向左移動。
當(dāng)滿足三個基本條件后,pgs2v中就實(shí)現(xiàn)了雪地沖浪和向右移動的控制。
數(shù)據(jù)集
在訓(xùn)練過程中,研究團(tuán)隊(duì)利用WebVid和VideoHD數(shù)據(jù)集來優(yōu)化DragNU。
WAWebVid 是一個龐大的數(shù)據(jù)集,由 1000 萬個網(wǎng)絡(luò)視頻組成,涵蓋現(xiàn)實(shí)世界中的各種場景并配有相應(yīng)的字幕。 它涵蓋了廣泛的運(yùn)動模式,適用于基于軌跡的開放域視頻生成。
VideoHD是研究團(tuán)隊(duì)根據(jù)網(wǎng)絡(luò)抓取視頻構(gòu)建的數(shù)據(jù)集。 研究人員首先從互聯(lián)網(wǎng)上收集了 75K 高分辨率、高質(zhì)量的視頻片段。 然后使用 BLIP2 對這些片段進(jìn)行注釋。 最后,生成結(jié)果中的一些錯誤被手動過濾掉。
關(guān)于作者
吳晨飛博士是微軟亞洲研究院高級研究員。 他的研究重點(diǎn)是大規(guī)模預(yù)訓(xùn)練、多模態(tài)理解和生成。 主要研究工作包括多模態(tài)生成模型NUWA(努瓦)系列(NUWA、NUWA-LIP、NUWA-Infinity、NUWA-3D、NUWA-XL)、多模態(tài)理解模型Bridge Tower系列(KD-VLP、Bridge-Tower) )和多模態(tài)對話系統(tǒng)Visual ChatGPT。 將在CVPR、NeurIPS、ACL、ECCV、AAAI、MM等發(fā)表多篇論文。
段楠博士,微軟亞洲研究院高級首席研究員,自然語言計算團(tuán)隊(duì)研究經(jīng)理,中國科學(xué)技術(shù)大學(xué)、西安交通大學(xué)兼職博士生導(dǎo)師,西安交通大學(xué)兼職教授。天津大學(xué). 主要從事自然語言處理、多模態(tài)基礎(chǔ)模型、代碼智能、機(jī)器推理等方面的研究,并擔(dān)任多個NLP/AI學(xué)術(shù)會議的程序主席和現(xiàn)場主席。 發(fā)表學(xué)術(shù)論文100余篇,被谷歌學(xué)術(shù)引用10000余次,擁有20余項(xiàng)專利。 被評為中國計算機(jī)學(xué)會(CCF)優(yōu)秀會員、CCF-NLPCC青年科學(xué)家(2019年)、DeepTech中國智能計算技術(shù)創(chuàng)新人物(2022年)。
參考: