2月16日OpenAI在官網(wǎng)發(fā)布了一則新的消息,新的文生視頻大模型Sora已經(jīng)研發(fā)成功,利用這種模型可以快速生成最長(zhǎng)60秒的高清視頻,并且生成的60秒視頻可以非常好地展現(xiàn),視頻中各個(gè)場(chǎng)景的光影關(guān)系,以及不同物體之間的碰撞關(guān)系、物理遮擋,每一個(gè)鏡頭都非常的絲滑完美。
該公司在官方網(wǎng)站中也上傳了很多個(gè)官方演示視頻,由于生成內(nèi)容涉及到的安全問(wèn)題,目前該模型還沒(méi)有正式開(kāi)放測(cè)試,因此并沒(méi)有辦法獲得更多的信息。但根據(jù)OpenAI公司所給出的示例視頻可以看出,提示詞是:街道上到處都是溫暖的發(fā)光霓虹燈以及動(dòng)畫(huà)城市標(biāo)志,一個(gè)穿著黑色皮夾克、黑色靴子,紅色長(zhǎng)裙,時(shí)尚的女士走在東京的街道上,戴著墨鏡、涂著大紅色的口紅,背著一個(gè)黑色的錢包,隨意的在大街上走動(dòng)。根據(jù)這些關(guān)鍵詞Sora呈現(xiàn)出了一個(gè)非常完美的視頻。
很多人都在好奇OpenAI公司所研發(fā)的Sora視頻模型為何這么強(qiáng)大,首先在目前的文生視頻領(lǐng)域中,已經(jīng)有了一些比較成熟的模型思路,有生成對(duì)抗網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)、擴(kuò)散模型。
而該公司所推出的Sora模型,采用的就是擴(kuò)散模型,雖然生成對(duì)抗網(wǎng)絡(luò)模型在此之前比較受歡迎,但對(duì)著文生視頻領(lǐng)域技術(shù)不斷成熟,擴(kuò)散模型已經(jīng)屬于業(yè)內(nèi)頭部技術(shù)。
因?yàn)閿U(kuò)散模型相較于生成對(duì)抗網(wǎng)絡(luò),生成視頻的多樣性,以及在訓(xùn)練時(shí)的穩(wěn)定性能都會(huì)更占據(jù)優(yōu)勢(shì),更重要的一點(diǎn)是擴(kuò)散模型,不管是在圖片生成中還是在視頻生成中,都能達(dá)到更高級(jí)的領(lǐng)域。而生成對(duì)抗網(wǎng)絡(luò)從現(xiàn)有的原理看,其實(shí)就是機(jī)器人對(duì)于人的模仿,而擴(kuò)散模型現(xiàn)在到達(dá)的高度,已經(jīng)達(dá)到了一個(gè)機(jī)器學(xué)會(huì)如何成為一個(gè)人。
Sora模型的發(fā)展前景被業(yè)內(nèi)人士看好。認(rèn)為會(huì)給視頻廣告領(lǐng)域帶來(lái)更多新的創(chuàng)意。