Sora不能成為世界模型。自從2024年春節(jié)OpenAI發(fā)布Sora大模型之后,關(guān)于Sora模型的熱度一直居高不下,并且在OpenAI公司所發(fā)布的技術(shù)文檔里面宣稱,該模型很有希望能夠構(gòu)建出更多可以模擬物理世界的通用模型器,雖然Sora模型能夠憑借文生圖,或者圖生圖的方式生成最高長(zhǎng)達(dá)60秒的視頻,但它離世界模型還有很遠(yuǎn)的距離。
想要成為世界模型,你就要了解什么是世界模型。按照目前人們對(duì)于AGI的定義,AI系統(tǒng)能夠以人類擁有的認(rèn)知水平,或者是超過(guò)人類擁有的認(rèn)知水平,在不同的領(lǐng)域中擁有自行的理解或者是推理,這也是目前專門對(duì)從事,特定任務(wù)的狹義AI系統(tǒng)做出的認(rèn)知。
因此AGI是指擁有人類水平的智能水準(zhǔn),還能跨越不同抽象思維領(lǐng)域的一種AI系統(tǒng),這也就要求科技公司需要?jiǎng)?chuàng)建出一個(gè),和現(xiàn)實(shí)世界經(jīng)驗(yàn)相一致的世界模型,并且允許對(duì)各種預(yù)測(cè)進(jìn)行假設(shè)。
但是目前的AI領(lǐng)域中,擁有一個(gè)難以克服的問(wèn)題,就是如何對(duì)AI系統(tǒng)進(jìn)行數(shù)據(jù)訓(xùn)練,大多數(shù)語(yǔ)言模型只支持在文本基礎(chǔ)上進(jìn)行訓(xùn)練,根本不支持在現(xiàn)實(shí)世界中生活、聽(tīng)覺(jué)、說(shuō)話、嗅覺(jué),各種基本的認(rèn)知能力,即使科技公司能夠創(chuàng)建出一個(gè)世界模型,這個(gè)世界模型也只能是一個(gè)純文字的世界。
這種世界模型就直接缺乏感知,所產(chǎn)生的一種常識(shí),因此想要打造出一個(gè)世界模型,就需要語(yǔ)言、視頻、圖像等多模態(tài)數(shù)據(jù),未來(lái)還可能會(huì)涉及到嗅覺(jué)、觸覺(jué)等方面的數(shù)據(jù)。
雖然Sora在現(xiàn)如今的科技領(lǐng)域內(nèi)擁有非常強(qiáng)的能力,能夠做到對(duì)物理世界一些事物的簡(jiǎn)單理解,但是它的能力還不能被稱之為世界模型,不過(guò)未來(lái)可期。