東京街頭,一位戴著墨鏡、身穿紅裙、踩著皮靴的女人在悠閑漫步,這段視頻不是實拍,也不是CG合成,而是由AI自動生成,這就是最近引發(fā)關(guān)注的OpenAI發(fā)布的首個視頻生成模型Sora,不僅如此,OpenAI還公布了其他幾段視頻,幾只巨大的猛犸象在雪地奔跑、一只毛茸茸的小怪物跪在蠟燭旁邊……視頻質(zhì)量媲美“大片”,視覺效果也十分逼真。
OpenAI介紹,Sora可以實現(xiàn)視頻中的主題始終保持一致,即使暫時離開視野也不會發(fā)生變化,并可以一次性生成多機位視頻,還可以依靠對語言的深入理解準(zhǔn)確地解釋提示詞,保留角色和視覺風(fēng)格。從ChatGPT到Sora,從文本到視頻,AI大模型真的越來越神了嗎?
海量數(shù)據(jù)讓Sora越來越理解“人類世界”
“確實是非常難的,特別是要生成和現(xiàn)實世界接近的畫面尤其難。”達(dá)觀數(shù)據(jù)副總裁王文廣說道,“它需要對我們整個物理世界有深刻的理解,比如人從一個地方走到另一個地方,空間上會有變化,前景可能會遮擋人物,層次關(guān)系很復(fù)雜,要完美地生成一個視頻是非常不容易的。”
“OpenAI發(fā)布Sora的時候就提到,它是通過模擬世界去生成視頻。在這個過程中,系統(tǒng)性地把世界怎么運行的視頻樣本學(xué)習(xí)了一遍,并且把這些數(shù)據(jù)信息壓縮在它的模型中”看見概念創(chuàng)始人胡修涵表示。所以,在他看來,Sora的厲害之處,不在于它能生成視頻而在于它會“思考”了。
能生小視頻的AI能“拍”大電影嗎?
最近,一個名為“AI瘋?cè)嗽骸钡牟┲髟诰W(wǎng)上發(fā)布了一部令人震撼的《猴王問世》動畫短片。這部短片利用AI技術(shù)制作而成,全長約3分56秒,其令人身臨其境的逼真視覺效果讓眾多網(wǎng)友驚嘆不已。動畫短片以《西游記》中的經(jīng)典情節(jié)為藍(lán)本。視頻中,宮殿群依山而建,錯落有致,彰顯出天庭的威嚴(yán)和神秘感;而花果山郁郁蔥蔥的樹木,配合飛流直下的瀑布以及石橋,宛如一個世外桃源。視頻制作者馮先生表示,自己會使用到ChatGPT、Midjourney、Runway等多個軟件,簡而言之就是先構(gòu)思分鏡頭腳本、用文字生成靜態(tài)圖片、將圖片生成動畫、后期配音剪輯。
王文廣表示,從理論上來講是可以的,但是“要把這個模型訓(xùn)練出來,很貴”,目前Sora的訓(xùn)練經(jīng)費已經(jīng)達(dá)到百億級別。這就是為什么,國內(nèi)的大模型盡管也能生成視頻,但效果上差距還是蠻明顯的。說到差距,“從技術(shù)角度來說,大家大差不差,差別在于Sora是直接通過一段文本生成一個比較逼真的視頻,但是我們國家很多企業(yè)現(xiàn)在做的更多還是類似動畫,這個相對來說要簡單一些,對模型能力和算力的要求也不需要像Sora那么強”,王文廣說道。
“大家如果已經(jīng)用過很多文字對話類生成的產(chǎn)品,也會發(fā)現(xiàn),它還是會出現(xiàn)記憶丟失,或者根本不能通順地寫完所有內(nèi)容的情況。”胡修涵表示,在他看來,我們目前直接通過文生視頻生成一部電影長片,還有一段路要走。他也展示了一個自己公司的作品,通過輸入《青花瓷》的歌詞,自動生成了一段具有中國特色的動畫視頻,長35秒?!按竽P蛯W(xué)習(xí)了一個多月,在幾十到上百個機器上進(jìn)行訓(xùn)練,得到的一個基礎(chǔ)模型”,胡修涵說道。
面向C端 持續(xù)優(yōu)化
如何讓大模型越來越“聰明”?胡修涵給出了自己的見解,他表示,“我們之前更多的產(chǎn)業(yè)應(yīng)用是關(guān)注在一個特定行業(yè)去做一個比較定制的模型,這種模式服務(wù)的是一些大型客戶和行業(yè)垂直的領(lǐng)袖,這種情況下數(shù)據(jù)其實是不能通用的。如果要讓應(yīng)用層帶的AI發(fā)展繼續(xù)往前走,我們需要有更多偏向C端的應(yīng)用,讓大家都能用得上的一些AI的應(yīng)用,通過大量的數(shù)據(jù)反饋,持續(xù)去優(yōu)化一個通用的AI模型?!?/p>
編輯: | 朱聲波 |
責(zé)編: | 趙歆 |
劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評論
暫無評論,快來發(fā)表你的評論吧