顛覆!OpenAI發布文生視頻模型Sora

2月16日凌晨,OpenAI發布了其最新成果——文生視頻模型Sora。這一模型可以根據用戶的指令,生成長達60秒的高清視頻,同時也能夠從靜態圖像中生成視頻,并對現有視頻進行擴展和填補缺失內容。據介紹,Sora不僅可以生成復雜場景,包括多角色和多角度鏡頭,還能精確呈現物體和背景的細節,以及角色的情感表達。

OpenAI官網上已經發布了48個視頻demo,展示了Sora的強大功能。這些demo中,Sora展現了出色的細節呈現能力,并且能夠深刻理解物體在現實世界中的存在狀態,生成具有豐富情感的角色。例如,通過一個Prompt描述,在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上,Sora生成的視頻中,女士身著黑色皮衣、紅色裙子,在霓虹街頭行走,不僅主體連貫穩定,還包含了多個鏡頭,展現了豐富的細節和情感表達。

除了能夠生成復雜場景外,Sora還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。通過使用Transformer架構,Sora具有極強的擴展性,并且利用了類似于GPT中的標記(Token)的“補丁”數據單位集合,使得模型能夠在更廣泛的視覺數據上進行訓練和擴散變化。

OpenAI表示,他們的目標是教會AI理解和模擬運動中的物理世界,以解決現實世界中需要交互的問題。Sora是在對DALL·E和GPT的研究基礎上構建的,利用了DALL·E 3的重述提示詞技術,為視覺模型提供高描述性的標注,從而使得模型能夠更好地遵循文本指令。

在線地址:https://openai.com/sora

標簽:OpenAISora

相關文章

隨機推薦