OpenAI發布創新視頻模型Sora,實現狗與雪花互動

來源:Sora


美國時間2月15日,全球頂尖人工智能創業公司OpenAI驚喜發布了其最新的文生視頻大模型Sora。該模型展示的效果令人嘆為觀止,再次確立了OpenAI在生成式人工智能領域的領先地位。Sora模型為理解與模擬現實世界提供了堅實基礎,標誌著向通用人工智能(AGI)目標邁進的重要里程碑。

儘管ChatGPT在過去兩年中以其文字處理能力大受歡迎,但對於真實環境的理解仍有所欠缺。Sora模型展現了對空間及物體間物理關係的準確理解,這是達成AGI目標的一大進步。OpenAI公布的多個視頻演示,展示了其與真實世界場景幾乎無差異的生成能力,特別是物體間的真實物理互動,如狗在雪地中的玩耍,展現了模型對現實世界理解和模擬的基礎。

Sora模型能通過文字生成真實與想象的場景,並能生成長達一分鐘的視頻。它能創建包含多個人物、特定動作、精確物體細節和背景的複雜場景。此外,Sora模型還能基於靜態圖片生成視頻,並在已有視頻中插入圖像帧,顯示了其驚人的生成效果,如行人在日本街頭行走、狗在雪地玩耍等豐富場景。

Sora模型的技術背景基於擴散模型,從類似靜態噪聲的視頻開始,逐步去除噪聲生成視頻。模型使用了Transformer架構,提高了擴展性能。Sora在訓練階段將視頻和圖像拆解為更小的數據單元集合,稱為“補丁”,這使得模型能在更廣泛的視覺數據上進行訓練。

Sora不僅能生成視頻,還能生成不同尺寸的圖片,最大分辨率達到2048×2048。OpenAI指出,Sora模型在訓練過程中展現了一定的涌現能力,能夠模擬人、動物和環境在真實物理世界中的互動關係。儘管Sora展現了驚人的能力,但仍存在局限性,如不能準確模擬玻璃破碎等物理特性。

Sora的推出不僅展示了OpenAI的技術實力,也進一步證明了其朝向通用人工智能(AGI)目標的堅定步伐。從ChatGPT到Dall-E,再到現在的Sora,OpenAI正沿著從文字到多模態的過渡路徑穩步前進,不斷推動生成式人工智能領域的發展。

蔡正信-數位教練

我是一位專精於數位轉型與AI應用的教練,致力於協助中高齡族群與企業主有效運用科技工具提升生產力。

蔡教練聯繫方式:https://rdcoach.pse.is/62uqz2

手機:0988-515-413

Line官方帳號2.0 : @rd.coach https://lin.ee/n4T9CGA
群英企業管理顧問股份有限公司
資訊顧問電子郵件:hi@rd.coach

跨代際溝通 × AI賦能教學:
結合AI應用、數位工具教學與熟齡學習經驗,專注於中高齡與中小企業的數位轉型輔導,擅長從0到1建構數位素養。

實戰導向 × 客製培訓:
15年數位教學經驗,服務鴻海、1111人力銀行、台南大學、瓦城集團等,設計實用導向的教學模組,強調易學、可複製。

工具整合 × 工作流設計:
善用Evernote、Heptabase、Telegram等多款工具,打造AI第二大腦與一元筆記系統,協助學員從資訊收集到知識轉化。

行動導向 × 教學有感:
500+場講座與工作坊,專注學員實作與成果回報,推動「數位生活力」與「AI生活實驗室」教學風格。

預見未來 × 實踐智慧:
關注生成式AI與數位倫理發展,推動AI工具於科研、商業、教育場域的實作應用,擘劃AI助理與智慧工作未來藍圖。

Share:

More Posts