8月31日,低調的AI領域佼佼者MiniMax在上海舉辦了首次公開的“MiniMax Link伙伴日”活動,正式對外展示了其創新成果。活動上,MiniMax的創始人閆俊杰隆重推出了公司的視頻生成模型video-1和音樂模型,并預告了即將在未來數周內發布的全新大模型abab7,該模型在速度和效果上均對標行業領先的GPT-4o。
video-1視頻生成模型作為此次發布會的亮點之一,雖未詳盡披露具體技術細節,但閆俊杰強調其高壓縮率、優異的文本響應能力和多樣化的風格特點,能夠生成原生高清、高幀率的視頻內容。目前,video-1已實現文本到視頻的轉換,并計劃在未來迭代中增加圖像轉視頻、視頻編輯及更高級別的可控性功能。現場演示中,用戶通過簡單輸入提示詞,僅需1-2分鐘即可生成6秒的視頻片段,展現出良好的應用潛力和用戶體驗。
在隨后的討論中,閆俊杰深入探討了AI大模型領域的諸多未解之題,包括商業模式(2B vs 2C)、市場定位(國內 vs 海外)以及Scaling law的適用性等。他指出,盡管存在諸多分歧,但視頻生成已成為行業內普遍認可的發展方向。自年初OpenAI推出Sora視頻大模型以來,各大廠商紛紛跟進,視頻生成模型的快速涌現標志著該領域的蓬勃發展。
閆俊杰進一步闡述了MiniMax布局視頻生成的戰略考量。他認為,隨著信息時代的發展,多模態內容已成為人類獲取信息的主要方式,視頻和語音交互的重要性日益凸顯。為了提升用戶覆蓋度和使用深度,大模型廠商必須能夠輸出多模態內容,而不僅僅是文本。因此,MiniMax在已有的文字、聲音和圖片生成能力基礎上,向視頻生成領域邁進,是順應時代潮流的必然選擇。
然而,他也坦誠地指出了視頻生成領域的諸多挑戰。目前的視頻生成結果尚難以完全滿足用戶期望,模型在理解物理規則和生成控制方面存在不足。此外,視頻生成所需的數據量巨大,處理復雜度遠高于文本生成,對基礎設施和算法提出了更高要求。閆俊杰強調,解決這些問題需要耐心和持續的技術創新,同時也需要行業內外的共同努力和合作。
未來,啟明創投等投資機構對視頻生成領域的發展充滿信心。他們認為,隨著技術的不斷進步和3D能力的融入,可控的視頻生成將在影視、動畫等領域引發生產模式的深刻變革。同時,圖像和視頻隱空間表示的壓縮率提升也將極大提高生成速度和質量,為視頻生成技術的廣泛應用奠定堅實基礎。