美團發布LongCat-Video視頻生成模型,支持5分鐘級連貫輸出快訊
美團 LongCat 團隊正式發布 LongCat-Video 視頻生成模型,通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估,LongCat-Video 可穩定輸出5分鐘級別的長視頻。
【TechWeb】10月27日消息,美團 LongCat 團隊正式發布 LongCat-Video 視頻生成模型,該模型支持文生視頻、圖生視頻及視頻續寫。美團強調,LongCat-Video 可穩定輸出5分鐘級別的長視頻,且無質量損失。
據介紹,在文生視頻方面, LongCat-Video可生成 720p、30fps 高清視頻,能精準解析文本中物體、人物、場景、風格等細節指令,語義理解與視覺呈現能力達開源 SOTA 級別。
圖生視頻, LongCat-Video嚴格保留參考圖像的主體屬性、背景關系與整體風格,動態過程符合物理規律,支持詳細指令、簡潔描述、空指令等多類型輸入,內容一致性與動態自然度表現優異。
視頻續寫是LongCat Video的核心差異化能力,可基于多幀條件幀續接視頻內容,為長視頻生成提供原生技術支撐。
另外,依托視頻續寫任務預訓練、Block-Causual Attention 機制和 GRPO 后訓練,LongCat-Video 可穩定輸出5分鐘級別的長視頻。
模型結合塊稀疏注意力(BSA)與條件 token 緩存機制,大幅降低長視頻推理冗余 —— 即便處理 93 幀及以上長序列,仍能兼顧效率與生成質量穩定,打破長視頻生成 “時長與質量不可兼得” 的瓶頸。
美團發布的數據顯示,通過全面的評估顯示,LongCat-Video 通用性能優秀,綜合能力躋身開源 SOTA:
136 億參數的視頻生成基座模型,在文生視頻、圖生視頻兩大核心任務中,綜合性能均達到當前開源領域 SOTA 級別;
通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估,其性能在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢;
在 VBench 等公開基準測試中,LongCat-Video 在參評模型中整體表現優異。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
