Vidu

快速了解

Vidu AI · AI 视频生成 · 北京 · Growth 待补充估值 · 待补充 ARR · 1 亿+（视频生成数）用户 #行业-视频生成竞品：Kling AI · Dreamina / 即梦 · OpenAI Sora

一句话

清华大学与生数科技联合打造的国产视频生成大模型，以 U-ViT 架构和”高一致性、可控性”著称，是技术路线最先进的国内选手，已生成超 1 亿个视频。

基本面表

维度	数据
产品形态	Web / App（iOS / Android）
核心架构	U-ViT（首次融合 Diffusion + Transformer）
主要模型	Vidu 视频生成、Vidu Q1（高可控版）
特色能力	多主体一致性、32秒长视频、图生视频、参考视频生成
推理速度	4秒视频约 10 秒生成
分辨率	最高 1080P
视频库规模	1 亿+ 视频已生成（截至 2025 年 1 月）
定价	免费试用 + 订阅制
发布时间	2024 年 4 月 27 日官方发布

发展脉络与创始人

背景与起源

Vidu 是生数科技与清华大学的联合研发项目，代表了产学研结合的典范。

清华的学术积累：

2022 年 9 月：提出 U-ViT 架构（Unified Vision Transformer）
2023 年 3 月：发布 UniDiffuser（世界首个多模态扩散模型）
这些基础研究为 Vidu 的诞生铺路

生数科技的商业化：

将清华的学术成果转化为产品和商业模式
在北京建立 AI 研发团队
筹集资金用于算力和产品开发

核心决策逻辑

学术领先性：U-ViT 早于 OpenAI 的 DiT（Sora 的核心架构），体现了技术前瞻性
对标 Sora：当 Sora 发布后，Vidu 成为”国内最有底气”的对标者
差异化路线：不做”闭环生态”（像字节），而做”开放技术平台”

成长旅程

1. 学术基础奠定（2022-2023）

2022 年 9 月：U-ViT 架构论文发表

核心创新：融合 Diffusion 和 Transformer
意义：更高效的生成，更好的保真度

2023 年 3 月：UniDiffuser 多模态模型

首次实现”文→图→视频”的统一扩散模型
这是 Sora 发布（2024年2月）之前就有的技术积累

2. 产品化与公开发布（2024 Q1-Q2）

2024 年 4 月 27 日：Vidu 官方发布

发布地点：中关村论坛”未来 AI 先锋论坛”
称为”中国首个纯自研视频生成大模型”
能力：生成最长 32 秒视频，支持多主体一致性

关键时间节点：Sora 发布于 2024 年 2 月，Vidu 发布于 4 月

Vidu 是 Sora 发布后”国内第一个拿得出手的对标品”

3. MVP 与快速迭代（2024 Q2-Q3）

文生视频：输入文本提示词生成视频
图生视频：静态图片→动态视频
参考视频生成：根据参考视频的风格生成新视频
多主体一致性：确保生成的人物、物体形象保持一致

4. PMF 验证与市场反馈（2024 Q3-Q4）

学术与商业的认可：

清华大学的背书，带来”信任感”
对标 Sora 的直接对比分析，Vidu 在某些指标上相当或略优
企业客户（广告公司、视频制作机构）的兴趣增长

用户数据：

截至 2025 年 1 月，已生成超 1 亿个视频
日均活跃用户增长稳定

5. 增长引擎与商业化（2025+）

Vidu Q1 的推出：

高可控版本（类似 Kling 的 Motion Control 思路？）
支持更精细的用户控制

商业化路径：

免费基础版 + 高级订阅
企业版（大模型 API 调用、定制模型）
学术版（与大学合作）

6. 核心竞争力与壁垒

优势

技术架构最先进：U-ViT 早于 Sora 的 DiT
学术背书：清华大学的信任度高
多主体一致性：在该指标上优于竞品
长视频能力：32 秒视频在当时是较长的

劣势

生态闭环弱：缺少内容分发平台（不像字节、快手）
商业化滞后：比 Dreamina 和 Kling 的商业化节奏慢
品牌认知：学术标签强，但”创意工具”的认知弱
用户留存：在工具化应用中，留存率往往是短板

战略框架

技术赌注

1. U-ViT 的持续演进

当前：图像生成、短视频生成
下一步：更长视频（>1 分钟）、更高分辨率（4K）
赌点：能否在保持生成质量的前提下，降低计算成本

2. Vidu Q1 的可控性突破

目标：对标 Kling 的 Motion Control
路线：加入骨骼控制、摄像机控制等高级功能

竞争格局

对手	优势	劣势	与 Vidu 关系
Kling (快手)	Motion Control、海外破圈	生态弱	直接竞品
Dreamina (字节)	编辑+发布闭环、用户量大	可控性弱	直接竞品
Sora (OpenAI)	业界最强	国内无法用	技术对标

Vidu 的定位：技术最先进，但商业化和生态最弱

核心优势

技术路线的领先性：U-ViT + UniDiffuser 的积累
清华大学的背书：学术信任度高
多主体一致性：UGC 创作者的核心需求
开放心态：可能对 B 端企业提供更灵活的方案

生态位

垂直位置：视频生成 + 基础模型
产业分层：距钱距离 2-3 层
控制力：对下游应用有赋能能力，但缺少直接的用户转化

蓝图复刻

创新纬度

技术架构的创新

U-ViT 不仅用于视频，也可用于图像、3D 生成等多模态
这是”一个架构解决多个问题”的设计思想

学术与商业的结合

清华的学术资源 + 生数科技的商业化能力
国内产学研合作的典范

战术复盘

成功案例：

2024 年 4 月 27 日发布：精心选择时间点（Sora 发布 2 个月后）
- 市场期待”国内 Sora”，Vidu 应运而生
- 发布地点（中关村论坛）体现了”国家级”的身份

待改进：

用户体验 vs. 技术先进性：技术最强，但用户操作界面和交互流程不够友好
- 建议：投入更多在 UI/UX，降低用户学习成本
生态合作不足：没有与内容平台（B 站、小红书等）的深度合作
- 建议：推出”小红书 Vidu 创意大赛”等营销活动
定价与商业化滞后：相比竞品，变现速度明显慢
- 建议：推出”企业版按量付费”模式，针对广告公司、视频制作团队

反面教材

微软 Suno 的教训：

虽然技术强，但商业化路线不清晰
Vidu 需要避免”技术强但用户留存差”的局面

Mars 视角（AI 草稿）

本质判断

Vidu 是清华与资本的一场”学术创业实验”。本质上，它试图回答：学术顶尖成果能否直接转化为商业成功？

当前的答案是：技术强 ≠ 商业强

为什么？因为视频生成工具的竞争，已经进入了”生态竞争”和”商业化竞争”阶段，而不仅仅是”技术竞争”。

距钱的距离

第 1 层：算力成本（Vidu 的计算效率因为 U-ViT 可能更优）
第 2 层：用户订阅（但用户基数小于竞品）
第 3 层：企业采购（B 端：广告公司、视频制作公司）
第 4 层：学术授权（向大学、研究机构授权 API）

Vidu 目前在第 2-3 层之间徘徊，商业化路线不够清晰。

竞争优劣

最强点：技术架构

U-ViT 代表了”下一代”的生成模型设计
清华大学的学术背书是独特的资产

最弱点：商业化意识和执行

相比字节、快手，Vidu 在用户获取、定价、产品迭代速度上都慢
技术强，但”做不出爆款产品”

三启示

1. 技术领先不等于市场领先

Vidu 的 U-ViT 确实先于 Sora 的 DiT
但 Sora 的品牌、用户认知、生态支撑，让 OpenAI 赢了市场
国内竞争中，字节和快手因为有用户和生态，也赢了 Vidu

2. 学术基因既是优势，也是劣势

优势：技术深度、学术信任
劣势：对市场变化反应慢，商业直觉不足

3. “生态战”已经开始

单纯做工具，竞争空间有限
Vidu 需要找到自己的”生态位”：
- 是 B 端企业（广告、电影制作）？
- 是学术科研？
- 还是 ToC 创意工具？
- 必须聚焦一个方向

看完后推荐

想了解竞品？看 Kling AI、Dreamina / 即梦、OpenAI Sora
想了解行业？看视频生成赛道全部产品

参考来源

更新日志

日期	更新
2026-03-16	创建卡片，基于 2024-2026 年产品迭代
2025-01	累计生成超 1 亿个视频
2025-01	Vidu Q1 高可控版本发布
2024-04-27	Vidu 官方发布，定位为”国内首个纯自研视频大模型”

Mars Product Wiki

探索

Vidu

一句话

基本面表

发展脉络与创始人

背景与起源

核心决策逻辑

成长旅程

1. 学术基础奠定（2022-2023）

2. 产品化与公开发布（2024 Q1-Q2）

3. MVP 与快速迭代（2024 Q2-Q3）

4. PMF 验证与市场反馈（2024 Q3-Q4）

5. 增长引擎与商业化（2025+）

6. 核心竞争力与壁垒

战略框架

技术赌注

竞争格局

核心优势

生态位

蓝图复刻

创新纬度

战术复盘

反面教材

Mars 视角（AI 草稿）

本质判断

距钱的距离

竞争优劣

三启示

看完后推荐

参考来源

更新日志

关系图谱

目录