快速了解
Vidu AI · AI 视频生成 · 北京 · Growth 待补充 估值 · 待补充 ARR · 1 亿+(视频生成数) 用户 #行业-视频生成 竞品:Kling AI · Dreamina / 即梦 · OpenAI Sora
一句话
清华大学与生数科技联合打造的国产视频生成大模型,以 U-ViT 架构和”高一致性、可控性”著称,是技术路线最先进的国内选手,已生成超 1 亿个视频。
基本面表
| 维度 | 数据 |
|---|---|
| 产品形态 | Web / App(iOS / Android) |
| 核心架构 | U-ViT(首次融合 Diffusion + Transformer) |
| 主要模型 | Vidu 视频生成、Vidu Q1(高可控版) |
| 特色能力 | 多主体一致性、32秒长视频、图生视频、参考视频生成 |
| 推理速度 | 4秒视频约 10 秒生成 |
| 分辨率 | 最高 1080P |
| 视频库规模 | 1 亿+ 视频已生成(截至 2025 年 1 月) |
| 定价 | 免费试用 + 订阅制 |
| 发布时间 | 2024 年 4 月 27 日官方发布 |
发展脉络与创始人
背景与起源
Vidu 是生数科技与清华大学的联合研发项目,代表了产学研结合的典范。
清华的学术积累:
- 2022 年 9 月:提出 U-ViT 架构(Unified Vision Transformer)
- 2023 年 3 月:发布 UniDiffuser(世界首个多模态扩散模型)
- 这些基础研究为 Vidu 的诞生铺路
生数科技的商业化:
- 将清华的学术成果转化为产品和商业模式
- 在北京建立 AI 研发团队
- 筹集资金用于算力和产品开发
核心决策逻辑
- 学术领先性:U-ViT 早于 OpenAI 的 DiT(Sora 的核心架构),体现了技术前瞻性
- 对标 Sora:当 Sora 发布后,Vidu 成为”国内最有底气”的对标者
- 差异化路线:不做”闭环生态”(像字节),而做”开放技术平台”
成长旅程
1. 学术基础奠定(2022-2023)
2022 年 9 月:U-ViT 架构论文发表
- 核心创新:融合 Diffusion 和 Transformer
- 意义:更高效的生成,更好的保真度
2023 年 3 月:UniDiffuser 多模态模型
- 首次实现”文→图→视频”的统一扩散模型
- 这是 Sora 发布(2024年2月)之前就有的技术积累
2. 产品化与公开发布(2024 Q1-Q2)
2024 年 4 月 27 日:Vidu 官方发布
- 发布地点:中关村论坛”未来 AI 先锋论坛”
- 称为”中国首个纯自研视频生成大模型”
- 能力:生成最长 32 秒视频,支持多主体一致性
关键时间节点:Sora 发布于 2024 年 2 月,Vidu 发布于 4 月
- Vidu 是 Sora 发布后”国内第一个拿得出手的对标品”
3. MVP 与快速迭代(2024 Q2-Q3)
- 文生视频:输入文本提示词生成视频
- 图生视频:静态图片→动态视频
- 参考视频生成:根据参考视频的风格生成新视频
- 多主体一致性:确保生成的人物、物体形象保持一致
4. PMF 验证与市场反馈(2024 Q3-Q4)
学术与商业的认可:
- 清华大学的背书,带来”信任感”
- 对标 Sora 的直接对比分析,Vidu 在某些指标上相当或略优
- 企业客户(广告公司、视频制作机构)的兴趣增长
用户数据:
- 截至 2025 年 1 月,已生成超 1 亿个视频
- 日均活跃用户增长稳定
5. 增长引擎与商业化(2025+)
Vidu Q1 的推出:
- 高可控版本(类似 Kling 的 Motion Control 思路?)
- 支持更精细的用户控制
商业化路径:
- 免费基础版 + 高级订阅
- 企业版(大模型 API 调用、定制模型)
- 学术版(与大学合作)
6. 核心竞争力与壁垒
优势
- 技术架构最先进:U-ViT 早于 Sora 的 DiT
- 学术背书:清华大学的信任度高
- 多主体一致性:在该指标上优于竞品
- 长视频能力:32 秒视频在当时是较长的
劣势
- 生态闭环弱:缺少内容分发平台(不像字节、快手)
- 商业化滞后:比 Dreamina 和 Kling 的商业化节奏慢
- 品牌认知:学术标签强,但”创意工具”的认知弱
- 用户留存:在工具化应用中,留存率往往是短板
战略框架
技术赌注
1. U-ViT 的持续演进
- 当前:图像生成、短视频生成
- 下一步:更长视频(>1 分钟)、更高分辨率(4K)
- 赌点:能否在保持生成质量的前提下,降低计算成本
2. Vidu Q1 的可控性突破
- 目标:对标 Kling 的 Motion Control
- 路线:加入骨骼控制、摄像机控制等高级功能
竞争格局
| 对手 | 优势 | 劣势 | 与 Vidu 关系 |
|---|---|---|---|
| Kling (快手) | Motion Control、海外破圈 | 生态弱 | 直接竞品 |
| Dreamina (字节) | 编辑+发布闭环、用户量大 | 可控性弱 | 直接竞品 |
| Sora (OpenAI) | 业界最强 | 国内无法用 | 技术对标 |
Vidu 的定位:技术最先进,但商业化和生态最弱
核心优势
- 技术路线的领先性:U-ViT + UniDiffuser 的积累
- 清华大学的背书:学术信任度高
- 多主体一致性:UGC 创作者的核心需求
- 开放心态:可能对 B 端企业提供更灵活的方案
生态位
- 垂直位置:视频生成 + 基础模型
- 产业分层:距钱距离 2-3 层
- 控制力:对下游应用有赋能能力,但缺少直接的用户转化
蓝图复刻
创新纬度
技术架构的创新
- U-ViT 不仅用于视频,也可用于图像、3D 生成等多模态
- 这是”一个架构解决多个问题”的设计思想
学术与商业的结合
- 清华的学术资源 + 生数科技的商业化能力
- 国内产学研合作的典范
战术复盘
成功案例:
- 2024 年 4 月 27 日发布:精心选择时间点(Sora 发布 2 个月后)
- 市场期待”国内 Sora”,Vidu 应运而生
- 发布地点(中关村论坛)体现了”国家级”的身份
待改进:
-
用户体验 vs. 技术先进性:技术最强,但用户操作界面和交互流程不够友好
- 建议:投入更多在 UI/UX,降低用户学习成本
-
生态合作不足:没有与内容平台(B 站、小红书等)的深度合作
- 建议:推出”小红书 Vidu 创意大赛”等营销活动
-
定价与商业化滞后:相比竞品,变现速度明显慢
- 建议:推出”企业版按量付费”模式,针对广告公司、视频制作团队
反面教材
微软 Suno 的教训:
- 虽然技术强,但商业化路线不清晰
- Vidu 需要避免”技术强但用户留存差”的局面
Mars 视角(AI 草稿)
本质判断
Vidu 是清华与资本的一场”学术创业实验”。本质上,它试图回答:学术顶尖成果能否直接转化为商业成功?
当前的答案是:技术强 ≠ 商业强
为什么?因为视频生成工具的竞争,已经进入了”生态竞争”和”商业化竞争”阶段,而不仅仅是”技术竞争”。
距钱的距离
- 第 1 层:算力成本(Vidu 的计算效率因为 U-ViT 可能更优)
- 第 2 层:用户订阅(但用户基数小于竞品)
- 第 3 层:企业采购(B 端:广告公司、视频制作公司)
- 第 4 层:学术授权(向大学、研究机构授权 API)
Vidu 目前在第 2-3 层之间徘徊,商业化路线不够清晰。
竞争优劣
最强点:技术架构
- U-ViT 代表了”下一代”的生成模型设计
- 清华大学的学术背书是独特的资产
最弱点:商业化意识和执行
- 相比字节、快手,Vidu 在用户获取、定价、产品迭代速度上都慢
- 技术强,但”做不出爆款产品”
三启示
1. 技术领先不等于市场领先
- Vidu 的 U-ViT 确实先于 Sora 的 DiT
- 但 Sora 的品牌、用户认知、生态支撑,让 OpenAI 赢了市场
- 国内竞争中,字节和快手因为有用户和生态,也赢了 Vidu
2. 学术基因既是优势,也是劣势
- 优势:技术深度、学术信任
- 劣势:对市场变化反应慢,商业直觉不足
3. “生态战”已经开始
- 单纯做工具,竞争空间有限
- Vidu 需要找到自己的”生态位”:
- 是 B 端企业(广告、电影制作)?
- 是学术科研?
- 还是 ToC 创意工具?
- 必须聚焦一个方向
看完后推荐
- 想了解竞品?看 Kling AI、Dreamina / 即梦、OpenAI Sora
- 想了解行业?看 视频生成赛道全部产品
参考来源
更新日志
| 日期 | 更新 |
|---|---|
| 2026-03-16 | 创建卡片,基于 2024-2026 年产品迭代 |
| 2025-01 | 累计生成超 1 亿个视频 |
| 2025-01 | Vidu Q1 高可控版本发布 |
| 2024-04-27 | Vidu 官方发布,定位为”国内首个纯自研视频大模型” |