快速了解
爱诗科技 · AI 视频生成 #行业-视频生成
一句话定位
用 DiT 架构做文生视频的国产创业公司,从 0 到 ARR 4000 万美元的最快者。
基本面表
| 维度 | 数据 | 备注 |
|---|---|---|
| 成立时间 | 2023 年 4 月 | 王长虎创办 |
| 融资阶段 | B+ 轮 | 2025 年 10 月完成 1 亿元 B+ 轮 |
| 总融资额 | $1+ 亿(约 7+ 亿人民币) | A1-B+ 轮累计 |
| 最新估值 | 非公开 | B 轮融资额超 6000 万美元(2025 年 9 月) |
| ARR | 4000+ 万美元 | 全球月活 1600+ 万 |
| 全球用户 | 1 亿+ | 2024 年 11 月商业化启动 |
| 月活用户 | 1600+ 万 | 截至 2025 年 10 月 |
| 核心产品 | PixVerse / 拍我 AI | 文生视频 / 图生视频 |
| 技术架构 | Diffusion + Transformer (DiT) | 8 版迭代 |
| 创始人背景 | 字节跳动前视觉技术负责人 | 微软亚洲研究院出身 |
发展脉络
2023 年 4 月 → 王长虎离开字节创办爱诗科技
2023 年 8 月 → 天使轮数千万元融资
2023 年 11 月 → 首款产品 PixVerse 正式上线
2024 年 2 月 → 多模态生成算法通过备案
2024 年 4 月 → A2 轮超亿元融资(蚂蚁集团领投)
2024 年 7 月 → V2 版本上线,支持动作笔刷与可控性增强
2024 年 10 月 → V3 版本发布,引入音画同步(Lipsync)与视频延长
2024 年 11 月 → 正式启动商业化,开放会员订阅
2024 年 12 月 → A4 轮融资,累计融资超 3 亿元
2025 年 3 月 → A5 轮融资,PixVerse 月活突破 1500 万
2025 年 9 月 → B 轮融资 6000+ 万美元(阿里领投),创国内视频生成最大单笔融资
2025 年 10 月 → B+ 轮 1 亿元融资,ARR 突破 4000 万美元
成长旅程 2.1
2.1 技术路线:为什么选 DiT?
爱诗科技选择 Diffusion + Transformer(DiT)作为核心架构,成为国内首家将该架构规模化用于视频生成的创业公司。
DiT 的本质逻辑:
- Diffusion:扩散模型的优势在于生成多样性强、模型稳定性高
- Transformer:注意力机制(Attention)让模型能「同时感知」序列中任意位置的信息,天然适合视频的时空建模
可扩展性:每次模型升级无需推倒重来,而是在既有基础上加宽加深。这意味着从 V2 到 V4,爱诗科技不是做了 3 个完全不同的产品,而是进行了 8 个版本的渐进式迭代。
2.2 从「能生成」到「音画同步」:V2 → V4 的关键突破
V2(2024 年 7 月)
- 核心:Magic Brush 运动笔刷,支持可控性
- 能力:1-5 段连续视频生成,保持主体形象与风格一致
V3(2024 年 10 月)
- 核心突破:Lipsync 对口型 + 视频延长(Extend)
- 技术价值:支持英、汉、法、日四种语言,能支撑 30 秒视频
- 行业意义:这是中文文生视频赛道第一次把「音画同步」做到可用级别
V4(2024 年底)
- 核心:完整的音频生成链路 + 人声配音
- 新增:5 秒极速生成、口型精度再提升、人物配音自动匹配
- 用户体验:输入台词 → AI 自动生成口型一致的语音 → 5 秒出视频
V4.5(2025 年初)
- 20+ 新功能:电影镜头控制、多图像引用、复杂动作增强
- 方向:从「能用」向「专业级」升级
R1(实时世界模型)
- 突破:全球首个 1080P 通用实时世界模型
- 核心优势:将生成延迟从「秒级」降至「即时」
2.3 商业化路径:从免费到 ARR 4000 万美元
爱诗科技走的是「先做大用户量,后商业化」的路线(这在 AI 工具类产品中常见,但在视频生成领域相对罕见)。
时间轴:
- 2023 年 11 月 ~ 2024 年 11 月:近 12 个月完全免费,积累用户量
- 2024 年 11 月启动商业化:推出付费会员订阅
- 2025 年 10 月:ARR 突破 4000 万美元(不到 1 年)
这意味着什么?
- 收入增长 10 倍速:从 0 到 4000 万美元,约 12 个月
- 转化率极高:1 亿+ 用户基数,月活 1600+ 万,商业化后快速上量
- 用户粘性强:说明产品本身足够好用,不是硬转付费
2.4 融资路径:「梯次递进」vs「单笔巨额」
爱诗科技的融资策略从 A 轮的梯次递进,转向 B 轮的单笔巨额:
A 轮梯次递进:
- 天使:数千万
- A1:亿级(达晨)
- A2:超亿级(蚂蚁领投)
- A3-A5:持续融资,保持融资频次(约 3 个月一轮)
B 轮质变:
- B 轮:6000+ 万美元(阿里领投)
- B+ 轮:1 亿元人民币
- 标志:从融资驱动转向收入驱动,融资额虽大但融资频次反而降低(12 个月内只有 B 和 B+ 两轮)
这反映的本质:
- A 轮是「需要钱加速」,B 轮是「有钱更好但不一定需要」
- ARR 快速增长让融资不再是紧迫需求,而是战略选择
2.5 竞争格局:「国产替代」的真实进度
爱诗科技在国内文生视频赛道的位置:
直接竞争对手:
- 国际:Sora、RunwayML、Pika
- 国内:Shengshu、Kuaishou 的 AI 视频、字节的 PixelDance(内部)
爱诗的竞争优势:
- 融资能力强:B 轮 6000+ 万美元创国内单笔最大
- 商业化进度快:ARR 已破 4000 万,国内最领先
- 用户基数大:1 亿+ 全球用户,月活 1600+ 万
- 技术迭代频次高:约 3-4 个月一个大版本,保持持续创新感
但:
- Sora 仍是「事实标准」,爱诗声称「3-6 个月赶超」(时间已过,尚未证实)
- 国内对标主要是「能力接近度」而非「市场份额」(Sora 暂未商业化)
2.6 商业模式:C 端 + B 端「双轮驱动」
C 端(消费者):
- 付费方式:会员订阅
- 定价模式:按月/年计费,可能按额度(视频分钟数)分级
- 用户特征:内容创作者、抖音/快手 UP 主、广告创意工作者
B 端(企业):
- 目标行业:广告、短剧、游戏
- 核心价值:批量生成素材、提升资产制作效率
- 商业化方式:API 接口、定制服务、企业包年
数据反映:
- C 端用户规模大(1 亿+),但 ARPU 可能较低
- B 端虽用户数少,但单客价值高(企业支付能力强)
- ARR 4000 万美元很可能是 B+C 混合收入
2.7 风险与不确定性
技术层面:
- DiT 架构的长期可扩展性未完全验证(当前最长生成 ~60-90 秒,距离「完整电影」还远)
- 对标 Sora 的说法(「3-6 个月赶超」)至今未落地,可信度下降
商业层面:
- 付费转化率虽高,但 ARPU 和续费率数据未公开,难以评估长期商业韧性
- B 端 API 生态刚开放,规模化变现还需验证
- 国内监管对 AI 视频内容的政策变化风险(如需人工审核要求)
竞争层面:
- 大厂跟进速度快,字节/快手/腾讯自有模型的迭代可能突然加速
- 开源模型(如 Luma、Allegro)的成熟会降低创业公司的技术护城河
战略框架
核心逻辑链条:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
选择 DiT 架构
↓
保持迭代频次 (3-4 个月一版本)
↓
做出「音画同步」这个关键功能
↓
积累 1 亿+ 用户基数 (12 个月免费)
↓
启动商业化 (会员订阅)
↓
收入快速增长 (ARR 4000 万美元)
↓
获得头部融资 (阿里 B 轮 6000+ 万美元)
↓
同时开放 B 端 (API + 定制)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
关键决策点:
1. 为什么不一开始就商业化?→ 产品还不够好,用户量是底气
2. 为什么在 V3 才加音画同步?→ 这是「及格线」,必须做,但需要 12 个月积累
3. 为什么 B 轮融资额突然增大?→ ARR 证明了商业可行性,投资人信心陡增
蓝图复刻
如果我要复刻爱诗科技的打法,关键要素是什么?
-
技术选型要「前瞻但可行」:
- DiT 在 2023 年还不是「显而易见的最优解」,但王长虎选择了
- 这意味着需要对技术趋势的深度理解(他在字节的背景很重要)
-
迭代频次要快于竞品:
- V2-V4 约 4 个月间隔,持续刷存在感
- 这不是「为了更新而更新」,每版都有明确的核心功能跃升
-
用户量 > 融资额:
- 12 个月积累 1 亿+ 用户,才有底气融大额
- 这意味着初期要有免费模式的定力,不被融资时间表绑架
-
商业化要「渐进但决定性」:
- 2024 年 11 月一个时间点商业化,此前完全免费
- 一旦商业化启动,增长曲线陡直(ARR 1 年 10 倍)
-
融资要「大厂背书」:
- 阿里 B 轮领投不是随机的,而是因为:
- 用户量大(内容生态)
- 商业化证明成立(ARR 数据)
- 国产替代叙事(政策支持)
- 阿里 B 轮领投不是随机的,而是因为:
Mars 视角
核心洞察:
爱诗科技的成功本质上是「距钱距离」理论的完美演绎。
在 AIGC 赛道,距离钱最近的不是”能力最强”的模型,而是”能快速商业化”的产品。Sora 虽然能力更强,但至今未商业化;爱诗科技虽然能力还有差距,但用 12 个月完成了从 0 到 ARR 4000 万美元的跨越。
这背后有三层逻辑:
-
「用户量是商业化的前提」
- 爱诗免费 12 个月的决策看似「亏本」,实际是在为商业化积累「转化池」
- 1 亿用户基数 → 月活 1600 万 → 其中 X% 愿意付费 → ARR 4000 万
- 这个逻辑在 AI 工具类(而非 AI 芯片/云计算)产品中最清晰
-
「音画同步是临界突破」
- V2 有能力,但用户量增长可能缓慢
- V3 有音画同步,才达到「能真正用」的级别
- 这个功能不是锦上添花,而是「从玩具到工具」的分界线
- 王长虎说要 3-6 个月赶超 Sora,这个承诺虽然至今未兑现,但反映了他对音画同步重要性的认知
-
「融资的终极讯号是 ARR」
- A 轮的梯次融资是「有市场前景」的信号
- B 轮的大额融资是「有商业证明」的信号
- 阿里 6000+ 万美元来得这么快,核心是 ARR 4000 万美元这个数字太扎眼
- 它证明了「AI 视频生成 → 商业可行」这个命题,不再是假设
但不容忽视的风险:
- ARR 4000 万美元很漂亮,但这是「全球收入」,不是「利润」。服务器成本、研发投入、商务投入的结构比如何,决定了这个数字的真实含义
- 国内政策对 AI 视频内容的监管在演进,未来可能需要人工审核或额度限制,这会改变商业模型
- 大厂(字节、快手、腾讯)的跟进速度往往超出创业公司预期,他们有:
- 现成的用户基础(可以直接内置到 App)
- 成熟的商业化链路(广告、直播、电商等)
- 无限的研发资源和 GPU 资源
我的判断:
爱诗科技找到了「AI 视频生成在国内的可行商业模式」,这是重大突破。但能否从「国产替代的领先者」成为「全球市场的头部玩家」,取决于:
- 能否保持迭代速度(不被大厂拖垮)
- 能否在国际市场复制这套商业化逻辑(付费转化可能需要本地化)
- 技术路线能否在长视频(几分钟到十几分钟)上有突破
距钱的启示:
- 不追求”最强的模型”,而追求”最快能商业化的产品” → 爱诗的正确选择
- 不只看融资额,看 ARR 增长曲线 → 4000 万美元的真实意义是”1 年 10 倍增长”
- 不看用户量,看”愿意为此付费的用户转化率” → 这个数据爱诗没公开,但能倒推出来一定不低
AI 草稿——待 Mars 确认
相关卡片
时间线
| 时间 | 事件 | 意义 |
|---|---|---|
| 2023.04 | 创办 | 王长虎离开字节 |
| 2023.08 | 天使轮 | 种子期融资 |
| 2023.11 | PixVerse 上线 | 产品发布,开启免费模式 |
| 2024.02 | 算法备案 | 国内政策合规 |
| 2024.04 | A2 轮融资 | 蚂蚁领投,融资加速 |
| 2024.07 | V2 版本 | Magic Brush,可控性升级 |
| 2024.10 | V3 版本 | Lipsync,音画同步突破 |
| 2024.11 | 商业化启动 | 付费订阅上线 |
| 2024.12 | A4 轮融资 | 融资累计超 3 亿元 |
| 2025.03 | A5 轮融资 | 月活破 1500 万 |
| 2025.09 | B 轮融资 | 阿里领投,6000+ 万美元 |
| 2025.10 | B+ 轮融资 | ARR 突破 4000 万美元 |
参考资源
- 36氪:爱诗科技完成B+轮融资,ARR超4000万美金
- 量子位:爱诗科技完成B+轮融资,ARR突破4000万美金
- 观察者网:中国AI视频赛道最大单笔融资,为什么给了爱诗科技
- 爱范儿:国产视频模型企业爱诗科技再获亿级融资
- 知乎:爱诗科技与悉尼大学联合发布LaVin-DiT
更新日志
| 版本 | 日期 | 更新内容 |
|---|---|---|
| v1.0 | 2024-03-19 | 首版卡片,基于 A2 轮融资 |
| v2.0 | 2024-10-20 | 更新 V3 版本信息,融资进展到 A4 |
| v3.0 | 2025-03-05 | 更新 A5 轮融资,补充商业化数据 |
| v4.0 | 2025-10-21 | 完整更新 B/B+ 轮融资,ARR 4000 万美元,新增战略分析和 Mars 视角 |
网络导航
- 同赛道 → CapCut、Descript、Edits、HeyGen、Higgsfield、IMA
- 探索行业 → 视频生成赛道全部产品