快速了解

爱诗科技 · AI 视频生成 #行业-视频生成

一句话定位

用 DiT 架构做文生视频的国产创业公司,从 0 到 ARR 4000 万美元的最快者。


基本面表

维度数据备注
成立时间2023 年 4 月王长虎创办
融资阶段B+ 轮2025 年 10 月完成 1 亿元 B+ 轮
总融资额$1+ 亿(约 7+ 亿人民币)A1-B+ 轮累计
最新估值非公开B 轮融资额超 6000 万美元(2025 年 9 月)
ARR4000+ 万美元全球月活 1600+ 万
全球用户1 亿+2024 年 11 月商业化启动
月活用户1600+ 万截至 2025 年 10 月
核心产品PixVerse / 拍我 AI文生视频 / 图生视频
技术架构Diffusion + Transformer (DiT)8 版迭代
创始人背景字节跳动前视觉技术负责人微软亚洲研究院出身

发展脉络

2023 年 4 月 → 王长虎离开字节创办爱诗科技

2023 年 8 月 → 天使轮数千万元融资

2023 年 11 月 → 首款产品 PixVerse 正式上线

2024 年 2 月 → 多模态生成算法通过备案

2024 年 4 月 → A2 轮超亿元融资(蚂蚁集团领投)

2024 年 7 月 → V2 版本上线,支持动作笔刷与可控性增强

2024 年 10 月 → V3 版本发布,引入音画同步(Lipsync)与视频延长

2024 年 11 月 → 正式启动商业化,开放会员订阅

2024 年 12 月 → A4 轮融资,累计融资超 3 亿元

2025 年 3 月 → A5 轮融资,PixVerse 月活突破 1500 万

2025 年 9 月 → B 轮融资 6000+ 万美元(阿里领投),创国内视频生成最大单笔融资

2025 年 10 月 → B+ 轮 1 亿元融资,ARR 突破 4000 万美元


成长旅程 2.1

2.1 技术路线:为什么选 DiT?

爱诗科技选择 Diffusion + Transformer(DiT)作为核心架构,成为国内首家将该架构规模化用于视频生成的创业公司。

DiT 的本质逻辑

  • Diffusion:扩散模型的优势在于生成多样性强、模型稳定性高
  • Transformer:注意力机制(Attention)让模型能「同时感知」序列中任意位置的信息,天然适合视频的时空建模

可扩展性:每次模型升级无需推倒重来,而是在既有基础上加宽加深。这意味着从 V2 到 V4,爱诗科技不是做了 3 个完全不同的产品,而是进行了 8 个版本的渐进式迭代。


2.2 从「能生成」到「音画同步」:V2 → V4 的关键突破

V2(2024 年 7 月)

  • 核心:Magic Brush 运动笔刷,支持可控性
  • 能力:1-5 段连续视频生成,保持主体形象与风格一致

V3(2024 年 10 月)

  • 核心突破:Lipsync 对口型 + 视频延长(Extend)
  • 技术价值:支持英、汉、法、日四种语言,能支撑 30 秒视频
  • 行业意义:这是中文文生视频赛道第一次把「音画同步」做到可用级别

V4(2024 年底)

  • 核心:完整的音频生成链路 + 人声配音
  • 新增:5 秒极速生成、口型精度再提升、人物配音自动匹配
  • 用户体验:输入台词 → AI 自动生成口型一致的语音 → 5 秒出视频

V4.5(2025 年初)

  • 20+ 新功能:电影镜头控制、多图像引用、复杂动作增强
  • 方向:从「能用」向「专业级」升级

R1(实时世界模型)

  • 突破:全球首个 1080P 通用实时世界模型
  • 核心优势:将生成延迟从「秒级」降至「即时」

2.3 商业化路径:从免费到 ARR 4000 万美元

爱诗科技走的是「先做大用户量,后商业化」的路线(这在 AI 工具类产品中常见,但在视频生成领域相对罕见)。

时间轴

  • 2023 年 11 月 ~ 2024 年 11 月:近 12 个月完全免费,积累用户量
  • 2024 年 11 月启动商业化:推出付费会员订阅
  • 2025 年 10 月:ARR 突破 4000 万美元(不到 1 年)

这意味着什么?

  • 收入增长 10 倍速:从 0 到 4000 万美元,约 12 个月
  • 转化率极高:1 亿+ 用户基数,月活 1600+ 万,商业化后快速上量
  • 用户粘性强:说明产品本身足够好用,不是硬转付费

2.4 融资路径:「梯次递进」vs「单笔巨额」

爱诗科技的融资策略从 A 轮的梯次递进,转向 B 轮的单笔巨额:

A 轮梯次递进

  • 天使:数千万
  • A1:亿级(达晨)
  • A2:超亿级(蚂蚁领投)
  • A3-A5:持续融资,保持融资频次(约 3 个月一轮)

B 轮质变

  • B 轮:6000+ 万美元(阿里领投)
  • B+ 轮:1 亿元人民币
  • 标志:从融资驱动转向收入驱动,融资额虽大但融资频次反而降低(12 个月内只有 B 和 B+ 两轮)

这反映的本质

  1. A 轮是「需要钱加速」,B 轮是「有钱更好但不一定需要」
  2. ARR 快速增长让融资不再是紧迫需求,而是战略选择

2.5 竞争格局:「国产替代」的真实进度

爱诗科技在国内文生视频赛道的位置:

直接竞争对手

  • 国际:Sora、RunwayML、Pika
  • 国内:Shengshu、Kuaishou 的 AI 视频、字节的 PixelDance(内部)

爱诗的竞争优势

  1. 融资能力强:B 轮 6000+ 万美元创国内单笔最大
  2. 商业化进度快:ARR 已破 4000 万,国内最领先
  3. 用户基数大:1 亿+ 全球用户,月活 1600+ 万
  4. 技术迭代频次高:约 3-4 个月一个大版本,保持持续创新感

  • Sora 仍是「事实标准」,爱诗声称「3-6 个月赶超」(时间已过,尚未证实)
  • 国内对标主要是「能力接近度」而非「市场份额」(Sora 暂未商业化)

2.6 商业模式:C 端 + B 端「双轮驱动」

C 端(消费者)

  • 付费方式:会员订阅
  • 定价模式:按月/年计费,可能按额度(视频分钟数)分级
  • 用户特征:内容创作者、抖音/快手 UP 主、广告创意工作者

B 端(企业)

  • 目标行业:广告、短剧、游戏
  • 核心价值:批量生成素材、提升资产制作效率
  • 商业化方式:API 接口、定制服务、企业包年

数据反映

  • C 端用户规模大(1 亿+),但 ARPU 可能较低
  • B 端虽用户数少,但单客价值高(企业支付能力强)
  • ARR 4000 万美元很可能是 B+C 混合收入

2.7 风险与不确定性

技术层面

  • DiT 架构的长期可扩展性未完全验证(当前最长生成 ~60-90 秒,距离「完整电影」还远)
  • 对标 Sora 的说法(「3-6 个月赶超」)至今未落地,可信度下降

商业层面

  • 付费转化率虽高,但 ARPU 和续费率数据未公开,难以评估长期商业韧性
  • B 端 API 生态刚开放,规模化变现还需验证
  • 国内监管对 AI 视频内容的政策变化风险(如需人工审核要求)

竞争层面

  • 大厂跟进速度快,字节/快手/腾讯自有模型的迭代可能突然加速
  • 开源模型(如 Luma、Allegro)的成熟会降低创业公司的技术护城河

战略框架

核心逻辑链条:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

选择 DiT 架构
    ↓
保持迭代频次 (3-4 个月一版本)
    ↓
做出「音画同步」这个关键功能
    ↓
积累 1 亿+ 用户基数 (12 个月免费)
    ↓
启动商业化 (会员订阅)
    ↓
收入快速增长 (ARR 4000 万美元)
    ↓
获得头部融资 (阿里 B 轮 6000+ 万美元)
    ↓
同时开放 B 端 (API + 定制)

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

关键决策点:
1. 为什么不一开始就商业化?→ 产品还不够好,用户量是底气
2. 为什么在 V3 才加音画同步?→ 这是「及格线」,必须做,但需要 12 个月积累
3. 为什么 B 轮融资额突然增大?→ ARR 证明了商业可行性,投资人信心陡增

蓝图复刻

如果我要复刻爱诗科技的打法,关键要素是什么?

  1. 技术选型要「前瞻但可行」

    • DiT 在 2023 年还不是「显而易见的最优解」,但王长虎选择了
    • 这意味着需要对技术趋势的深度理解(他在字节的背景很重要)
  2. 迭代频次要快于竞品

    • V2-V4 约 4 个月间隔,持续刷存在感
    • 这不是「为了更新而更新」,每版都有明确的核心功能跃升
  3. 用户量 > 融资额

    • 12 个月积累 1 亿+ 用户,才有底气融大额
    • 这意味着初期要有免费模式的定力,不被融资时间表绑架
  4. 商业化要「渐进但决定性」

    • 2024 年 11 月一个时间点商业化,此前完全免费
    • 一旦商业化启动,增长曲线陡直(ARR 1 年 10 倍)
  5. 融资要「大厂背书」

    • 阿里 B 轮领投不是随机的,而是因为:
      • 用户量大(内容生态)
      • 商业化证明成立(ARR 数据)
      • 国产替代叙事(政策支持)

Mars 视角

核心洞察

爱诗科技的成功本质上是「距钱距离」理论的完美演绎。

在 AIGC 赛道,距离钱最近的不是”能力最强”的模型,而是”能快速商业化”的产品。Sora 虽然能力更强,但至今未商业化;爱诗科技虽然能力还有差距,但用 12 个月完成了从 0 到 ARR 4000 万美元的跨越。

这背后有三层逻辑

  1. 「用户量是商业化的前提」

    • 爱诗免费 12 个月的决策看似「亏本」,实际是在为商业化积累「转化池」
    • 1 亿用户基数 → 月活 1600 万 → 其中 X% 愿意付费 → ARR 4000 万
    • 这个逻辑在 AI 工具类(而非 AI 芯片/云计算)产品中最清晰
  2. 「音画同步是临界突破」

    • V2 有能力,但用户量增长可能缓慢
    • V3 有音画同步,才达到「能真正用」的级别
    • 这个功能不是锦上添花,而是「从玩具到工具」的分界线
    • 王长虎说要 3-6 个月赶超 Sora,这个承诺虽然至今未兑现,但反映了他对音画同步重要性的认知
  3. 「融资的终极讯号是 ARR」

    • A 轮的梯次融资是「有市场前景」的信号
    • B 轮的大额融资是「有商业证明」的信号
    • 阿里 6000+ 万美元来得这么快,核心是 ARR 4000 万美元这个数字太扎眼
    • 它证明了「AI 视频生成 → 商业可行」这个命题,不再是假设

但不容忽视的风险

  • ARR 4000 万美元很漂亮,但这是「全球收入」,不是「利润」。服务器成本、研发投入、商务投入的结构比如何,决定了这个数字的真实含义
  • 国内政策对 AI 视频内容的监管在演进,未来可能需要人工审核或额度限制,这会改变商业模型
  • 大厂(字节、快手、腾讯)的跟进速度往往超出创业公司预期,他们有:
    • 现成的用户基础(可以直接内置到 App)
    • 成熟的商业化链路(广告、直播、电商等)
    • 无限的研发资源和 GPU 资源

我的判断

爱诗科技找到了「AI 视频生成在国内的可行商业模式」,这是重大突破。但能否从「国产替代的领先者」成为「全球市场的头部玩家」,取决于:

  1. 能否保持迭代速度(不被大厂拖垮)
  2. 能否在国际市场复制这套商业化逻辑(付费转化可能需要本地化)
  3. 技术路线能否在长视频(几分钟到十几分钟)上有突破

距钱的启示

  • 不追求”最强的模型”,而追求”最快能商业化的产品” → 爱诗的正确选择
  • 不只看融资额,看 ARR 增长曲线 → 4000 万美元的真实意义是”1 年 10 倍增长”
  • 不看用户量,看”愿意为此付费的用户转化率” → 这个数据爱诗没公开,但能倒推出来一定不低

AI 草稿——待 Mars 确认


相关卡片


时间线

时间事件意义
2023.04创办王长虎离开字节
2023.08天使轮种子期融资
2023.11PixVerse 上线产品发布,开启免费模式
2024.02算法备案国内政策合规
2024.04A2 轮融资蚂蚁领投,融资加速
2024.07V2 版本Magic Brush,可控性升级
2024.10V3 版本Lipsync,音画同步突破
2024.11商业化启动付费订阅上线
2024.12A4 轮融资融资累计超 3 亿元
2025.03A5 轮融资月活破 1500 万
2025.09B 轮融资阿里领投,6000+ 万美元
2025.10B+ 轮融资ARR 突破 4000 万美元

参考资源


更新日志

版本日期更新内容
v1.02024-03-19首版卡片,基于 A2 轮融资
v2.02024-10-20更新 V3 版本信息,融资进展到 A4
v3.02025-03-05更新 A5 轮融资,补充商业化数据
v4.02025-10-21完整更新 B/B+ 轮融资,ARR 4000 万美元,新增战略分析和 Mars 视角

网络导航