ElevenLabs

快速了解

ElevenLabs · 产品库

一句话定位

最接近人类表达的 AI 语音生成引擎 + 企业级对话智能体平台，用技术消灭配音员、客服和语言壁垒。

本质：从”机械朗读”到”情感呼吸”的跃迁。不是在做更好的 TTS，而是在做”会表达的 AI”。

基本面表

维度	数据	备注
公司	ElevenLabs	2023-2026 成立并上升轨迹
创始人	Piotr Dąbkowski（CTO）、Mati Staniszewski（CEO）	波兰籍，高中同学，Google/Palantir 背景
融资状态	Series D $500M（2026年2月）	Sequoia 领投，a16z、ICONIQ 超额跟投
当前估值	$11B	同比 2025.1 的 $3.3B → 3.3x 增长
核心收入	$330M+ ARR（2025末）	20个月→$100M、10个月→$200M、5个月→$330M
产品形态	TTS + STS + Voice Clone + Conversational AI	横跨内容创作、企业应用、开发者工具
核心竞争力	Eleven v3（表现力）+ Scribe（STT） + Agents（对话）	全栈语音能力，从输入→处理→输出
主要市场	内容创作者、企业（客服/销售）、开发者	B2B2C + 平台化收益模式
融资进展	IPO 前期预告	Staniszewski 公开表述”朝 IPO 建设”
员工规模	~200-250 人（推估）	融资节奏和增长速度反推

信息源： Sequoia Series D 公告 | ARR 达成声明 | 创始人背景

一、发展脉络与创始人基因

灵感来源：一部烂配音电影

Piotr 和 Mati 的故事从波兰开始。两个高中同学在 Copernicus 国际文凭课程中相识，都对计算机科学着迷。Piotr 后来获得剑桥/牛津双学位，研究 AI 图像检测并在 NeurIPS 发表论文；Mati 伦敦数学系毕业后在 Palantir 做战略部署。

但改变轨迹的不是学术或大厂经历，而是一次日常体验：看美国电影的糟糕配音版本。他们意识到，如果 AI 能生成自然的语音，整个视频本地化、内容创作、客服行业都会被重塑。

创始人基因解读：

维度	特征	反映在产品中
技术底色	Google ML 工程师 + 学术发表	v3 模型的表现力领先业界
战略视野	Palantir 部署经验	从个人创作工具→企业API→Agent平台的递进
非共识眼光	质疑行业现状（烂配音）	敢于挑战 Google/OpenAI/Amazon 多年统治的 TTS 领地
全球视角	波兰→英国→美国创业	产品支持 29+ 语言，本地化先驱
执行力	3 年从 $0→$200M+ ARR	融资、扩张、产品迭代的决策速度极快

二、成长旅程

2.1 第一阶段（2023-2024.H1）：突破”机械感”

产品形态： TTS + Voice Clone 基础版

推出 Instant Voice Clone（10秒录音即可克隆）
Eleven v2 模型逐步获得市场认可
在 Product Hunt、TechCrunch 获得大量关注

市场认知： “能用但还是有点机械” → “真的有感情”（用户反馈转变）

融资： Series A/B 阶段（具体额度未公开，但从 1-2B 融资规模推估）

关键事件： 被 a16z 相中，标志着从”有趣的创意”升级为”可规模化的生意”

2.2 第二阶段（2024.H2-2025.H1）：技术突围 + 产品矩阵扩张

产品升级：

Speech to Speech (STS)：不仅文字转语音，还能转换已有语音的风格（保留内容，改变发声人）
Reader App（2024.6 推出）：让普通用户也能用 AI 配音，iOS/Android 同步
Eleven v3（2026.2 GA）：最关键的技术跳跃
- 不仅发音准确，还能”叹气、耳语、笑声、停顿”
- Text to Dialogue：多声音对话无缝切换，情感连贯
- 70+ 语言支持

衍生产品：

Dubbing Studio：29 语言自动配音视频（消灭传统配音行业）
Scribe（2025.2）：自家 STT 模型，字符级时间戳 + 说话人分割，行业领先的词错误率

融资：

2025.1 Series C（$180M），估值 $3.3B
2025.9 员工持股计划（$100M tender at $6.6B）
现金储备充足，加速国际扩张和企业销售

战略转向： 从”创意工具”→“基础设施”（被集成进上千个应用）

2.3 第三阶段（2025.H2-2026.Q1）：Conversational AI 的企业化

关键产品：ElevenLabs Agents（原 Conversational AI，2024.11 推出）

从文本/语音生成（静态）→ 实时对话（动态），这是质的转变：

Agent 2.0（2025.Q4）：企业级稳定性、多轮对话、上下文记忆
Expressive Mode（2026.2）：
- Eleven v3 Conversational：情感感知的实时 TTS
- 新的转身系统（turn-taking）：减少打断和等待时间，模仿自然对话节奏
- 支持 Phone、Web、App 全渠道

应用场景打开：

企业客服（情感化、多语言）
销售电话机器人
医疗预约提醒（高接通率）
教育辅导（实时对话）

商业模式突变： 从”按分钟计费”→“按对话数 + Agent 复杂度”的订阅模式，企业客户 LTV 大幅上升

2.4 第四阶段（2026.Q1-现在）：IPO 预热 + 行业定义权

财务表现：

ARR $330M+（2025末数据）
增长曲线：$100M (20月)→$200M (10月)→$330M (5月) 加速趋势明显
利润率逐季改善（大企业客户占比上升）

融资：2026.2 Series D $500M

Sequoia 领投（首次大资本机构级别参与）
a16z 超额跟投 4x（信心最强）
ICONIQ 3x 跟投
Lightspeed、Evantic、BOND 等新晋机构

创始人言论： “We are building towards IPO and beyond.”（公开宣示上市路线）

市场地位：

语音 AI 赛道的”Stripe”（基础设施化）
被称为 AI 本地化的”终结者”（dubbing 模式威胁了整个行业）
与 OpenAI TTS、Google Wavenet、PlayHT 形成四大势力

2.5 技术竞争力演变

时期	核心突破	vs 竞对
2024 初	Voice Clone 易用性	PlayHT 速度快，但 EL 更自然
2024 中	v2 → v3 表现力跳跃	Google/OpenAI 追不上的”情感维度”
2025 中	Scribe STT 自研	打破对 OpenAI/AssemblyAI 的依赖
2025 末	Agent 2.0 企业化	PlayHT 2.0 也在做，但 EL 有 Reader 用户基数优势
2026 初	v3 Conversational + Expressive Mode	行业首个”会呼吸的 AI”对话系统

2.6 国际化布局

支持语言数： 29+ 语言（全行业最多）

重点市场：

美国：最大市场，内容创作者 + 企业客户主要源
欧洲：创始人根据地，企业采购力强
亚太：Reader App 日活数据强，但商业化还在初期

本地化策略：

Dubbing Studio 针对 Netflix/迪士尼等内容方
API 文档多语言支持，降低开发者接入门槛
Reader App 支持本地 app store 优化（iOS/Android）

2.7 盈利模式进化

Time 1（2023-2024.H1）： 按使用量计费

按生成字数/分钟数
创作者端友好（pay-as-you-go）
边际成本问题暴露

Time 2（2024.H2-2025.H1）： 分层订阅 + API 企业合约

Creator / Business / Enterprise 三档
企业签年度合约，保证最低支出
Agent 功能拉高企业包价格点

Time 3（2026 开始）： 平台化生态收费（推测进行时）

Agent 使用量 + 创意资产市场（声音库）
Reader App 可能引入内容分成模式
API 定向流量商业化（谁调用 Agent，谁付费）

收入结构（推估）：

API 用量收入：50% （企业 + 开发者）
订阅收入：30% （Reader + Creator Pro）
企业合约：20% （Agents for Business）

三、战略框架

3.1 “距钱距离”假说应用

ElevenLabs 的超高增长，本质上是在逐步靠近实际交易的过程：

接触点距离 ← → 交易价值

远端（玩具）：免费试用                    $0
PH/Reddit/YouTube 用户试玩

中端（工具）：Creator Pro (月度)          $100-500/月
个体创作者、YouTuber、播客主

近端（生产力）：Business ($500/月+)      $500-2000/月
小型 SaaS、 agencies、indie game

最近端（交易驱动）：Enterprise           $50k-500k+/年
Netflix/迪士尼配音、客服中心变革
金融电话销售机器人、医疗预约系统

ARR 增长 = 向右移动客户 × 每层客户成倍增多

数据佐证：

2024: API 驱动企业合约快速增长
2025: Agent 产品成熟，企业 LTV 从 $10k → $100k+
2026: 企业占比超过创作者占比（推测），底线 ARR 才会稳固

3.2 产业分层与控制层

应用层（谁赚最多钱）
Netflix、TikTok、AI Saas (集成 EL API)
← 谁不用EL谁就输了

平台层（中间商）
ElevenLabs（核心）          ← 控制点最强
+ Resemble、PlayHT

基础设施层
GPU 算力、Open AI、Google Cloud

EL 的位置： 已从”工具”升级到”不可或缺的中间件”

应用层无法自建语音 AI（成本 > 收益）
基础设施层（OpenAI）做语音不如专业公司
中间层的 EL、PlayHT、Resemble 必有一强者
EL 赌注：成为全球语音 AI 的”Operating System”

3.3 反脆弱设计

ElevenLabs 的护城河并非单一技术，而是多维度的反脆弱：

维度	防线
技术	v3 模型领先 + 自研 STT（Scribe）+ 专有 Agent 架构，不依赖单一上游
数据	Reader App 用户行为数据 + 企业音频数据，形成反馈闭环
网络效应	企业客户间的知识共享、创作者社区的声音库交易
转换成本	一旦企业用上 Agent，迁移成本极高（客服系统重建）
资本地位	$500M 现金 + a16z 背书，烧钱能力 >> PlayHT/Resemble

最大的脆弱点： 监管（Deepfakes 声音滥用），但 EL 已在主动投入防守（CEO 多次公开阐述伦理立场）

3.4 配置论视角

成功 = 技术 × 市场时机 × 融资能力 × 管理素质

2023: 技术 3颗星 | 市场 2颗星 | 融资 2颗星 | 管理 3颗星 | 结果: 种子期
2024: 技术 4颗星 | 市场 3颗星 | 融资 3颗星 | 管理 4颗星 | 结果: 爆发期
2025: 技术 4颗星 | 市场 4颗星 | 融资 4颗星 | 管理 4颗星 | 结果: $330M ARR
2026: 技术 4颗星 | 市场 4颗星 | 融资 5颗星 | 管理 5颗星 | 结果: IPO 预热

核心发现： 不是某一个维度超强，而是从 2025 起四维齐平，这是 IPO 前夜的典型信号。

四、蓝图复刻

如果你要复刻 ElevenLabs 的成功，需要看清楚的真正”秘诀”：

逻辑链

1 非共识切入点：
  "语音质量是行业瓶颈" vs 业界普遍认为"功能完整性优先"
  赌对了：2023-2024 AI 内容创作爆发，对语音质量需求极高

2 技术垄断：
  v3 模型的"表现力"（叹气、笑声、停顿）
  竞对学不了（需要数据积累 + 算法创新）
  持续领先 18 个月以上

3 梯度产品布局：
  TTS（免费试用）→ Creator Tools（$100/月）→
  API（企业）→ Agent（$50k+ 年度）
  逐层过滤，最后留下高价值客户

4 生态黏性：
  Reader App（用户基数）+ 创作者社区（内容）+ 企业 API（营收）
  三角形自我强化

5 融资节奏精准：
  Series C/D 在增长加速点注入大资本
  快速扩大销售、国际化、产品线
  为 IPO 冲刺 runway

创业者视角的复刻机会

别学：

复制 TTS 技术（EL 已经赢了）
做”更便宜的 EL”（错误方向）
一个市场一个产品（应该是梯度矩阵）

可以学：

寻找单一维度的过度优化
- EL 选择了”表现力”而不是”速度”或”成本”
- 你的赛道是什么单一维度被忽视了？
配置论的时间窗
- 融资、技术、市场需求，三者要在 18 个月内齐备
- 早了融不到钱，晚了被抄
梯度定价，不是降价竞争
- 从玩家 → 职业 → 企业，每层 10 倍价格跳跃
- 不是抢占市场份额，是抢占利润
生态→垄断
- 单一产品天花板 $100M ARR
- 生态（用户 + 数据 + 社区）才能做到 $300M+

五、Mars 视角

本质问题

ElevenLabs 为什么能在”语音 AI”这个坑里掘出 $11B 独角兽？

表面答案（错的）：

因为语音 AI 是好赛道
因为技术厉害
因为融资多

本质答案（对的）：

他们改变了”表达”的定义
- 从前：AI 音色好听，就够了
- 现在：AI 要”会呼吸”，要有停顿、疲惫、兴奋
- 这一步跨越，让语音从”后期制作工具”升级为”创意表达媒介”
- 反而成了短视频、播客、有声书的必需品
打通了”创意→交易”的最短路径
- YouTuber 用 EL 配音 → YouTube 付费推荐 → Netflix 用 EL 做配音 → 每秒钟数百万成本消灭
- 同一技术，距钱不同距离，赚到的钱 1000 倍差
- CEO 的真本领不是造更好的 AI，而是看清了这条路径
反共识的赌注
- 2023 年时，人人都说 OpenAI TTS 够用了
- EL 说：不够，还差”感情”
- 这不是”more, better, faster”，而是维度创新
- 维度创新 > 参数堆积，这是从 AI 历史中学来的
配置论窗口
- 碰巧 2023-2024 正好是：
  - LLM 已稳定（不会被打翻）
  - 内容创作需求爆发（用户渴望工具）
  - 资本追风口（融资容易）
  - 全球化机会（多语言需求）
- 赶上了这个窗口，但不是偶然，而是创始人看穿了
“运气设计”的典范
- Reader App 看似”小产品”
- 其实在积累：用户数 × 行为数据 × 社区信任
- 这些数据反哺 Agent，反哺定价，反哺融资说辞
- 运气面积 = 能力 × 被认知程度

对创业者的启发

EL 的成功公式不是"最好的技术 + 最大的融资"

而是：
┌──────────────────────────────────┐
│ 识别一个被忽视的维度               │
│        ↓                          │
│ 把这个维度做到极致                │
│        ↓                          │
│ 等风口到来时（不是制造）         │
│        ↓                          │
│ 用梯度产品线赚钱                 │
│        ↓                          │
│ 融资 → 扩张 → IPO                │
└──────────────────────────────────┘

更深的观察：

ElevenLabs 的真正优势，不在于”比 OpenAI 的 TTS 好”，而在于定义了一个 OpenAI 没有兴趣定义的市场：

OpenAI 关心的是”通用”（一个模型做所有事）
EL 关心的是”专精”（语音的表现力，只有这一件）
OpenAI 必须卖 $20/月才能回本
EL 的 Enterprise Agent 卖 $500k/年很轻松

这就是”市场细分”的力量。不是更强，是更对。

给 AI 创业者的三条建议

别争”最好”，争”唯一”
- 全能 AI 死路（被巨头碾压）
- 某个领域的”呼吸”是活路（定价权）
梯度是生命
- 产品线从 Free/Pro/Business/Enterprise
- 定价从 $0/$100/$1000/$100k 十倍跳跃
- 底部多再多也不如顶部一个
生态数据是护城河，不是用户数
- Reader App 的 1 亿用户，不如 Agent 的 100 个企业
- 前者给你 DAU，后者给你 ARR
- 反脆弱的是后者

六、相关案例

A. OpenAI TTS vs ElevenLabs

对比	OpenAI	ElevenLabs
定位	”通用 AI”的附属品	专注语音表现力
声音数	6 个	1200+ 个
语言	29 个	29 个（持平）
表现力	基础（稳定）	高级（情感）
价格	$15/100万字	$5-$30/100万字（按阶段）
企业产品	无	Agents（$50k+/年）
结论	”够用"	"必用”

为什么 EL 赢： 不是比参数，而是参数之外多做了一层（表现力工程）。

B. PlayHT 2.0 vs ElevenLabs

对比	PlayHT 2.0	ElevenLabs
强项	对话式语音、速度	表现力、生态
融资	不足 $100M（推估）	$11B 估值
融资方	传统 VC	Sequoia + a16z
用户基数	API-first，小而精	Reader App + API 双轮驱动
国际化	美国为主	29 语言全球化
市场评价	”对话更自然"	"全能选手”

为什么 EL 更强： 赢在”生态 + 融资 + 国际化”三角，不是单一技术对比。

C. Dubbing 行业终结者

传统模式：

制作方 → 外包配音公司（按语言）→ 花 10-30 天，成本 $100k+
每部好莱坞电影的全球配音成本：$1-3M

EL Dubbing Studio：

上传视频 → 选语言 → 48h 内完成
保留原演员声纹，但用其他语言”说话”
成本 $5-20k，变成了 1/50 的成本

影响： 彻底改变了内容全球化的经济学

七、时间线

2023 年春夏
  ├─ ElevenLabs 成立（Piotr + Mati）
  └─ 初版 TTS 发布，Product Hunt 热议

2023 年秋冬
  ├─ Instant Voice Clone 推出（10秒克隆）
  └─ 首轮融资接近（A 轮）

2024 年上半年
  ├─ Eleven v2 发布（显著提升表现力）
  ├─ Speech to Speech 功能上线
  ├─ Reader App iOS/Android 发布（2024.6）
  └─ Series B 融资完成

2024 年下半年
  ├─ Conversational AI 测试版发布（11月）
  ├─ Dubbing Studio 扩展到 29 语言
  └─ 企业合约快速增长，ARR 跨 $100M（推估）

2025 年上半年
  ├─ 2025.1 Series C 融资（$180M，$3.3B 估值）
  ├─ Scribe STT 模型发布（2月）
  ├─ Reader App 新增出版功能（作者可发布 AI 配音有声书）
  └─ ARR 达到 $200M

2025 年下半年
  ├─ Conversational AI 2.0 企业版发布
  ├─ 9月 员工持股计划（$100M tender，$6.6B 估值）
  ├─ CEO 公开表示 IPO 计划
  └─ ARR $330M+（年底）

2026 年 Q1（当前）
  ├─ 2月 Eleven v3 正式 GA
  ├─ 2月 Series D 融资（$500M，$11B 估值）
  ├─ 2月 Expressive Mode 在 Agents 中推出
  ├─ Sequoia 领投，a16z/ICONIQ 超额跟投
  └─ IPO 预热阶段，预期 2026-2027 年上市

八、参考来源

一级来源（官方）

二级来源（专业媒体）

三级来源（创业数据库）

竞品对标

九、更新日志

版本	日期	主要变化	确认者
v1.0	2024.H2	初版产品卡片（基于 Series B 数据）	-
v2.0	2025.Q2	更新 Series C 融资、Scribe、Reader App 新功能	-
v3.0	2025.Q4	加入 Conversational AI 2.0、ARR 达成、估值更新	-
v4.0	2026.03.17	最新版本新增 Series D $11B 估值、v3 GA、Expressive Mode、IPO 前景、创始人深度分析、Mars 视角、蓝图复刻框架	Claude

关键结论

ElevenLabs 从 $0 到 $11B 的三年突破，本质上是：

维度创新：当所有人都在堆参数时，EL 说”表现力更重要”
距钱距离：从创意工具 → 企业基础设施，每层 10 倍价值跳跃
生态闭环：用户数据 + 企业合约 + 融资，三角形自我强化
配置论窗口：赶上了技术、市场、融资、管理四维齐平的时刻

对 AI 创业者的启发：

不是做”最好的”，而是做”最对的”
不是抢市场份额，而是抢利润锁定
不是一个产品，而是梯度矩阵 + 生态

2026 年预测：

ARR 目标 $500M+（基于增长加速）
IPO 时间表 2026-2027
估值有望突破 $15B
Agents 会成为下一代客服/销售工具的基础设施

AI 草稿——待 Mars 确认

本卡片基于公开信息和行业数据综合分析，结论需要 Mars 的一线观察补充。重点关注：（1）企业客户的实际采用成本 vs 预期成本差异，（2）Agent 产品的实际留存率（早期数据往往过于乐观），（3）国际化市场的定价策略与本地化竞争。

Mars Product Wiki

探索

ElevenLabs

一句话定位

基本面表

一、发展脉络与创始人基因

灵感来源：一部烂配音电影

二、成长旅程

2.1 第一阶段（2023-2024.H1）：突破”机械感”

2.2 第二阶段（2024.H2-2025.H1）：技术突围 + 产品矩阵扩张

2.3 第三阶段（2025.H2-2026.Q1）：Conversational AI 的企业化

2.4 第四阶段（2026.Q1-现在）：IPO 预热 + 行业定义权

2.5 技术竞争力演变

2.6 国际化布局

2.7 盈利模式进化

三、战略框架

3.1 “距钱距离”假说应用

3.2 产业分层与控制层

3.3 反脆弱设计

3.4 配置论视角

四、蓝图复刻

逻辑链

创业者视角的复刻机会

五、Mars 视角

本质问题

对创业者的启发

给 AI 创业者的三条建议

六、相关案例

A. OpenAI TTS vs ElevenLabs

B. PlayHT 2.0 vs ElevenLabs

C. Dubbing 行业终结者

七、时间线

八、参考来源

一级来源（官方）

二级来源（专业媒体）

三级来源（创业数据库）

竞品对标

九、更新日志

关键结论

关联打法

看完后推荐

网络导航

关系图谱

目录