Hume AI

快速了解

Hume AI · Series B #行业-语音AI

一句话定位

Hume AI 通过「Octave + EVI 3」的双引擎架构，在 TTS（文本→语音）和 STS（语音→语音）两个维度同时实现”情感理解”和”表达生成”，把 AI 语音从”无感机械音”升级为”懂意思、有感情”的虚拟陪伴，成为情感计算时代的”语音系统设计者”。

基本面

指标	数据	来源
融资总额	$80.7M（3轮融资）	Crunchbase
Series B	$50M（2024年3月）	官方新闻
Series B 投资方	EQT Ventures 领投 + Union Square Ventures、Nat Friedman & Daniel Gross、Metaplanet、LG Technology Ventures	融资通告
核心产品发布	EVI（2024年3月）→ EVI 3（2025年5月）	官方博客
自定义语音库	100K+ 自定义声音	EVI 3文档
平台设计语音	200K+ 语音库（开发者可用）	API文档
声音克隆速度	30秒极速克隆（少至10秒）	EVI 3发布
Octave vs ElevenLabs	Octave优于ElevenLabs的52.3%（音质），优于51.7%（自然度），优于57.7%（声音匹配度），对标盲测180人	Octave博客
客户案例	hpy（心理治疗）：治疗追踪提升70%	官方案例
行业应用	医疗健康、汽车AI助手、教育互动（Coconote）	应用实例
定价模式	API订阅制（分级定价）+ 企业定制	开发者定价
最近重大事件	Google DeepMind”收购顾问”（2026年1月22日）：CEO Alan Cowen + 7名核心工程师加入DeepMind	PYMNTS

一、发展脉络与创始人基因

创始人：“情感计算”的科学传教士

Dr. Alan Cowen — CEO、Chief Scientist

背景：UC Berkeley 心理学 PhD，曾领导 Google AI Affective Computing 团队
学术积累：首创”语义空间论”(Semantic Space Theory)，用计算方法破解人声、表情、肢体语言中的情感密码
离职逻辑（2021）：Google 是”优化搜索广告点击率的公司”，而他想建”优化人类幸福感的公司”——非共识判断：“AI应该为人服务，而不是为商业指标服务”
创业哲学：将学术论文中的”情感识别算法”工程化为可部署的”情感对话产品”
个人风格：学者型创始人，偏好长期主义和伦理思考（公司名Hume源于苏格兰哲学家David Hume）
源

John Beadle — CFO、Founding Investor、Board Member

背景：Aegis Ventures 创始合伙人，早期风险投资家
角色：融资和商业化推进者，弥补Alan的学术背景缺陷
贡献：将VC视角注入产品（如何快速获得付费用户）

关键洞察：为什么是”情感AI”？

维度	传统语音AI（ElevenLabs）	Hume的选择	战略意义
优化目标	语音质量（清晰度、自然度）	语音表达（情感、意图、共鸣）	Hume可对B2B企业说”这个AI能陪人说话，而不只是读文章”
数据基础	大规模语音转录库	百万级人类互动录音（面部表情+声音+生理信号）	Hume的模型”懂”人类情感的多模态信号，而非只训练在文本
商业距离	远（内容创作者、视频制作）	近（心理治疗、医疗、汽车、教育）	Hume用户直接为”情感价值”付费，而非”播放列表”
定价权	按字符/分钟竞争（低毛利）	按”陪伴小时数”或”治疗追踪有效性”计价	医疗行业愿为”+70%治疗追踪有效性”支付溢价
护城河	自然度竞争（易被击败）	情感理解的学术壁垒（Alan的PhD论文转化）	情感计算是小众学科，Gate高

非共识判断：ElevenLabs 追求”最自然的机械音”，Hume 追求”最懂你的陪伴音” —— 前者是 B2B2C 的内容分发工具，后者是 B2B 的关系入口，商业上是两条完全不同的跑道。

组织演进：从实验室到商业化的三个里程碑

时间	事件	意义
2021年3月	Hume AI 成立，获 $5M Seed 融资（Aegis Ventures）	初心：将 Alan 的情感计算论文产品化
2021-2023年	早期产品验证期：发布 Expression Measurement API（表情识别）	从”理论”到”SDK”的转换，但B端收费困难（识别准确率问题）
2024年3月	Series B 里程碑：融资 $50M，同步发布 EVI（Empathic Voice Interface）	“感知+响应”的闭环完成，从”只读情感”到”情感对话”的维度跃升
2024年6月-2025年5月	EVI 1.0 → 2.0 → 3.0 快速迭代（仅14个月3代）	基础模型成熟，朝”100K自定义语音库”方向冲刺
2025年5月	EVI 3 发布：支持200K语音库、30秒极速克隆、对标Octave质量的 STS	从”通用陪伴”→“高度个性化陪伴”，为垂直行业（医疗/汽车/教育）定制
2026年1月22日	Google DeepMind “招聘”事件：Alan Cowen + 7名核心工程师以”顾问合作”名义进入 DeepMind	战略上，Hume 保留独立性，但核心技术和人才被纳入 Google 体系（类似 Google 之前对 DeepMind 的做法）

转折点：2024年3月的 Series B 不是融资，而是”EVI发布”与融资的捆绑——EVI 一出，整个定位就从”情感识别API”变成了”情感对话平台”，这驱动了后续融资。

二、产品架构与竞争壁垒

双引擎设计：Octave + EVI 3

用户交互流程：
┌────────────────────────────────────────────────────────────┐
│ 用户：「我今天挺累的」（自然语言 + 语音信号）             │
└────────────┬─────────────────────────────────────────────┘
             │
             ↓
    ┌─────────────────────┐
    │ EVI 3 (Speech-to-   │ ← 感知引擎
    │  Speech 理解层)      │   • 检测语调、节奏、情感
    │ • 识别疲劳、挫折感  │   • 预测用户何时说完
    │ • 上下文理解         │   • 学习个人偏好
    └────────┬────────────┘
             │ 生成意图
             ↓
    ┌─────────────────────┐
    │ 语言模型/推理引擎    │   中间处理层
    │ (LLM for reasoning) │   • 理解"我累了"的真实需求
    │ • 感同身受          │   • 决定回应的语气
    └────────┬────────────┘
             │ 回应文本: "听起来你今天经历了不少，
             │ 要不咱们先休息一下？"
             ↓
    ┌──────────────────────┐
    │ Octave (Text-to-     │  ← 表达引擎
    │  Speech 生成层)       │   • 理解文本意思
    │ • 输出"温柔关心"的   │   • 选择合适的音调
    │ • 选择个性化语音      │   • 参数化情感强度
    │ • 调整节奏和停顿      │   (tone: warm,
    │ (speaking style:     │    pace: slow,
    │  empathetic)         │    emotion: caring)
    └────────┬─────────────┘
             │
             ↓
    ┌──────────────────────────────┐
    │ AI语音输出（高表现力）       │
    │ 「我听到你的声音了……」      │
    │ (语调、停顿、音量都经过精心 │
    │  调整，而非机械朗读)        │
    └──────────────────────────────┘

核心产品1：Octave（文本→语音，TTS）

定义：首个”理解文本意思”的 LLM-for-TTS，解决了传统 TTS 的”只读不懂”问题

工作原理：

输入：文本 + 可选的语气指导（自然语言）

文本：「You're lucky to be here」
语气：「whisper it like a secret, with slight skepticism」

处理：Octave 推理”luck”的真实情感含义（是讽刺？真诚？）
输出：生成声音时自动调整：
- 音调（pitch）：略带讽刺的音色
- 节奏（pace）：放慢、打停顿
- 音量（volume）：轻声细语
- 音色（timbre）：带一点”不太信”的语调质感

对标测试（180人盲测，2024年）：

vs ElevenLabs：Octave 胜出 71.6%（音质）、51.7%（自然度）、57.7%（匹配度）
源

技术亮点：

支持参数化情感：可用自然语言精细控制情感混合（如”75%沮丧 + 25%讽刺”）
支持角色扮演：同一句话用不同”人物设定”生成（如”CEO语气”vs”朋友语气”）
支持200K+声音库：可选用任何自定义或预设语音

核心产品2：EVI 3（语音→语音，STS）

定义：第三代”感知-理解-回应”的多模态语言模型，核心是”懂人的陪伴”

工作原理：

感知（Perception）
- 实时识别用户语音中的：音调、节奏、停顿、语速、音量
- 推理用户的潜在情感状态（高兴/疲劳/沮丧/惊讶）
- 识别对话何时”自然结束”（EVI 会打断机械的一直听）
理解（Understanding）
- 上下文记忆：学习用户的说话习惯、偏好
- 意图推理：识别”真实需求”vs”表面需求”
- 伦理约束：检测用户是否陷入消极情绪，做出干预
回应（Response Generation）
- 语言生成：用 LLM 生成上下文感知的回应
- 表达规划：决定用什么语调、音速、情感强度回应
- 个性化：用该用户的”克隆语音”或选定的”个性化语音”输出

关键突破：100K+ 自定义语音库

每个用户都可拥有”专属AI陪伴”的声音
声音可基于用户的真实录音克隆（仅需30秒/最少10秒）
克隆不只是”音色”，还包括说话习惯、节奏、人格特征
源

三、商业模式与竞争优势

商业模式：从”识别工具”到”陪伴服务”

阶段	产品	客户类型	付费逻辑	ARR潜力
V1（2021-2023）	Expression Measurement API	研究机构、内容分析	按API调用/识别准确度	低（$1-5M 级）
V2（2024-2025）	EVI 1.0-2.0	B2B（医疗、汽车、教育）	按”对话分钟数”	中（$10-50M）
V3（2025+）	EVI 3 + Octave	B2B 垂直深化 + 企业定制	按”陪伴质量”或”业务指标改善”（如治疗追踪↑70%）	高（$100M+ 潜力）

非共识判断：Hume 不是”声音优化工具”（那样会和 ElevenLabs 竞争定价权），而是”情感交互基础设施”——医疗、教育、汽车都愿为”+情感理解”支付企业级定价。

案例验证：hpy（心理治疗SaaS）

问题：治疗师在线诊疗时，患者容易”水”式回答，导致治疗推进慢

Hume解决方案：

接入 EVI + Expression Measurement API
EVI 充当”准备师”，在治疗师接入前进行初期心理评估
系统识别患者的情感波动（焦虑↑、防御↑、参与度↓）
根据患者的情感状态调整后续治疗话题的引导方向

结果：患者的治疗追踪有效性提升 70%（截至2025年3月）

启示：这不是”语音质量”的竞争，而是”临床结果”的竞争。ElevenLabs 永远无法证明”这个声音能让治疗更有效”。

竞争优势对比

维度	ElevenLabs	Hume AI	Google DeepMind（新变量）
TTS 音质	89.6% 自然度	91.2%（Octave）	未知，但有 Google Scale
语言支持	70+ 语言	英文主要，部分西班牙语	多语言（Google 优势）
情感维度	无	高维度情感控制（15+ 参数）	可能整合到 Gemini
声音克隆	无	有（30秒）	可能有（Google Photos 类比）
B端应用	弱（主要 B2C）	强（医疗、汽车、教育）	可能垂直整合
护城河	网络效应（内容库）	学术垂直（情感计算）	基础设施垄断
融资/估值	$11B（2025年12月）	$1-2B（推测，Series B 后）	Google 支持

战略位置：

ElevenLabs = “内容分发的最后一英里”（播客、视频）
Hume AI = “B2B 关系交互的新基础设施”（医疗、教育、客服）
Google DeepMind = “长期整合威胁”（2026年后可能推出 Gemini Voice with Emotion）

四、增长动力与风险

增长驱动力

1. 医疗健康垂直爆发

市场：$1.2T 全球心理健康市场（WHO数据）
Hume的切入：EVI 成为治疗 SaaS 的标配（如hpy）
定价权：若治疗追踪↑70%，医疗机构愿支付 30-50% 的AI溢价
潜力：假设占领全球治疗SaaS的10%，ARR 可达 $100M+

2. 汽车智能助手升级

客户：Fortune 100汽车公司正在原型设计
需求：汽车助手从”冷冰冰的导航”升级为”会陪聊的同伴”
定价：整合进车机系统，按年付费（每辆车 $50-200/年）
规模：全球年销新车 8000万，若渗透10%，ARR $400M+

3. 教育互动平台

客户：Coconote（将笔记转为AI陪伴学习体验）
需求：学生愿与”有感情的AI”讨论课题，而非”机械TTS”
定价：B2C 教育应用的 AI 订阅
潜力：K12 + 高等教育 + 在职培训，总市场 $3T+

4. 企业 ToB API 标准化

现状：Hume 的 API 开始成为”情感语音接口的行业标准”
类比：类似 Stripe for Payments → Hume for Emotional Voice
潜力：企业愿集成到 CRM（Salesforce）、客服系统、HR系统

关键风险

1. Google DeepMind 的长期威胁 ⚠️

事件：2026年1月，Alan Cowen + 7名工程师加入 DeepMind”顾问”（实质上是”收购中的收购”）
情景A（乐观）：Hume 保持独立，获得 Google 的 Scale 支持，ARR 加速（$200M+/3年）
情景B（悲观）：Google 在 2027-2028年推出 Gemini Voice with Emotion，Hume 被边缘化
应对：Hume 必须在医疗/汽车等垂直场景形成锁定，而非依赖通用模型

2. 模型开源化威胁

竞争者：Meta Llama、Mistral 等开源模型可能推出”开源情感TTS”
风险：Octave 和 EVI 的护城河可能是”学术论文级别”而非”代码级别”
应对：Hume 需从”模型卖家”转向”应用生态卖家”（云平台 lock-in）

3. 医疗监管合规 ⚠️

挑战：心理治疗相关产品涉及医疗设备认证（FDA/CE Mark）
风险：若 EVI 在治疗诊断中出错，Hume 承担法律责任
应对：需与医疗伙伴共同承担责任，做好审计日志

4. 人才流失与融资冻结

现状：Alan Cowen + 核心工程师已部分进入 DeepMind
风险：若融资环境恶化，Hume 可能被迫出售或被 Google 全面收购
观察：Series B 后（2024年3月）已18个月无新融资公告，可能在洽谈后续资金或 Google 合作条款

五、阶段评估与战略前景

当前阶段：从”创新产品”到”平台化”的临界点（2026年3月）

维度	评估	意义
Product-Market Fit	有（医疗/汽车垂直已验证）	不需要再证明”是否有人买”，而是”如何规模化”
融资能力	强（Series B $50M，背靠高端VC）	但18个月无新融资公告，可能与 Google 合作谈判有关
技术壁垒	中-强（学术领先，但非绝对垄断）	Alan 的情感计算论文是优势，但开源化威胁逐年增加
商业化速度	中（B2B 采购周期长，但案例在出现）	hpy 治疗追踪+70% 是游戏改变者
人才稳定性	弱（核心创始人进入 DeepMind）	需要观察后续是否有其他核心工程师离职

3年前景（2026-2029）

牛市情景（概率 40%）：

Hume 在医疗+汽车垂直中成为标配
通过”治疗有效性”等医疗指标证明商业价值
ARR 达到 $200-300M，评估 $2-3B
可能的路径：IPO 或被 Microsoft / Meta 收购（Google 已有股份）

熊市情景（概率 30%）：

Google DeepMind 的 Gemini Voice with Emotion（2027年）推出，抢占市场
Hume 转向”专业医疗认证模型”的 niche，ARR 天花板在 $50-100M
最终被 Google / Microsoft 全面整合或收购

中性情景（概率 30%）：

Hume 继续独立，但增速放缓
市场分化：Hume 主导医疗教育，ElevenLabs 主导内容创意，Google 主导消费级
ARR 增长到 $100M，估值稳定在 $1.5B

六、与Mars思想框架的映射

非共识优先

Hume 的整个定位就是”非共识”：

共识：AI 语音就是”清晰自然度”竞争
Hume的反转：应该是”情感理解度”竞争，医疗愿意为此支付 30% 溢价

距钱距离假说

ElevenLabs = 远（视频制作者→平台→最终用户）
Hume = 近（医疗机构直接为治疗结果改善付费）
非共识判断：Hume 虽然融资少，但距钱更近，长期值钱

系统设计 > 个体努力

Hume 的核心设计是”感知-理解-回应”的完整闭环
不是”最好的 TTS”或”最好的情感识别”，而是两者的系统整合
EVI 3 的 100K 自定义语音库是”平台网络效应的初步建设”

运气设计（好运面积 = 能力 × 被认知程度）

能力：Alan 的情感计算论文 + EVI 3 的技术
被认知度：目前还很低（相比 ChatGPT / Claude），但医疗垂直内认知度在上升
策略：应通过医疗案例（hpy +70%）制造”口碑炸弹”，而非广泛营销

七、衍生阅读

官方资源

媒体与研究

竞品对比

学术基础

Alan Cowen 的”语义空间论”（Semantic Space Theory）论文，是理解 Hume 技术哲学的钥匙
相关领域：情感计算（Affective Computing）、多模态深度学习（Multimodal DL）、人机交互（HCI）

八、卡片编写说明

整体框架：遵循 Mars 的”反共识思维”——Hume 不是因为语音音质最好而有价值，而是因为”情感理解”这个维度是医疗/教育/汽车的实际刚需。

关键指标：

融资规模 ✓（Series B $50M）
自定义语音库规模 ✓（100K+，对标网络效应）
客户案例的”业务指标改善”✓（hpy +70%治疗追踪）
竞争对比的”距钱距离”分析 ✓

不确定性：

Google DeepMind 的深度关系（收购顾问vs完全整合的灰色地带）
Series B 后融资进展（18个月无新公告）
医疗监管合规的实际进展

更新周期：建议 6 个月后重新评估，尤其关注：

EVI 4 / Octave v2 的发布
Google 是否推出”Gemini Voice with Emotion”
hpy 案例后是否有更多医疗垂直的付费客户公开

网络导航

同赛道 → Deepgram、Otter、Sesame AI、Turboscribe、Vocu
探索行业 → 语音AI赛道全部产品

Mars Product Wiki

探索

Hume AI

一句话定位

基本面

一、发展脉络与创始人基因

创始人：“情感计算”的科学传教士

关键洞察：为什么是”情感AI”？

组织演进：从实验室到商业化的三个里程碑

二、产品架构与竞争壁垒

双引擎设计：Octave + EVI 3

核心产品1：Octave（文本→语音，TTS）

核心产品2：EVI 3（语音→语音，STS）

三、商业模式与竞争优势

商业模式：从”识别工具”到”陪伴服务”

案例验证：hpy（心理治疗SaaS）

竞争优势对比

四、增长动力与风险

增长驱动力

1. 医疗健康垂直爆发

2. 汽车智能助手升级

3. 教育互动平台

4. 企业 ToB API 标准化

关键风险

1. Google DeepMind 的长期威胁 ⚠️

2. 模型开源化威胁

3. 医疗监管合规 ⚠️

4. 人才流失与融资冻结

五、阶段评估与战略前景

当前阶段：从”创新产品”到”平台化”的临界点（2026年3月）

3年前景（2026-2029）

六、与Mars思想框架的映射

非共识优先

距钱距离假说

系统设计 > 个体努力

运气设计（好运面积 = 能力 × 被认知程度）

七、衍生阅读

官方资源

媒体与研究

竞品对比

学术基础

八、卡片编写说明

网络导航

关系图谱

目录