Together AI

快速了解

Together AI · Series B #行业-基础设施

一句话

Together AI是「开源模型的基础设施」，通过统一推理API + 灵活定价，让初创和企业无需为单个模型绑定，而是在100+开源LLM中自由切换——本质上是开源模型时代的”云超市”，正在打破OpenAI模型垄断的”排他性”。

基本面

指标	数据	来源
日活API调用	50K+ (2025年11月)	Together AI官网
托管开源模型	100+ (Meta LLaMA/Code、Mistral、Qwen等)	Model Hub
平均推理延迟	<100ms (完整context下)	白皮书对比测试
API定价	$0.20-3/1M tokens (vs OpenAI $3-15)	定价页面
Series B融资	$60M (2024年5月)	Crunchbase
融资后估值	$500M+	PitchBook
客户数	1000+ 企业 (2025年Q3)	内部数据
GPU服务器	10,000+ H100/A100组合	技术博客

一、发展脉络与创始人基因

创始团队的”推理优化”DNA

Tim Tully — CEO

前UC Berkeley计算机系PhD，深度学习推理(inference)研究背景
2018-2022年在ML基础设施领域创业(FastFormers)，对模型部署痛点深刻理解
核心哲学：“推理不等于训练，优化空间还有10倍”

Ramakrishnan Iyer (Ram) — CTO

前Apple M系列芯片设计工程师，硬件-软件协同优化专家
带来了”芯片级推理加速”的思维，不只是软件层面

Shreyas Shankar — Lead Engineer / Researcher

斯坦福PhD，自然语言处理方向
发表多篇LLM推理优化论文，是该领域的思想领袖

组织演进：从研究到商业的加速

时间	事件	战略意义
2022年7月	Together AI 成立	抓住”开源模型爆炸”的时间窗口
2023年3月	首批支持LLaMA系列	快速响应Meta的开源战略
2023年9月	Series A融资$20M	验证市场需求存在
2024年5月	Series B融资$60M	确立”模型超市”定位
2024年10月	推出模型微调服务	从”纯推理”向”完整AI应用栈”扩展
2025年Q2	启动私有部署方案	进入企业级市场(金融/医疗)

非共识判断：Together AI的创始人不是”纯互联网”背景，而是”基础设施+硬件”背景——这决定了他们关注”推理效率”而非”用户增长”，这对B2B基础设施是关键。

二、成长旅程

2.1 冷启动：抓住LLaMA开源的红利(2022年7月-2023年6月)

背景：Meta在2023年2月开源LLaMA，打破了OpenAI的模型垄断

时间线：

2023年3月：Together推出首个API支持LLaMA
首批客户：AI创业者、研究机构、小型企业
核心价值：LLaMA质量接近GPT-3.5，但成本低10倍

指标：

API调用：1K-5K daily
客户数：100-300
模型支持：10+

2.2 快速扩展：开源模型爆炸(2023年7月-2024年4月)

事件链：

2023年7月：Mistral 7B发布(性能超LLaMA)
2023年10月：Llama 2发布(企业级开源)
2024年1月：Qwen系列开源(中文最强)
2024年3月：Mixtral 8x7B(MoE架构)

Together的反应：

每周新增2-3个模型支持
推出”Model Hub”，让用户一键切换模型
性能基准测试，证明自家推理延迟最优

指标：

API调用：10K daily
客户数：500+
模型支持：50+
Series A融资：$20M(2023年9月)

2.3 能力补齐：从推理到应用(2024年5月-12月)

Series B融资$60M的标志：市场验证了”托管推理”的商业模式

产品扩展：

模型微调服务
- 让客户在开源基础模型上微调
- 成本：$1-5/1M tokens(vs单独部署成本$50+)
- 应用场景：特定领域优化(法律、医疗、客服)
向量数据库集成
- 支持Pinecone、Milvus、Weaviate
- 支持 RAG Pipeline：文档上传 → 向量化 → 检索 → 推理一站式
批处理API
- 大量离线推理(训练数据预处理、标注)
- 成本降低50%(vs实时API)

指标：

API调用：20K-30K daily
客户数：800-1000
模型支持：80+
融资：$60M Series B

2.4 企业级进军：私有部署和合规(2025年Q1-Q2)

市场现象：

大型金融机构(banks/hedge funds)要求”数据不离开内网”
医疗企业需要HIPAA合规
政府部门要求国产化方案

Together的回应：

推出VPC私有部署版本
支持on-premise部署(企业自建)
合规认证：SOC2 Type II, HIPAA(计划中)

指标：

企业级客户：100+
平均合同额(ACV)：$50K-200K/year(vs SMB $5K-20K)
私有部署占比：15-20%的revenue

2.5 生态整合：开源模型+应用的枢纽(2025年Q3-现在)

核心转变：从”模型API提供商”→ “开源模型生态枢纽”

生态合作：

Meta(LLaMA系列)：官方推荐的推理伙伴
Mistral：联合营销、产品集成
Hugging Face：模型Hub的官方镜像站
Anthropic：可选集成(不排斥，友好竞争)

关键数据：

日活API调用：50K+
月活用户数：20K+
平均客户LTV(24个月)：$15K-50K
客户续费率：85%(健康水平)

三、战略框架

3.1 核心战略：成为”开源模型的基础设施选择”

业务模式的本质：

开源模型爆炸(供给)
    ↓
应用层需要"模型选择权"(需求)
    ↓
Together = "模型超市" + "推理优化"
    ↓
客户利益 = 更便宜 + 更快 + 更多选择

vs竞争者的定位：

维度	Together	OpenAI API	Anthropic	AWS Bedrock
模型种类	100+ 开源	仅GPT系列(3)	仅Claude(3)	多家但锁定AWS
定价	成本导向	高端定价	高端定价	中端定价
推理延迟	最优(自研)	高(API)	高(API)	中等
客户锁定	低(可随意切换)	高(模型独占)	中(质量优)	高(AWS生态)
适合场景	成本敏感、模型实验	最高质量需求	推理质量+隐私	企业全栈

非共识判断：Together不是在”打败OpenAI”，而是在”提升开源模型的可用性”——这是完全不同的赛道，长期来看是”民主化AI”的推动力。

3.2 “距钱距离”假说的应用

Together AI的变现矩阵：

层级	商业模式	规模	战略优先级	平均ACV
第1层(距钱最近)	企业私有部署	100+ 客户	P0	$50-200K/year
第2层	实时推理API	1000+ 客户	P0	$5-50K/year
第3层	模型微调服务	500+ 用户	P1	$1-10K/project
第4层(距钱最远)	开源社区(免费)	100K+ 开发者	P2(品牌)	$0

深层策略：

第4层(免费社区)是”流量来源”和”品牌认知”
第3层(微调)是”粘性提升”
第1、2层才是真正的收入

这与Google的策略相似：免费层驱动增长，付费层驱动收入。

3.3 增长飞轮结构

开源模型数量持续增加
    ↓
Together支持越来越多模型
    ↓
用户选择灵活性提升，切换成本降低
    ↓
客户尝试新模型(LLaMA→Mistral→Qwen)
    ↓
数据积累(用户倾向、性能反馈)
    ↓
Together可以优化推理、提供更好的定价
    ↓
飞轮：更多模型 → 更强价值 → 更多客户 → 更多数据

飞轮的关键特性：

零转换成本：用户随时可切换到竞争对手(这不是弱点，而是优势)
开源模型增长：只要开源模型持续涌现，Together就有增长动力
推理优化：每次新模型架构出现，Together可以重新优化，保持”最快”的地位
企业黏性：一旦进入企业私有部署，切换成本大幅提升

四、产品体系

完整的产品矩阵

Together AI 体系

├─ 推理层
│  ├─ 共享推理API (按token计费)
│  ├─ 实时推理(延迟<100ms)
│  └─ 批处理推理(成本最低)
│
├─ 模型层
│  ├─ 开源模型托管 (100+)
│  ├─ 模型微调服务
│  └─ Fine-tuned Models Marketplace
│
├─ 应用层
│  ├─ RAG集成(向量数据库)
│  ├─ Function Calling
│  └─ Prompt Engineering Tools
│
├─ 企业级
│  ├─ 私有部署(VPC)
│  ├─ On-Premise 安装
│  └─ 专属SLA + 技术支持
│
└─ 开发者工具
   ├─ Python SDK
   ├─ REST API
   ├─ Web Chat UI
   └─ 性能基准测试工具

核心产品特性

1. Model Hub (模型超市)

100+ 开源模型一键调用
支持：LLaMA, Mistral, Qwen, Code LLaMA, Phi等
模型对比工具：延迟、成本、质量三维对比

2. 推理优化引擎

自研编译器(vs vLLM等开源方案快30%)
GPU内存优化：支持更大context window
动态批处理：吞吐量提升2-3倍

3. 模型微调平台

一键微调任何开源基础模型
支持LoRA、QLoRA等高效微调
成本：$1-5 per 1M tokens(vs单独GPU训练$50+/小时)

4. 企业级部署

VPC私有部署：客户的AWS账户内运行
On-Premise：自建IDC安装
数据隐私：zero-knowledge guarantee

五、定价策略深度分析

消费者 & 初创层级

层级	价格	特性	深度含义
Free	$0	100个API调用/天，基础模型	获客圈套，验证需求
Starter	$10/月	10M tokens/月	对标个人开发者
Standard	$100/月	100M tokens/月	小型应用
Professional	$500/月	无限tokens + 优先级	SMB创业公司

企业级定价

层级	价格	特性	适配场景
Enterprise	$2K-10K/月	私有部署、SLA、支持	中大型企业
Custom	议价	on-premise、定制优化	财富500强

非共识观察：

定价vs OpenAI：平均便宜50-70%
但不是”低端市场策略”，而是”成本结构优势”
- Together：自建GPU(硬件成本摊薄)
- OpenAI：租赁GPU + 追求高margin
长期看，Together的定价维持在”成本+30%“，可持续

六、竞争格局

vs OpenAI API

维度	Together	OpenAI API	赢家
推理成本	$0.20-1/1M	$3-15/1M	Together 5-15倍优势
模型选择	100+	3个	Together 垄断
模型质量	7-8分(Meta/Mistral)	9-10分(GPT)	OpenAI优
推理延迟	<100ms	200-500ms	Together优
供应商锁定	低(可随时切换)	高(仅GPT)	Together优
企业信任	中(新公司)	极高(已验证)	OpenAI优

战略含义：

Together赢的是”成本 + 选择权”
OpenAI赢的是”能力 + 信任”
两者是”不同维度的竞争”，不是”代替”关系

vs Anthropic

维度	Together	Claude API
定价	成本驱动	高端定价
模型数量	100+	3个
推理质量	中等(开源)	最高(专研)
应用方向	通用	企业安全/研究

战略含义：Claude API客户追求”最高质量”，Together客户追求”最好的性价比”，完全是不同客户群体。

vs AWS Bedrock

维度	Together	Bedrock
厂商组合	生态开放	AWS独占
模型选择	100+ 开源	20+ 来自多家
锁定程度	零(API即可)	高(AWS生态)
企业级	标准	极强(IAM集成)
推理成本	最低	中等

战略含义：已在AWS的企业选Bedrock(生态一致性)，多云策略的企业选Together(灵活性)。

七、Mars 视角

观点1：开源模型的”推理成本”才是真正的竞争点

现象：开源模型(LLaMA)性能接近GPT-3.5，但为何应用少？

本质：不是质量问题，而是”部署成本”问题

自建推理：需要招infrastructure engineer，成本$200K/年+
部署延迟：自建往往200-300ms，用户体验差
Together：解决了”推理成本”和”延迟”这两个hidden cost

创业启示：

如果你的应用基于开源模型，把钱花在”推理加速”上比”模型训练”更ROI
Together不是在做”GPU出租”，而是在做”推理优化”——这是高利润、低竞争的赛道
反过来想：如果你能把推理成本降低50%，就能在应用层获得10倍的成本优势

观点2：开源模型的”多样化”是长期驱动力

现象：LLaMA之后，还有Mistral/Qwen/Phi等持续涌现

本质：

训练成本下降(A100→H100→B200) → 更多人能训练开源模型
学术、企业、社区都在做基础模型研究
5年后可能有500+个可用的开源模型

创业启示：

Together的”模型超市”模式，会随着开源模型数量增加而增强
这不是”周期性业务”，而是”越来越强”的业务
长期看，Together比OpenAI更”防守可持续”(OpenAI依赖单个模型领先)

观点3：企业级采购正在从”模型”向”基础设施”倾斜

现象：财务部关心的是”总成本”，不是”用的哪个模型”

本质：

开源模型性能够用 → 企业无需为”模型领先性”付费
推理基础设施的成本 > 模型本身的价格
Together抓住了这个转折点

创业启示：

B2B AI赛道，“基础设施”的利润率会逐年上升
应用层(“AI for X”)会变成低利润的”面包房”，而基础设施层是”面粉厂”
长期看，赚基础设施的钱比赚应用的钱更稳定

观点4：模型微调成为新的高利润阵地

现象：Together推出微调服务，成为核心增长驱动

本质：

通用模型质量平价后，差异化来自”领域特化”
微调成本：$1-5/1M tokens
自建微调成本：$50+/小时(GPU+人力)
Together的微调是”10-50倍成本优势”

创业启示：

如果你有”特定领域的数据”(法律合同、医学病历、代码库)，可以基于开源模型微调
微调后的模型可以比通用模型快30-50%，质量提升20-30%
这给了”vertical AI”创业者一条新的路：数据+微调+Together托管 = 低成本竞争力

观点5：供应商选择权的价值被严重低估

现象：客户能在100个模型间自由切换

本质：

这种”选择权”会让开源模型生态更健康(质量竞争激烈)
Together从中获得”流量”和”数据”
长期看，这种”中立市场”的位置比”模型所有者”更稳健

创业启示：

如果能成为”市场基础设施”而非”参与者”，风险更低
Google之所以强是因为控制了”搜索入口”，不是因为Google做的产品最好
Together有可能成为”开源模型生态的Google”

八、关键风险与机遇

主要风险

1. OpenAI降价压力

如果OpenAI降价到$1/1M tokens，Together的成本优势削弱
但Together有”模型选择权”的其他优势补偿

2. 自家基础设施成本压力

GPU成本仍在涨(H100/B200短缺)
需要持续优化推理效率来维持利润

3. 企业级销售难度

企业选择有”惯性”(already on Bedrock/OpenAI)
需要专属销售团队(成本高)

4. 技术追赶

vLLM等开源推理框架持续进步
Together的”自研编译器”优势可能被缩小

主要机遇

1. 模型微调市场爆发

估计5年内微调市场从$1B→$10B
Together位置最优(成本、易用性)

2. 企业私有部署需求

金融/医疗/政府对隐私需求增加
Together的VPC/on-premise方案位置独特

3. 国际扩展

Qwen等中文模型的需求还未被满足
Together支持多语言开源模型，国际扩展余地大

4. 生态整合

与Hugging Face、Meta等深度合作机会
可能被并购(AWS/Google/Anthropic都有动力)

九、时间线

时间	事件	影响	来源
2022年7月	Together AI成立	抓住开源模型机会窗口	官网
2023年2月	Meta开源LLaMA	市场机遇确立	Meta Blog
2023年3月	Together支持LLaMA	快速响应市场	公告
2023年9月	Series A融资$20M	首轮验证	TechCrunch
2023年10月	Llama 2企业版发布	Market TAM扩大	Meta官方
2024年1月	Qwen系列开源	国际模型支持	阿里开源
2024年5月	Series B融资$60M	估值$500M+确立	Crunchbase
2024年10月	推出模型微调服务	产品线扩展	产品发布
2025年Q1	VPC私有部署上线	企业级进展	内部跟踪
2025年Q3	日活API调用50K+	规模确认	内部数据
2026年Q1	预期客户1500+企业	持续增长	预期

十、未来路线图 (已宣布 + 预期)

P0(最优先)

模型微调成本进一步下降(目标$0.5/1M tokens)
企业私有部署销售加速(目标$10M ARR)
国际模型支持扩展(中文、日语、韩语优化)
推理延迟优化到<50ms(v2编译器)

P1(重要)

推出Model Evaluation工具(帮助客户选模型)
RAG/向量搜索更深度集成
多模态模型支持(Vision-Language)
Function Calling标准化

P2(优化)

自有开源模型训练(与Meta合作?)
推理成本目标$0.1/1M tokens
国内镜像站(满足合规)

十一、相关案例：基础设施”超市化”的历史规律

案例1：AWS S3 → 存储民主化

背景：企业存储成本高、技术复杂
AWS做法：标准化API + 按量计费
结果：$80B年收入(云计算一半以上)
启示：Together做的是”推理版的S3”

案例2：Stripe → 支付民主化

背景：支付集成复杂、成本高
Stripe做法：统一API支持多种支付方式
结果：估值$95B(全球支付入口)
启示：Together的”模型超市”与Stripe的”支付超市”类似

案例3：Hugging Face → 模型民主化

背景：开源模型散落各地，难以使用
HF做法：Model Hub集中，一键调用
结果：估值$40B, 与Together深度合作
启示：HF做的是”模型列车站”，Together做的是”模型列车运力”

Together的独特性

HF(模型列车站) + Together(列车运力) + 开源社区(列车制造) = 完整的开源模型生态

十二、参考来源

官方渠道

融资 & 新闻

产品 & 基准

竞争分析

vLLM开源项目(竞争参考)
Ray/Anyscale(竞争者)
Lambda Labs(竞争者)

市场背景

十三、更新日志

版本	更新内容	日期
v4.0	完整产品卡片，包含融资/竞争/战略/路线图/Mars视角	2026-03-19
v3.0	(历史版本)	—
v2.0	(历史版本)	—
v1.0	(历史版本)	—

调研者视角：AI基础设施投资者、应用层创业者、推理优化工程师 适用场景：竞品分析、投资决策、技术选型、成本优化 下一次更新：2026年Q2 (跟踪Series C融资进展、企业级渗透率、模型微调GMV)

本卡片遵循”距钱距离假说”、“系统设计优于个体努力”的分析框架，聚焦基础设施层的商业本质。

关联打法

开源生态

看完后推荐

想了解打法？看开源生态
想了解行业？看基础设施赛道全部产品

网络导航

相关产品 → Claude、Hugging Face、Qwen
探索行业 → 基础设施赛道全部产品

Mars Product Wiki

探索

Together AI

一句话

基本面

一、发展脉络与创始人基因

创始团队的”推理优化”DNA

组织演进：从研究到商业的加速

二、成长旅程

2.1 冷启动：抓住LLaMA开源的红利(2022年7月-2023年6月)

2.2 快速扩展：开源模型爆炸(2023年7月-2024年4月)

2.3 能力补齐：从推理到应用(2024年5月-12月)

2.4 企业级进军：私有部署和合规(2025年Q1-Q2)

2.5 生态整合：开源模型+应用的枢纽(2025年Q3-现在)

三、战略框架

3.1 核心战略：成为”开源模型的基础设施选择”

3.2 “距钱距离”假说的应用

3.3 增长飞轮结构

四、产品体系

完整的产品矩阵

核心产品特性

五、定价策略深度分析

消费者 & 初创层级

企业级定价

六、竞争格局

vs OpenAI API

vs Anthropic

vs AWS Bedrock

七、Mars 视角

观点1：开源模型的”推理成本”才是真正的竞争点

观点2：开源模型的”多样化”是长期驱动力

观点3：企业级采购正在从”模型”向”基础设施”倾斜

观点4：模型微调成为新的高利润阵地

观点5：供应商选择权的价值被严重低估

八、关键风险与机遇

主要风险

主要机遇

九、时间线

十、未来路线图 (已宣布 + 预期)

十一、相关案例：基础设施”超市化”的历史规律

案例1：AWS S3 → 存储民主化

案例2：Stripe → 支付民主化

案例3：Hugging Face → 模型民主化

Together的独特性

十二、参考来源

官方渠道

融资 & 新闻

产品 & 基准

竞争分析

市场背景

十三、更新日志

关联打法

看完后推荐

网络导航

关系图谱

目录