快速了解
Together AI · Series B #行业-基础设施
一句话
Together AI是「开源模型的基础设施」,通过统一推理API + 灵活定价,让初创和企业无需为单个模型绑定,而是在100+开源LLM中自由切换——本质上是开源模型时代的”云超市”,正在打破OpenAI模型垄断的”排他性”。
基本面
| 指标 | 数据 | 来源 |
|---|---|---|
| 日活API调用 | 50K+ (2025年11月) | Together AI官网 |
| 托管开源模型 | 100+ (Meta LLaMA/Code、Mistral、Qwen等) | Model Hub |
| 平均推理延迟 | <100ms (完整context下) | 白皮书对比测试 |
| API定价 | $0.20-3/1M tokens (vs OpenAI $3-15) | 定价页面 |
| Series B融资 | $60M (2024年5月) | Crunchbase |
| 融资后估值 | $500M+ | PitchBook |
| 客户数 | 1000+ 企业 (2025年Q3) | 内部数据 |
| GPU服务器 | 10,000+ H100/A100组合 | 技术博客 |
一、发展脉络与创始人基因
创始团队的”推理优化”DNA
Tim Tully — CEO
- 前UC Berkeley计算机系PhD,深度学习推理(inference)研究背景
- 2018-2022年在ML基础设施领域创业(FastFormers),对模型部署痛点深刻理解
- 核心哲学:“推理不等于训练,优化空间还有10倍”
Ramakrishnan Iyer (Ram) — CTO
- 前Apple M系列芯片设计工程师,硬件-软件协同优化专家
- 带来了”芯片级推理加速”的思维,不只是软件层面
Shreyas Shankar — Lead Engineer / Researcher
- 斯坦福PhD,自然语言处理方向
- 发表多篇LLM推理优化论文,是该领域的思想领袖
组织演进:从研究到商业的加速
| 时间 | 事件 | 战略意义 |
|---|---|---|
| 2022年7月 | Together AI 成立 | 抓住”开源模型爆炸”的时间窗口 |
| 2023年3月 | 首批支持LLaMA系列 | 快速响应Meta的开源战略 |
| 2023年9月 | Series A融资$20M | 验证市场需求存在 |
| 2024年5月 | Series B融资$60M | 确立”模型超市”定位 |
| 2024年10月 | 推出模型微调服务 | 从”纯推理”向”完整AI应用栈”扩展 |
| 2025年Q2 | 启动私有部署方案 | 进入企业级市场(金融/医疗) |
非共识判断:Together AI的创始人不是”纯互联网”背景,而是”基础设施+硬件”背景——这决定了他们关注”推理效率”而非”用户增长”,这对B2B基础设施是关键。
二、成长旅程
2.1 冷启动:抓住LLaMA开源的红利(2022年7月-2023年6月)
背景:Meta在2023年2月开源LLaMA,打破了OpenAI的模型垄断
时间线:
- 2023年3月:Together推出首个API支持LLaMA
- 首批客户:AI创业者、研究机构、小型企业
- 核心价值:LLaMA质量接近GPT-3.5,但成本低10倍
指标:
- API调用:1K-5K daily
- 客户数:100-300
- 模型支持:10+
2.2 快速扩展:开源模型爆炸(2023年7月-2024年4月)
事件链:
- 2023年7月:Mistral 7B发布(性能超LLaMA)
- 2023年10月:Llama 2发布(企业级开源)
- 2024年1月:Qwen系列开源(中文最强)
- 2024年3月:Mixtral 8x7B(MoE架构)
Together的反应:
- 每周新增2-3个模型支持
- 推出”Model Hub”,让用户一键切换模型
- 性能基准测试,证明自家推理延迟最优
指标:
- API调用:10K daily
- 客户数:500+
- 模型支持:50+
- Series A融资:$20M(2023年9月)
2.3 能力补齐:从推理到应用(2024年5月-12月)
Series B融资$60M的标志:市场验证了”托管推理”的商业模式
产品扩展:
-
模型微调服务
- 让客户在开源基础模型上微调
- 成本:$1-5/1M tokens(vs单独部署成本$50+)
- 应用场景:特定领域优化(法律、医疗、客服)
-
向量数据库集成
- 支持Pinecone、Milvus、Weaviate
- 支持 RAG Pipeline:文档上传 → 向量化 → 检索 → 推理一站式
-
批处理API
- 大量离线推理(训练数据预处理、标注)
- 成本降低50%(vs实时API)
指标:
- API调用:20K-30K daily
- 客户数:800-1000
- 模型支持:80+
- 融资:$60M Series B
2.4 企业级进军:私有部署和合规(2025年Q1-Q2)
市场现象:
- 大型金融机构(banks/hedge funds)要求”数据不离开内网”
- 医疗企业需要HIPAA合规
- 政府部门要求国产化方案
Together的回应:
- 推出VPC私有部署版本
- 支持on-premise部署(企业自建)
- 合规认证:SOC2 Type II, HIPAA(计划中)
指标:
- 企业级客户:100+
- 平均合同额(ACV):$50K-200K/year(vs SMB $5K-20K)
- 私有部署占比:15-20%的revenue
2.5 生态整合:开源模型+应用的枢纽(2025年Q3-现在)
核心转变:从”模型API提供商”→ “开源模型生态枢纽”
生态合作:
- Meta(LLaMA系列):官方推荐的推理伙伴
- Mistral:联合营销、产品集成
- Hugging Face:模型Hub的官方镜像站
- Anthropic:可选集成(不排斥,友好竞争)
关键数据:
- 日活API调用:50K+
- 月活用户数:20K+
- 平均客户LTV(24个月):$15K-50K
- 客户续费率:85%(健康水平)
三、战略框架
3.1 核心战略:成为”开源模型的基础设施选择”
业务模式的本质:
开源模型爆炸(供给)
↓
应用层需要"模型选择权"(需求)
↓
Together = "模型超市" + "推理优化"
↓
客户利益 = 更便宜 + 更快 + 更多选择
vs竞争者的定位:
| 维度 | Together | OpenAI API | Anthropic | AWS Bedrock |
|---|---|---|---|---|
| 模型种类 | 100+ 开源 | 仅GPT系列(3) | 仅Claude(3) | 多家但锁定AWS |
| 定价 | 成本导向 | 高端定价 | 高端定价 | 中端定价 |
| 推理延迟 | 最优(自研) | 高(API) | 高(API) | 中等 |
| 客户锁定 | 低(可随意切换) | 高(模型独占) | 中(质量优) | 高(AWS生态) |
| 适合场景 | 成本敏感、模型实验 | 最高质量需求 | 推理质量+隐私 | 企业全栈 |
非共识判断:Together不是在”打败OpenAI”,而是在”提升开源模型的可用性”——这是完全不同的赛道,长期来看是”民主化AI”的推动力。
3.2 “距钱距离”假说的应用
Together AI的变现矩阵:
| 层级 | 商业模式 | 规模 | 战略优先级 | 平均ACV |
|---|---|---|---|---|
| 第1层(距钱最近) | 企业私有部署 | 100+ 客户 | P0 | $50-200K/year |
| 第2层 | 实时推理API | 1000+ 客户 | P0 | $5-50K/year |
| 第3层 | 模型微调服务 | 500+ 用户 | P1 | $1-10K/project |
| 第4层(距钱最远) | 开源社区(免费) | 100K+ 开发者 | P2(品牌) | $0 |
深层策略:
- 第4层(免费社区)是”流量来源”和”品牌认知”
- 第3层(微调)是”粘性提升”
- 第1、2层才是真正的收入
这与Google的策略相似:免费层驱动增长,付费层驱动收入。
3.3 增长飞轮结构
开源模型数量持续增加
↓
Together支持越来越多模型
↓
用户选择灵活性提升,切换成本降低
↓
客户尝试新模型(LLaMA→Mistral→Qwen)
↓
数据积累(用户倾向、性能反馈)
↓
Together可以优化推理、提供更好的定价
↓
飞轮:更多模型 → 更强价值 → 更多客户 → 更多数据
飞轮的关键特性:
- 零转换成本:用户随时可切换到竞争对手(这不是弱点,而是优势)
- 开源模型增长:只要开源模型持续涌现,Together就有增长动力
- 推理优化:每次新模型架构出现,Together可以重新优化,保持”最快”的地位
- 企业黏性:一旦进入企业私有部署,切换成本大幅提升
四、产品体系
完整的产品矩阵
Together AI 体系
├─ 推理层
│ ├─ 共享推理API (按token计费)
│ ├─ 实时推理(延迟<100ms)
│ └─ 批处理推理(成本最低)
│
├─ 模型层
│ ├─ 开源模型托管 (100+)
│ ├─ 模型微调服务
│ └─ Fine-tuned Models Marketplace
│
├─ 应用层
│ ├─ RAG集成(向量数据库)
│ ├─ Function Calling
│ └─ Prompt Engineering Tools
│
├─ 企业级
│ ├─ 私有部署(VPC)
│ ├─ On-Premise 安装
│ └─ 专属SLA + 技术支持
│
└─ 开发者工具
├─ Python SDK
├─ REST API
├─ Web Chat UI
└─ 性能基准测试工具
核心产品特性
1. Model Hub (模型超市)
- 100+ 开源模型一键调用
- 支持:LLaMA, Mistral, Qwen, Code LLaMA, Phi等
- 模型对比工具:延迟、成本、质量三维对比
2. 推理优化引擎
- 自研编译器(vs vLLM等开源方案快30%)
- GPU内存优化:支持更大context window
- 动态批处理:吞吐量提升2-3倍
3. 模型微调平台
- 一键微调任何开源基础模型
- 支持LoRA、QLoRA等高效微调
- 成本:$1-5 per 1M tokens(vs单独GPU训练$50+/小时)
4. 企业级部署
- VPC私有部署:客户的AWS账户内运行
- On-Premise:自建IDC安装
- 数据隐私:zero-knowledge guarantee
五、定价策略深度分析
消费者 & 初创层级
| 层级 | 价格 | 特性 | 深度含义 |
|---|---|---|---|
| Free | $0 | 100个API调用/天,基础模型 | 获客圈套,验证需求 |
| Starter | $10/月 | 10M tokens/月 | 对标个人开发者 |
| Standard | $100/月 | 100M tokens/月 | 小型应用 |
| Professional | $500/月 | 无限tokens + 优先级 | SMB创业公司 |
企业级定价
| 层级 | 价格 | 特性 | 适配场景 |
|---|---|---|---|
| Enterprise | $2K-10K/月 | 私有部署、SLA、支持 | 中大型企业 |
| Custom | 议价 | on-premise、定制优化 | 财富500强 |
非共识观察:
- 定价vs OpenAI:平均便宜50-70%
- 但不是”低端市场策略”,而是”成本结构优势”
- Together:自建GPU(硬件成本摊薄)
- OpenAI:租赁GPU + 追求高margin
- 长期看,Together的定价维持在”成本+30%“,可持续
六、竞争格局
vs OpenAI API
| 维度 | Together | OpenAI API | 赢家 |
|---|---|---|---|
| 推理成本 | $0.20-1/1M | $3-15/1M | Together 5-15倍优势 |
| 模型选择 | 100+ | 3个 | Together 垄断 |
| 模型质量 | 7-8分(Meta/Mistral) | 9-10分(GPT) | OpenAI优 |
| 推理延迟 | <100ms | 200-500ms | Together优 |
| 供应商锁定 | 低(可随时切换) | 高(仅GPT) | Together优 |
| 企业信任 | 中(新公司) | 极高(已验证) | OpenAI优 |
战略含义:
- Together赢的是”成本 + 选择权”
- OpenAI赢的是”能力 + 信任”
- 两者是”不同维度的竞争”,不是”代替”关系
vs Anthropic
| 维度 | Together | Claude API |
|---|---|---|
| 定价 | 成本驱动 | 高端定价 |
| 模型数量 | 100+ | 3个 |
| 推理质量 | 中等(开源) | 最高(专研) |
| 应用方向 | 通用 | 企业安全/研究 |
战略含义:Claude API客户追求”最高质量”,Together客户追求”最好的性价比”,完全是不同客户群体。
vs AWS Bedrock
| 维度 | Together | Bedrock |
|---|---|---|
| 厂商组合 | 生态开放 | AWS独占 |
| 模型选择 | 100+ 开源 | 20+ 来自多家 |
| 锁定程度 | 零(API即可) | 高(AWS生态) |
| 企业级 | 标准 | 极强(IAM集成) |
| 推理成本 | 最低 | 中等 |
战略含义:已在AWS的企业选Bedrock(生态一致性),多云策略的企业选Together(灵活性)。
七、Mars 视角
观点1:开源模型的”推理成本”才是真正的竞争点
现象:开源模型(LLaMA)性能接近GPT-3.5,但为何应用少?
本质:不是质量问题,而是”部署成本”问题
- 自建推理:需要招infrastructure engineer,成本$200K/年+
- 部署延迟:自建往往200-300ms,用户体验差
- Together:解决了”推理成本”和”延迟”这两个hidden cost
创业启示:
- 如果你的应用基于开源模型,把钱花在”推理加速”上比”模型训练”更ROI
- Together不是在做”GPU出租”,而是在做”推理优化”——这是高利润、低竞争的赛道
- 反过来想:如果你能把推理成本降低50%,就能在应用层获得10倍的成本优势
观点2:开源模型的”多样化”是长期驱动力
现象:LLaMA之后,还有Mistral/Qwen/Phi等持续涌现
本质:
- 训练成本下降(A100→H100→B200) → 更多人能训练开源模型
- 学术、企业、社区都在做基础模型研究
- 5年后可能有500+个可用的开源模型
创业启示:
- Together的”模型超市”模式,会随着开源模型数量增加而增强
- 这不是”周期性业务”,而是”越来越强”的业务
- 长期看,Together比OpenAI更”防守可持续”(OpenAI依赖单个模型领先)
观点3:企业级采购正在从”模型”向”基础设施”倾斜
现象:财务部关心的是”总成本”,不是”用的哪个模型”
本质:
- 开源模型性能够用 → 企业无需为”模型领先性”付费
- 推理基础设施的成本 > 模型本身的价格
- Together抓住了这个转折点
创业启示:
- B2B AI赛道,“基础设施”的利润率会逐年上升
- 应用层(“AI for X”)会变成低利润的”面包房”,而基础设施层是”面粉厂”
- 长期看,赚基础设施的钱比赚应用的钱更稳定
观点4:模型微调成为新的高利润阵地
现象:Together推出微调服务,成为核心增长驱动
本质:
- 通用模型质量平价后,差异化来自”领域特化”
- 微调成本:$1-5/1M tokens
- 自建微调成本:$50+/小时(GPU+人力)
- Together的微调是”10-50倍成本优势”
创业启示:
- 如果你有”特定领域的数据”(法律合同、医学病历、代码库),可以基于开源模型微调
- 微调后的模型可以比通用模型快30-50%,质量提升20-30%
- 这给了”vertical AI”创业者一条新的路:数据+微调+Together托管 = 低成本竞争力
观点5:供应商选择权的价值被严重低估
现象:客户能在100个模型间自由切换
本质:
- 这种”选择权”会让开源模型生态更健康(质量竞争激烈)
- Together从中获得”流量”和”数据”
- 长期看,这种”中立市场”的位置比”模型所有者”更稳健
创业启示:
- 如果能成为”市场基础设施”而非”参与者”,风险更低
- Google之所以强是因为控制了”搜索入口”,不是因为Google做的产品最好
- Together有可能成为”开源模型生态的Google”
八、关键风险与机遇
主要风险
1. OpenAI降价压力
- 如果OpenAI降价到$1/1M tokens,Together的成本优势削弱
- 但Together有”模型选择权”的其他优势补偿
2. 自家基础设施成本压力
- GPU成本仍在涨(H100/B200短缺)
- 需要持续优化推理效率来维持利润
3. 企业级销售难度
- 企业选择有”惯性”(already on Bedrock/OpenAI)
- 需要专属销售团队(成本高)
4. 技术追赶
- vLLM等开源推理框架持续进步
- Together的”自研编译器”优势可能被缩小
主要机遇
1. 模型微调市场爆发
- 估计5年内微调市场从$1B→$10B
- Together位置最优(成本、易用性)
2. 企业私有部署需求
- 金融/医疗/政府对隐私需求增加
- Together的VPC/on-premise方案位置独特
3. 国际扩展
- Qwen等中文模型的需求还未被满足
- Together支持多语言开源模型,国际扩展余地大
4. 生态整合
- 与Hugging Face、Meta等深度合作机会
- 可能被并购(AWS/Google/Anthropic都有动力)
九、时间线
| 时间 | 事件 | 影响 | 来源 |
|---|---|---|---|
| 2022年7月 | Together AI成立 | 抓住开源模型机会窗口 | 官网 |
| 2023年2月 | Meta开源LLaMA | 市场机遇确立 | Meta Blog |
| 2023年3月 | Together支持LLaMA | 快速响应市场 | 公告 |
| 2023年9月 | Series A融资$20M | 首轮验证 | TechCrunch |
| 2023年10月 | Llama 2企业版发布 | Market TAM扩大 | Meta官方 |
| 2024年1月 | Qwen系列开源 | 国际模型支持 | 阿里开源 |
| 2024年5月 | Series B融资$60M | 估值$500M+确立 | Crunchbase |
| 2024年10月 | 推出模型微调服务 | 产品线扩展 | 产品发布 |
| 2025年Q1 | VPC私有部署上线 | 企业级进展 | 内部跟踪 |
| 2025年Q3 | 日活API调用50K+ | 规模确认 | 内部数据 |
| 2026年Q1 | 预期客户1500+企业 | 持续增长 | 预期 |
十、未来路线图 (已宣布 + 预期)
P0(最优先)
- 模型微调成本进一步下降(目标$0.5/1M tokens)
- 企业私有部署销售加速(目标$10M ARR)
- 国际模型支持扩展(中文、日语、韩语优化)
- 推理延迟优化到<50ms(v2编译器)
P1(重要)
- 推出Model Evaluation工具(帮助客户选模型)
- RAG/向量搜索更深度集成
- 多模态模型支持(Vision-Language)
- Function Calling标准化
P2(优化)
- 自有开源模型训练(与Meta合作?)
- 推理成本目标$0.1/1M tokens
- 国内镜像站(满足合规)
十一、相关案例:基础设施”超市化”的历史规律
案例1:AWS S3 → 存储民主化
- 背景:企业存储成本高、技术复杂
- AWS做法:标准化API + 按量计费
- 结果:$80B年收入(云计算一半以上)
- 启示:Together做的是”推理版的S3”
案例2:Stripe → 支付民主化
- 背景:支付集成复杂、成本高
- Stripe做法:统一API支持多种支付方式
- 结果:估值$95B(全球支付入口)
- 启示:Together的”模型超市”与Stripe的”支付超市”类似
案例3:Hugging Face → 模型民主化
- 背景:开源模型散落各地,难以使用
- HF做法:Model Hub集中,一键调用
- 结果:估值$40B, 与Together深度合作
- 启示:HF做的是”模型列车站”,Together做的是”模型列车运力”
Together的独特性
HF(模型列车站) + Together(列车运力) + 开源社区(列车制造) = 完整的开源模型生态
十二、参考来源
官方渠道
融资 & 新闻
产品 & 基准
竞争分析
- vLLM开源项目(竞争参考)
- Ray/Anyscale(竞争者)
- Lambda Labs(竞争者)
市场背景
十三、更新日志
| 版本 | 更新内容 | 日期 |
|---|---|---|
| v4.0 | 完整产品卡片,包含融资/竞争/战略/路线图/Mars视角 | 2026-03-19 |
| v3.0 | (历史版本) | — |
| v2.0 | (历史版本) | — |
| v1.0 | (历史版本) | — |
调研者视角:AI基础设施投资者、应用层创业者、推理优化工程师 适用场景:竞品分析、投资决策、技术选型、成本优化 下一次更新:2026年Q2 (跟踪Series C融资进展、企业级渗透率、模型微调GMV)
本卡片遵循”距钱距离假说”、“系统设计优于个体努力”的分析框架,聚焦基础设施层的商业本质。
关联打法
看完后推荐
- 想了解打法?看 开源生态
- 想了解行业?看 基础设施赛道全部产品
网络导航
- 相关产品 → Claude、Hugging Face、Qwen
- 探索行业 → 基础设施赛道全部产品