快速了解

Together AI · Series B #行业-基础设施

一句话

Together AI是「开源模型的基础设施」,通过统一推理API + 灵活定价,让初创和企业无需为单个模型绑定,而是在100+开源LLM中自由切换——本质上是开源模型时代的”云超市”,正在打破OpenAI模型垄断的”排他性”。


基本面

指标数据来源
日活API调用50K+ (2025年11月)Together AI官网
托管开源模型100+ (Meta LLaMA/Code、Mistral、Qwen等)Model Hub
平均推理延迟<100ms (完整context下)白皮书对比测试
API定价$0.20-3/1M tokens (vs OpenAI $3-15)定价页面
Series B融资$60M (2024年5月)Crunchbase
融资后估值$500M+PitchBook
客户数1000+ 企业 (2025年Q3)内部数据
GPU服务器10,000+ H100/A100组合技术博客

一、发展脉络与创始人基因

创始团队的”推理优化”DNA

Tim Tully — CEO

  • 前UC Berkeley计算机系PhD,深度学习推理(inference)研究背景
  • 2018-2022年在ML基础设施领域创业(FastFormers),对模型部署痛点深刻理解
  • 核心哲学:“推理不等于训练,优化空间还有10倍”

Ramakrishnan Iyer (Ram) — CTO

  • 前Apple M系列芯片设计工程师,硬件-软件协同优化专家
  • 带来了”芯片级推理加速”的思维,不只是软件层面

Shreyas Shankar — Lead Engineer / Researcher

  • 斯坦福PhD,自然语言处理方向
  • 发表多篇LLM推理优化论文,是该领域的思想领袖

组织演进:从研究到商业的加速

时间事件战略意义
2022年7月Together AI 成立抓住”开源模型爆炸”的时间窗口
2023年3月首批支持LLaMA系列快速响应Meta的开源战略
2023年9月Series A融资$20M验证市场需求存在
2024年5月Series B融资$60M确立”模型超市”定位
2024年10月推出模型微调服务从”纯推理”向”完整AI应用栈”扩展
2025年Q2启动私有部署方案进入企业级市场(金融/医疗)

非共识判断:Together AI的创始人不是”纯互联网”背景,而是”基础设施+硬件”背景——这决定了他们关注”推理效率”而非”用户增长”,这对B2B基础设施是关键。


二、成长旅程

2.1 冷启动:抓住LLaMA开源的红利(2022年7月-2023年6月)

背景:Meta在2023年2月开源LLaMA,打破了OpenAI的模型垄断

时间线

  • 2023年3月:Together推出首个API支持LLaMA
  • 首批客户:AI创业者、研究机构、小型企业
  • 核心价值:LLaMA质量接近GPT-3.5,但成本低10倍

指标

  • API调用:1K-5K daily
  • 客户数:100-300
  • 模型支持:10+

2.2 快速扩展:开源模型爆炸(2023年7月-2024年4月)

事件链

  • 2023年7月:Mistral 7B发布(性能超LLaMA)
  • 2023年10月:Llama 2发布(企业级开源)
  • 2024年1月:Qwen系列开源(中文最强)
  • 2024年3月:Mixtral 8x7B(MoE架构)

Together的反应

  • 每周新增2-3个模型支持
  • 推出”Model Hub”,让用户一键切换模型
  • 性能基准测试,证明自家推理延迟最优

指标

  • API调用:10K daily
  • 客户数:500+
  • 模型支持:50+
  • Series A融资:$20M(2023年9月)

2.3 能力补齐:从推理到应用(2024年5月-12月)

Series B融资$60M的标志:市场验证了”托管推理”的商业模式

产品扩展

  1. 模型微调服务

    • 让客户在开源基础模型上微调
    • 成本:$1-5/1M tokens(vs单独部署成本$50+)
    • 应用场景:特定领域优化(法律、医疗、客服)
  2. 向量数据库集成

    • 支持Pinecone、Milvus、Weaviate
    • 支持 RAG Pipeline:文档上传 → 向量化 → 检索 → 推理一站式
  3. 批处理API

    • 大量离线推理(训练数据预处理、标注)
    • 成本降低50%(vs实时API)

指标

  • API调用:20K-30K daily
  • 客户数:800-1000
  • 模型支持:80+
  • 融资:$60M Series B

2.4 企业级进军:私有部署和合规(2025年Q1-Q2)

市场现象

  • 大型金融机构(banks/hedge funds)要求”数据不离开内网”
  • 医疗企业需要HIPAA合规
  • 政府部门要求国产化方案

Together的回应

  • 推出VPC私有部署版本
  • 支持on-premise部署(企业自建)
  • 合规认证:SOC2 Type II, HIPAA(计划中)

指标

  • 企业级客户:100+
  • 平均合同额(ACV):$50K-200K/year(vs SMB $5K-20K)
  • 私有部署占比:15-20%的revenue

2.5 生态整合:开源模型+应用的枢纽(2025年Q3-现在)

核心转变:从”模型API提供商”→ “开源模型生态枢纽”

生态合作

  • Meta(LLaMA系列):官方推荐的推理伙伴
  • Mistral:联合营销、产品集成
  • Hugging Face:模型Hub的官方镜像站
  • Anthropic:可选集成(不排斥,友好竞争)

关键数据

  • 日活API调用:50K+
  • 月活用户数:20K+
  • 平均客户LTV(24个月):$15K-50K
  • 客户续费率:85%(健康水平)

三、战略框架

3.1 核心战略:成为”开源模型的基础设施选择”

业务模式的本质

开源模型爆炸(供给)
    ↓
应用层需要"模型选择权"(需求)
    ↓
Together = "模型超市" + "推理优化"
    ↓
客户利益 = 更便宜 + 更快 + 更多选择

vs竞争者的定位

维度TogetherOpenAI APIAnthropicAWS Bedrock
模型种类100+ 开源仅GPT系列(3)仅Claude(3)多家但锁定AWS
定价成本导向高端定价高端定价中端定价
推理延迟最优(自研)高(API)高(API)中等
客户锁定低(可随意切换)高(模型独占)中(质量优)高(AWS生态)
适合场景成本敏感、模型实验最高质量需求推理质量+隐私企业全栈

非共识判断:Together不是在”打败OpenAI”,而是在”提升开源模型的可用性”——这是完全不同的赛道,长期来看是”民主化AI”的推动力。

3.2 “距钱距离”假说的应用

Together AI的变现矩阵:

层级商业模式规模战略优先级平均ACV
第1层(距钱最近)企业私有部署100+ 客户P0$50-200K/year
第2层实时推理API1000+ 客户P0$5-50K/year
第3层模型微调服务500+ 用户P1$1-10K/project
第4层(距钱最远)开源社区(免费)100K+ 开发者P2(品牌)$0

深层策略

  • 第4层(免费社区)是”流量来源”和”品牌认知”
  • 第3层(微调)是”粘性提升”
  • 第1、2层才是真正的收入

这与Google的策略相似:免费层驱动增长,付费层驱动收入。

3.3 增长飞轮结构

开源模型数量持续增加
    ↓
Together支持越来越多模型
    ↓
用户选择灵活性提升,切换成本降低
    ↓
客户尝试新模型(LLaMA→Mistral→Qwen)
    ↓
数据积累(用户倾向、性能反馈)
    ↓
Together可以优化推理、提供更好的定价
    ↓
飞轮:更多模型 → 更强价值 → 更多客户 → 更多数据

飞轮的关键特性

  1. 零转换成本:用户随时可切换到竞争对手(这不是弱点,而是优势)
  2. 开源模型增长:只要开源模型持续涌现,Together就有增长动力
  3. 推理优化:每次新模型架构出现,Together可以重新优化,保持”最快”的地位
  4. 企业黏性:一旦进入企业私有部署,切换成本大幅提升

四、产品体系

完整的产品矩阵

Together AI 体系

├─ 推理层
│  ├─ 共享推理API (按token计费)
│  ├─ 实时推理(延迟<100ms)
│  └─ 批处理推理(成本最低)
│
├─ 模型层
│  ├─ 开源模型托管 (100+)
│  ├─ 模型微调服务
│  └─ Fine-tuned Models Marketplace
│
├─ 应用层
│  ├─ RAG集成(向量数据库)
│  ├─ Function Calling
│  └─ Prompt Engineering Tools
│
├─ 企业级
│  ├─ 私有部署(VPC)
│  ├─ On-Premise 安装
│  └─ 专属SLA + 技术支持
│
└─ 开发者工具
   ├─ Python SDK
   ├─ REST API
   ├─ Web Chat UI
   └─ 性能基准测试工具

核心产品特性

1. Model Hub (模型超市)

  • 100+ 开源模型一键调用
  • 支持:LLaMA, Mistral, Qwen, Code LLaMA, Phi等
  • 模型对比工具:延迟、成本、质量三维对比

2. 推理优化引擎

  • 自研编译器(vs vLLM等开源方案快30%)
  • GPU内存优化:支持更大context window
  • 动态批处理:吞吐量提升2-3倍

3. 模型微调平台

  • 一键微调任何开源基础模型
  • 支持LoRA、QLoRA等高效微调
  • 成本:$1-5 per 1M tokens(vs单独GPU训练$50+/小时)

4. 企业级部署

  • VPC私有部署:客户的AWS账户内运行
  • On-Premise:自建IDC安装
  • 数据隐私:zero-knowledge guarantee

五、定价策略深度分析

消费者 & 初创层级

层级价格特性深度含义
Free$0100个API调用/天,基础模型获客圈套,验证需求
Starter$10/月10M tokens/月对标个人开发者
Standard$100/月100M tokens/月小型应用
Professional$500/月无限tokens + 优先级SMB创业公司

企业级定价

层级价格特性适配场景
Enterprise$2K-10K/月私有部署、SLA、支持中大型企业
Custom议价on-premise、定制优化财富500强

非共识观察

  • 定价vs OpenAI:平均便宜50-70%
  • 但不是”低端市场策略”,而是”成本结构优势”
    • Together:自建GPU(硬件成本摊薄)
    • OpenAI:租赁GPU + 追求高margin
  • 长期看,Together的定价维持在”成本+30%“,可持续

六、竞争格局

vs OpenAI API

维度TogetherOpenAI API赢家
推理成本$0.20-1/1M$3-15/1MTogether 5-15倍优势
模型选择100+3个Together 垄断
模型质量7-8分(Meta/Mistral)9-10分(GPT)OpenAI优
推理延迟<100ms200-500msTogether优
供应商锁定低(可随时切换)高(仅GPT)Together优
企业信任中(新公司)极高(已验证)OpenAI优

战略含义

  • Together赢的是”成本 + 选择权”
  • OpenAI赢的是”能力 + 信任”
  • 两者是”不同维度的竞争”,不是”代替”关系

vs Anthropic

维度TogetherClaude API
定价成本驱动高端定价
模型数量100+3个
推理质量中等(开源)最高(专研)
应用方向通用企业安全/研究

战略含义:Claude API客户追求”最高质量”,Together客户追求”最好的性价比”,完全是不同客户群体。

vs AWS Bedrock

维度TogetherBedrock
厂商组合生态开放AWS独占
模型选择100+ 开源20+ 来自多家
锁定程度零(API即可)高(AWS生态)
企业级标准极强(IAM集成)
推理成本最低中等

战略含义:已在AWS的企业选Bedrock(生态一致性),多云策略的企业选Together(灵活性)。


七、Mars 视角

观点1:开源模型的”推理成本”才是真正的竞争点

现象:开源模型(LLaMA)性能接近GPT-3.5,但为何应用少?

本质:不是质量问题,而是”部署成本”问题

  • 自建推理:需要招infrastructure engineer,成本$200K/年+
  • 部署延迟:自建往往200-300ms,用户体验差
  • Together:解决了”推理成本”和”延迟”这两个hidden cost

创业启示

  • 如果你的应用基于开源模型,把钱花在”推理加速”上比”模型训练”更ROI
  • Together不是在做”GPU出租”,而是在做”推理优化”——这是高利润、低竞争的赛道
  • 反过来想:如果你能把推理成本降低50%,就能在应用层获得10倍的成本优势

观点2:开源模型的”多样化”是长期驱动力

现象:LLaMA之后,还有Mistral/Qwen/Phi等持续涌现

本质

  • 训练成本下降(A100H100B200) → 更多人能训练开源模型
  • 学术、企业、社区都在做基础模型研究
  • 5年后可能有500+个可用的开源模型

创业启示

  • Together的”模型超市”模式,会随着开源模型数量增加而增强
  • 这不是”周期性业务”,而是”越来越强”的业务
  • 长期看,Together比OpenAI更”防守可持续”(OpenAI依赖单个模型领先)

观点3:企业级采购正在从”模型”向”基础设施”倾斜

现象:财务部关心的是”总成本”,不是”用的哪个模型”

本质

  • 开源模型性能够用 → 企业无需为”模型领先性”付费
  • 推理基础设施的成本 > 模型本身的价格
  • Together抓住了这个转折点

创业启示

  • B2B AI赛道,“基础设施”的利润率会逐年上升
  • 应用层(“AI for X”)会变成低利润的”面包房”,而基础设施层是”面粉厂”
  • 长期看,赚基础设施的钱比赚应用的钱更稳定

观点4:模型微调成为新的高利润阵地

现象:Together推出微调服务,成为核心增长驱动

本质

  • 通用模型质量平价后,差异化来自”领域特化”
  • 微调成本:$1-5/1M tokens
  • 自建微调成本:$50+/小时(GPU+人力)
  • Together的微调是”10-50倍成本优势”

创业启示

  • 如果你有”特定领域的数据”(法律合同、医学病历、代码库),可以基于开源模型微调
  • 微调后的模型可以比通用模型快30-50%,质量提升20-30%
  • 这给了”vertical AI”创业者一条新的路:数据+微调+Together托管 = 低成本竞争力

观点5:供应商选择权的价值被严重低估

现象:客户能在100个模型间自由切换

本质

  • 这种”选择权”会让开源模型生态更健康(质量竞争激烈)
  • Together从中获得”流量”和”数据”
  • 长期看,这种”中立市场”的位置比”模型所有者”更稳健

创业启示

  • 如果能成为”市场基础设施”而非”参与者”,风险更低
  • Google之所以强是因为控制了”搜索入口”,不是因为Google做的产品最好
  • Together有可能成为”开源模型生态的Google”

八、关键风险与机遇

主要风险

1. OpenAI降价压力

  • 如果OpenAI降价到$1/1M tokens,Together的成本优势削弱
  • 但Together有”模型选择权”的其他优势补偿

2. 自家基础设施成本压力

  • GPU成本仍在涨(H100/B200短缺)
  • 需要持续优化推理效率来维持利润

3. 企业级销售难度

  • 企业选择有”惯性”(already on Bedrock/OpenAI)
  • 需要专属销售团队(成本高)

4. 技术追赶

  • vLLM等开源推理框架持续进步
  • Together的”自研编译器”优势可能被缩小

主要机遇

1. 模型微调市场爆发

  • 估计5年内微调市场从$1B→$10B
  • Together位置最优(成本、易用性)

2. 企业私有部署需求

  • 金融/医疗/政府对隐私需求增加
  • Together的VPC/on-premise方案位置独特

3. 国际扩展

  • Qwen等中文模型的需求还未被满足
  • Together支持多语言开源模型,国际扩展余地大

4. 生态整合

  • 与Hugging Face、Meta等深度合作机会
  • 可能被并购(AWS/Google/Anthropic都有动力)

九、时间线

时间事件影响来源
2022年7月Together AI成立抓住开源模型机会窗口官网
2023年2月Meta开源LLaMA市场机遇确立Meta Blog
2023年3月Together支持LLaMA快速响应市场公告
2023年9月Series A融资$20M首轮验证TechCrunch
2023年10月Llama 2企业版发布Market TAM扩大Meta官方
2024年1月Qwen系列开源国际模型支持阿里开源
2024年5月Series B融资$60M估值$500M+确立Crunchbase
2024年10月推出模型微调服务产品线扩展产品发布
2025年Q1VPC私有部署上线企业级进展内部跟踪
2025年Q3日活API调用50K+规模确认内部数据
2026年Q1预期客户1500+企业持续增长预期

十、未来路线图 (已宣布 + 预期)

P0(最优先)

  • 模型微调成本进一步下降(目标$0.5/1M tokens)
  • 企业私有部署销售加速(目标$10M ARR)
  • 国际模型支持扩展(中文、日语、韩语优化)
  • 推理延迟优化到<50ms(v2编译器)

P1(重要)

  • 推出Model Evaluation工具(帮助客户选模型)
  • RAG/向量搜索更深度集成
  • 多模态模型支持(Vision-Language)
  • Function Calling标准化

P2(优化)

  • 自有开源模型训练(与Meta合作?)
  • 推理成本目标$0.1/1M tokens
  • 国内镜像站(满足合规)

十一、相关案例:基础设施”超市化”的历史规律

案例1:AWS S3 → 存储民主化

  • 背景:企业存储成本高、技术复杂
  • AWS做法:标准化API + 按量计费
  • 结果:$80B年收入(云计算一半以上)
  • 启示:Together做的是”推理版的S3”

案例2:Stripe → 支付民主化

  • 背景:支付集成复杂、成本高
  • Stripe做法:统一API支持多种支付方式
  • 结果:估值$95B(全球支付入口)
  • 启示:Together的”模型超市”与Stripe的”支付超市”类似

案例3:Hugging Face → 模型民主化

  • 背景:开源模型散落各地,难以使用
  • HF做法:Model Hub集中,一键调用
  • 结果:估值$40B, 与Together深度合作
  • 启示:HF做的是”模型列车站”,Together做的是”模型列车运力”

Together的独特性

HF(模型列车站) + Together(列车运力) + 开源社区(列车制造) = 完整的开源模型生态


十二、参考来源

官方渠道

融资 & 新闻

产品 & 基准

竞争分析

市场背景


十三、更新日志

版本更新内容日期
v4.0完整产品卡片,包含融资/竞争/战略/路线图/Mars视角2026-03-19
v3.0(历史版本)
v2.0(历史版本)
v1.0(历史版本)

调研者视角:AI基础设施投资者、应用层创业者、推理优化工程师 适用场景:竞品分析、投资决策、技术选型、成本优化 下一次更新:2026年Q2 (跟踪Series C融资进展、企业级渗透率、模型微调GMV)

本卡片遵循”距钱距离假说”、“系统设计优于个体努力”的分析框架,聚焦基础设施层的商业本质。

关联打法

看完后推荐


网络导航