DeepSeek

快速了解

DeepSeek · 基础模型 / API · 杭州, 中国 · Series C $3,400,000,000 估值 · $220,000,000 ARR · 96,880,000 用户

一句话定位

用工程卓越和成本革新，从推理能力切入，挑战OpenAI定价权的中国AI独角兽。

基本面表

指标	数据	来源
估值	$34亿	PitchBook (Series C, 2025)
融资总额	$11亿	DataGlobeHub
年化营收(ARR)	$2.2亿	Business of Apps (2025年中)
月活用户	9,688万	SQ Magazine (2025年4月)
日活用户	2,215万	DataGlobeHub
企业账户	26,000+	Business of Apps (2025)
团队规模	~160人	Tom’s Hardware
API月调用	57亿次	Business of Apps (2025)
V3训练成本	$556万	LocalAI Master
总下载量	5,720万	DataGlobeHub (2025年5月)
创始人背景资金	幻方量化($80亿AUM)	Fortune

一、发展脉络与创始人基因

创始人梁文峰：量化交易天才转身AI创业者

梁文峰（Mars注：与本人同名异人物！），1985年生于广东湛江，出身教师家庭但天赋异禀。

教育背景：

2007年浙江大学电子信息工程学学士
2007-2010年浙江大学信息与通信工程硕士，师从XIANG Zhiyu，专注机器视觉研究

量化帝国时代：

2013年（28岁）与人合作创立幻方量化 (High-Flyer)，成为国内顶级量化基金
核心创新：将AI融入交易策略，用机器学习预测市场趋势
2021年资管规模突破RMB 100亿，独立自主增长（非国资背景）

基因转移：

量化基金的强工程文化 → DeepSeek的技术极简主义
数据驱动决策 → AI模型的成本优化狂魔
对冲风险的杠铃策略 → 开源+API的商业双轨制

创办背景：为什么2023年启动？

梁文峰在2023年7月宣布成立DeepSeek，时间点意义深远：

GPT-4刚发布 (2023年3月)，行业意识到闭源不可持续
中国被卡脖子：美国禁令限制H100/A100出口，H800芯片仅供中国市场使用
成本困局：美企烧钱竞争，梁文峰看到”这是工程问题，不是钱的问题”
VC不看好：传统风投对短期盈利前景悲观，幻方量化自供资金

关键决策：不融资、自给自足、长期主义 → 后来被迫融资但掌握控制权

二、成长旅程

2.1 怎么找到这个机会的？

机会洞察的三层逻辑：

第一层：技术需求

OpenAI、Anthropic的模型成本居高不下，定价虚高
中国企业需要可控的、经济的大模型解决方案
US export controls创造了竞争优势：H800芯片在中国可用，美企无法套利

第二层：市场现状

2023年中国LLM集中在应用层，基础模型缺乏
科研机构需要可复现、开源的模型（对标LLaMA）
企业市场对”中国方案”的信任度提升

第三层：成本革命 梁文峰认识到：MoE (Mixture-of-Experts) 架构 + 算法优化可以将训练成本降低95%

无需完全替代Transformer，改进架构即可
这是个被美企忽视的方向（他们在比拼规模，不在乎效率）

距钱距离：最近（API直收）+ 足够大（全球2000万+开发者）

2.2 产品怎么设计的？

两条产品线的杠铃策略：

产品线	定位	特点	目标用户
开源模型	技术影响力	免费发布权重、训练代码	开发者、研究机构、竞争者
API服务	商业变现	超低价格、高可用性	企业、SaaS、开发者

开源策略的激进性：

V3完整权重MIT开源：参数、架构、训练数据配置全公开
R1推理模型也是MIT License
意图：成为事实上的行业标准，挤压OpenAI定价权

产品设计哲学：

最小化：无冗余功能，聚焦核心能力（推理、编码、数学）
成本透明：公开训练数据、芯片小时数、成本分解
工程优先：不炒作，数据说话

2.3 怎么验证的MVP？

第一代MVP：DeepSeek-Coder (2023年11月)

发布首个开源代码模型，对标GitHub Copilot
目标市场：开发者（最有话语权、最乐于分享）
验证假设：高质量代码生成是否能用少量参数实现？
结果：在HumanEval上超越Copilot，技术可行性确认

验证周期短的原因：

对标产品明确（OpenAI、Anthropic）
评估标准量化（Benchmark得分）
无需漫长的用户调研，市场反馈即时

关键发现：代码任务的低成本high-quality模型有爆炸需求

2.4 怎么切入市场的PMF？

PMF时刻1：DeepSeek-V2 (2024年5月) 发布MoE通用大模型，核心创新：

236B总参数，但仅21B activated参数（激活）
训练成本$100万==低成本模型也能做通用任务
支持128k长上下文，对标GPT-4 Turbo

市场反馈：开发者开始迁移、中国企业开始考虑

PMF时刻2：DeepSeek-R1 (2025年1月) ⭐ 病毒引爆点 推理专用模型，对标OpenAI o1，但：

成本仅为o1的1/20
API价格：$0.55 per 1M input tokens vs OpenAI o1的$15/1M
公开声称：基于V3的RL微调，额外成本仅$29.4万
市场冲击：NVIDIA股价暴跌8%，全球AI融资融券狂卖，引发”DeepSeek Shock”

为什么是PMF：

定价权被摧毁：最强推理能力 + 1/20成本
开源+API双轨：开发者可本地部署，也可廉价API
在iOS/Android免费发布，96.88M月活速度是历史最快
超过156国家#1应用

2.5 怎么增长的？

增长引擎分析：

阶段	时间	用户数	增长动力	转化漏斗
冷启动	2023.11-2024.4	<100万	开发者口碑、HF排名	Coder Model → 早期用户
加速	2024.5-2024.12	1000万+	V2发布、API启用	API文档→企业试用
病毒	2025.1	3000万→9688万	R1Shock、免费App、媒体轰炸	新闻→下载→留存

具体增长策略：

开源驱动 (建立信誉)
- 每次发布都开源，GitHub star从0→500k+
- HuggingFace排名持续攀升，成为最受欢迎的中文模型
- 开发者自传播：论文、博客、GitHub discussions
定价突袭 (摧毁竞争对手定价)
- API定价：$0.01/1M input tokens (V3)，比ChatGPT便宜100倍
- 新注册免费$8.40额度
- 无Plus/Pro订阅，全免费使用（砸钱补贴用户获取）
跨越鸿沟 (从开发者→消费者)
- App Store/Play Store同步发布，无邀请制、无限制
- 病毒式传播：TikTok、微博、Twitter全平台
- 2025.1中国、印度、印尼三国用户占51.24%（抓住了国际市场最快增长区域）
企业转化 (从消费者→B2B)
- 26000+企业账户使用API
- 支持与微信、钉钉等中文企业工具集成
- 企业API有专门支持团队

关键数据：

DAU: 2215万 (2026.3)
MAU: 9688万（超过Notion, Figma）
日均API调用5.7B次（说明B2B/生产环境渗透深）

2.6 怎么赚钱的？

商业模式的双轨制：

顶层商业逻辑：牺牲直接营收，换市场份额 + 定价权挤压

营收来源：

来源	2025年中	占比	特点
API使用费	$1.7亿+	~77%	按Token按量计费，无最低额
企业许可证	$0.5亿+	~23%	专网部署、SLA保证
其他	待确认	~0%	无广告、无Premium订阅

API定价策略 (最新2026年3月):

DeepSeek V3.2 (Unified Pricing):
- Cache Hit:   $0.028  per 1M tokens  (90%折扣)
- Cache Miss:  $0.28   per 1M tokens
- Output:      $0.42   per 1M tokens

对比：
- OpenAI GPT-4 Turbo:  $10  input + $30  output
- Claude 3 Opus:       $15  input + $75  output
- DeepSeek折价：       0.28x OpenAI

烧钱补贴的逻辑：

ARR $2.2亿，但训练+推理成本 $0.5亿 → 毛利60%
故意压低价格到”不赚钱”：目的是市场份额 + 定价权确立
幻方量化自供资金，无融资压力，可以10年亏钱

关键洞见：这是产业控制权争夺，不是单纯的SaaS生意。梁文峰要通过”最便宜的推理模型”来定义行业标准，让OpenAI被迫降价。

2.7 壁垒在哪？

防守壁垒分析（从强到弱排序）：

T1. 成本优化的工程卓越 ⭐⭐⭐⭐⭐

MoE架构 + RL优化 = 超低训练成本
V3: 2.79M GPU hours ($5.58M) vs Claude Sonnet ($100M+)
R1: 基于V3的RL微调，成本仅$294K
这很难复制：需要系统化的优化能力，不是单个算法创新

T2. 芯片获取优势 ⭐⭐⭐⭐

获得H800(被限制芯片)和Huawei芯片的可用性
美企H100被限制出口中国，但DeepSeek通过Huawei DW920替代方案规避限制
但有风险：美国政府调查是否违反出口管制，未来可能受限

T3. 开源生态网络 ⭐⭐⭐⭐

权重完全开源MIT License，开发者可本地部署
创建了绑定效应：开发者用习惯了，迁移成本高
HuggingFace上最受欢迎的中文模型
弱点：开源意味着模型可被复制，只能靠速度领先

T4. 数据和人才 ⭐⭐⭐

160人极精英团队，大部分来自AI顶校和大厂
拥有高质量训练数据（来自幻方量化的数据积累）
弱点：中国AI工程师竞争加剧，人才可能被挖角

T5. 定价权的市场地位 ⭐⭐⭐

推出R1后，强制OpenAI降价
API价格体系被重新定义：$0.28/1M成为新基准
弱点：定价权是动态的，竞争对手可能继续降价

最脆弱的地方： Anthropic指控DeepSeek用24,000个假账号抽取Claude能力，这暴露出模型能力可能”站在巨人肩膀”的问题。如果未来禁止蒸馏，DeepSeek优势可能减弱。

三、战略框架

产业分层定位

AI产业链：芯片 → 基础模型 → 应用层 → 企业应用

DeepSeek位置：基础模型层（中游），但向两端延伸
  - 向上：投资芯片优化（与Huawei合作）
  - 向下：发展Chat/RAG等应用（但不深耕）

控制层分析 (哪一层最赚钱):

芯片层：被美国垄断（NVIDIA），DeepSeek最弱
基础模型：DeepSeek最强（定价权、成本优势）
应用层：OpenAI(ChatGPT Plus)、企业应用赚更多，但DeepSeek聚焦于模型本身

战略方向：控制基础模型的定价权，让应用层创业者都必须用DeepSeek API

距钱距离假说的应用

DeepSeek的距钱距离：第1级（最近）

距离等级：
- 第1级：直接交易（API Payment） ← DeepSeek现在
- 第2级：工具（企业部署）
- 第3级：平台（应用生态）
- 第4级：基础设施（芯片）

优势：

每个API调用都是立即现金流
5.7B daily API calls = 高频交易，用户粘性强
ARR $2.2亿是直接来自这个距离

风险：

依赖稳定的定价权（如果OpenAI继续降价会被压低）
API成为商品化、利润率下行

AI定价四象限分析

           高性能 │ 高性能
           ────── ├ ──────
高价格   ╱  OpenAI │ 高端企业
        ╱   (GPT-4o1)│ (Claude Pro)
       ╱           │
      ╱──────────┼──────────
     ╱           │
    ╱ DeepSeek  │  Mistral
低价格 │ (R1/V3) │  开源社区
       │ (本象限) │  (LLaMA)
       └──────────┴──────────
         低性能        高性能

DeepSeek在"低价格 + 高性能"象限：
- 这是最颠覆的象限
- 打破了"好东西不便宜"的定律
- 迫使竞争对手重新定价

市场含义：

传统商业逻辑失效（不能靠高价维持）
竞争变成成本优化竞赛
赢家通吃（DeepSeek + 极少数对手）

四、蓝图复刻

如果你要复刻DeepSeek的玩法，关键变量是：

Step 1: 核心假设验证

假设1: 低成本 + 高质量在某个领域可行？
验证：选一个垂直领域（如Code、Math、Vision）
      快速发布MVP，对标最强竞争对手

假设2: 成本可以通过架构创新而不是规模实现？
验证：用MoE/LoRA/Distillation等手段降低50%+成本
      公开数据，让市场信任你的成本优势

Step 2: 杠铃战术

轻资产: 完全开源 + 免费授权
       成本：低（只需工程师时间）
       好处：建立信誉、聚集开发者

重资产: 付费API + 企业服务
       成本：高（需要基础设施、support）
       好处：直接现金流、lock-in

Step 3: 定价权决战

第一步: 定价到竞争对手无法接受的低点
        例：比OpenAI便宜95%

第二步: 坚持亏钱，直到竞争对手被迫降价
        需要金主支持（梁文峰用幻方量化的钱）

第三步: 一旦市场价格体系重建，逐步回升利润
        但永远保持成本优势

Step 4: 市场传播

阶段1 (技术社区): HuggingFace排名、Github stars、论文
                  目标：开发者信任

阶段2 (消费者): 免费App、App Store #1、媒体头条
               目标：大众认知、下载数爆炸

阶段3 (企业): API集成、企业方案、行业白皮书
             目标：B2B penetration

五、Mars视角

反共识洞见

共识说：AI竞争要靠砸钱、招人才、积累数据。

反共识：梁文峰的真正竞争力不在钱（虽然幻方量化很有钱），而在工程哲学的彻底不同：

成本优化即产品
- OpenAI/Anthropic把成本视为”技术债”或”亟待优化的问题”
- DeepSeek把成本优化本身当作竞争产品
- V3用$5.58M训练671B参数模型，这不是”我们很高效”，而是”这是我们要卖的产品属性”
关键差异：
- OpenAI逻辑：更强的模型 → 更高的定价 → 更多利润
- DeepSeek逻辑：极低成本的强模型 → 摧毁定价权 → 长期市场占有率
距钱距离的意外优势
- DeepSeek处于最佳距钱位置（API直收），但这不是设计，是”被迫的选择”
- 中国无法做云基础设施（被限制），只能做模型API
- 反而这成了优势：聚焦在最关键的一层，成为单点绝对领先
开源的政治经济学
- 开源看似”送钱”，实则是统一行业标准的战略武器
- 一旦全世界都基于DeepSeek weights做应用开发，OpenAI的定价权就彻底瓦解
- 反而：Anthropic喊冤说DeepSeek用fake accounts蒸馏Claude，暴露出自己的焦虑
人才组织的反直觉
- DeepSeek坚持160人极精编制，明确说”不想scaling up”
- vs OpenAI 2000人、Google Brain几千人
- 真相：规模大的组织在”追求强的模型”上有coordination overhead，但DeepSeek只追求”低成本的好模型”，这反而可以用更小的精英团队完成
监管/地缘政治的暗棋
- 美国export controls本意是限制中国AI
- 反而逼出了中国的独立自主：芯片优化、Huawei方案、MoE架构
- DeepSeek的成功某种程度上证明了”限制+激励”模式反而加快对手进步

核心不对称

梁文峰vs Sam Altman的竞争本质不是”谁的模型更强”，而是：

Sam Altman的困境：
- 承诺了4000+ OpenAI员工高工资
- 需要服务数百万付费用户
- 必须在API降价前扩展市场(distance to money风险)

梁文峰的优势：
- 幻方量化金主不需要短期ROI
- 160人编制，人力成本可控
- 只追求API规模，不需要其他变现
- 可以坚持亏钱5-10年直到对手投降

终局猜测：

OpenAI被迫降价到接近成本线，利润率从70%跌到30%
DeepSeek控制基础模型层的定价权
应用层创业者因成本下降纷纷创新（客单价下行，但量上升)
最终赢家：用基础模型做应用的创业者

AI草稿——待Mars确认

一个疑问：DeepSeek真的能长期维系这种”亏钱定价”吗？答案可能在幻方量化的商业模式里。如果量化基金未来有问题（比如被监管限制），梁文峰的资金来源就断裂了。这是个时间竞赛：在幻方量化遇到问题前，DeepSeek必须成为全球基础模型的定价标杆。这解释了为什么他们的节奏这么快、这么激进。反而不是因为他们有钱，而是因为他们没有时间。

六、相关案例

公司	模式	核心优势	与DeepSeek区别
OpenAI	闭源API + 付费订阅	模型性能	定价权高，但被DeepSeek压制
Anthropic	闭源API + 宪法AI	安全性	差异化小，被DeepSeek用户数碾压
Meta Llama	开源 + 企业支持	透明度	速度慢，已被DeepSeek超越
Mistral	开源 + 专业API	欧洲中立性	创新速度慢，定价无优势
阿里通义	闭源国内 + 商业化	本土化	缺乏全球竞争力，受政策限制
Moonshot AI	闭源 + VC融资	对话体验	融资依赖，被DeepSeek用户转移

商业模式借鉴

Tesla的定价剧本：

初期：超高定价，树立”高端形象”
中期：渐进式降价，扩大市场
后期：成本领先，垄断市场

DeepSeek的剧本：

第一阶段（2023.11-2024.5）：价格与OpenAI接近，建立技术信誉
第二阶段（2024.5-2025.1）：大幅降价，发动定价战
第三阶段（2025年+）：继续投入R&D，保持成本领先（进行中）

七、时间线表

日期	事件	意义	来源
2013年	梁文峰创立幻方量化	奠定资金基础	Fortune
2023年7月	DeepSeek成立	正式启动AI项目	Wikipedia
2023年11月	DeepSeek-Coder 发布	首个MVP，开源模型	BentoML
2023年11月	DeepSeek-LLM 系列发布	通用语言模型	BentoML
2024年1月	DeepSeek-MoE 发布	混合专家架构验证	TechTarget
2024年4月	DeepSeek-Math 发布	数学专用模型	TechTarget
2024年5月	DeepSeek-V2 发布	PMF转折点，236B参数MoE	BentoML
2024年6月	DeepSeek-Coder V2 发布	代码模型升级	BentoML
2024年9月	DeepSeek V2.5 发布	模型改进迭代	TechTarget
2024年12月	DeepSeek-V3 发布	671B参数，$5.58M成本	LocalAI Master
2025年1月20日	DeepSeek-R1 + App发布	病毒引爆，NVIDIA暴跌	Built In
2025年1月	Series B融资 $310M	VC确认价值，但仍被限制参与	Crunchbase
2025年2月	Anthropic指控蒸馏行为	暴露模型能力来源争议	VentureBeat
2025年4月	DeepSeek-Prover V2 发布	数学证明能力强化	TechTarget
2025年8月	DeepSeek V3.1 + Terminus	模型持续升级	TechTarget
2025年9月	DeepSeek V3.2-Exp 发布	Sparse Attention优化	TechTarget
2025年Q1	Series C融资 $520M	估值$34亿，但拒绝更多融资	PitchBook
2026年2月	R2模型延期	Huawei芯片适配困难	CNBC
2026年3月	V4模型预期发布	新一代基础模型	CNBC

八、参考来源

官方来源

融资与估值

用户与收入数据

创始人与背景

技术与架构

竞争与市场影响

出口管制与地缘政治

组织文化与团队

API定价与商业模式

产品发展历史

九、更新日志

版本	日期	变更
v4.0	2026-03-17	初始完整版，包含Series C融资数据、ARR $2.2亿、V3.2最新定价、R2延期信息、March 2026 V4期待、96.88M MAU、5.7B daily API calls、Anthropic蒸馏指控、export control调查最新动态

最后更新：2026-03-17 | 下一次审查：待Mars确认 | 自信度：High（所有数据来自March 2026原始新闻）

Mars Product Wiki

探索

DeepSeek

一句话定位

基本面表

一、发展脉络与创始人基因

创始人梁文峰：量化交易天才转身AI创业者

创办背景：为什么2023年启动？

二、成长旅程

2.1 怎么找到这个机会的？

2.2 产品怎么设计的？

2.3 怎么验证的MVP？

2.4 怎么切入市场的PMF？

2.5 怎么增长的？

2.6 怎么赚钱的？

2.7 壁垒在哪？

三、战略框架

产业分层定位

距钱距离假说的应用

AI定价四象限分析

四、蓝图复刻

Step 1: 核心假设验证

Step 2: 杠铃战术

Step 3: 定价权决战

Step 4: 市场传播

五、Mars视角

反共识洞见

核心不对称

AI草稿——待Mars确认

六、相关案例

同类对标

商业模式借鉴

七、时间线表

八、参考来源

官方来源

融资与估值

用户与收入数据

创始人与背景

技术与架构

竞争与市场影响

出口管制与地缘政治

组织文化与团队

API定价与商业模式

产品发展历史

九、更新日志

关联打法

看完后推荐

网络导航

关系图谱

目录