梁文锋（Liang Wenfeng）

这个人最值得记住的核心逻辑：用量化对冲的思维方式（稀疏性+动态路由）看待大模型架构设计，反而用别人花10亿的成本干成了$5.6M的活。本质上，他不是在堆算力，而是在优化人类对计算资源的利用效率。

个人背景

出身与成长

梁文锋，1985年出生于广东省湛江市吴川，父母均为小学教师。年少时展现卓越的数学天赋——初中时别人还在研究一元二次方程，他已自学完高中数学、开始接触大学数学内容。2002年，以全校第一成绩考入浙江大学信息与电子工程系，2007年攻读浙江大学信息与通信工程专业硕士，主攻机器视觉研究。

浙大时代的量化启蒙

这个阶段很关键。梁文锋学生时代就开始编写人工智能算法进行量化选股，完全是自我驱动的好奇心——那时（2007年左右）AI选股还是小众话题。这段经历为他后来的量化对冲生涯奠定了基础。

背景参考

幻方科技时代（2008-2023）

创业初心

2008年环球金融危机期间，梁文锋与浙大同学徐进、陆政哲组建团队，探索通过机器学习进行量化交易。这是他第一次将 AI 应用于实战商业场景。

2015年，梁文锋正式与校友创立杭州幻方科技有限公司（High-Flyer），定位为”世界顶级的量化对冲基金”。作为幻方的联合创始人和技术负责人，他带领团队建设了两套堪称业界顶尖的超算系统：

萤火一号（2020年）：AI超级计算机正式投入运作
萤火二号（2021年）：配备1万张A100 GPU芯片，投入十亿级别资金

到2023年，幻方量化已管理约80亿美元资产，成为中国最大的量化基金之一，年收益率持续稳定。

量化思维对DeepSeek的影响

关键洞察：量化对冲的本质就是用数学模型和统计学找市场的低效点，用更少的资本赚更多的钱。梁文锋将这套思维方式完全迁移到了大模型架构设计——别人堆参数量，他优化激活稀疏性；别人烧GPU，他设计混合专家（MoE）动态路由。

他看透了一个本质的点：OpenAI的scaling law（参数量越大越聪明）不是自然规律，而是”他们有的是钱”导致的工程选择。如果我们限制计算预算约束，应该怎么做模型架构设计？

参考资料

DeepSeek创办与「技术理想主义者」的信念

为什么选择做AGI而非应用变现

2023年5月，梁文锋宣布进军通用人工智能领域。2023年7月，正式创办杭州深度求索人工智能基础技术研究有限公司（DeepSeek）。

在多次采访中，梁文锋强调这个决定完全不是商业驱动的。他说过一句经典的话：“如果一定要（为创办DeepSeek）找一个商业上的理由，它可能是找不到的，因为划不来。“那为什么做？因为他们能做，他们是最合适的人选，他们想做。

采访原文显示，梁文锋的驱动力来自三个方面：

科学好奇心：远处的猜想——理解人类智能的本质可能就是语言，人的思维可能就是一个语言的过程。在语言大模型上可能诞生出类人的AGI。
信念驱动：创新首先是一种信念。中国在前沿研究上曾经信心不足，但创新需要信心，而年轻人往往更具信心。
历史使命感：中国AI不可能永远处在跟随的位置，真实的gap是原创和模仿之差，“如果这个不改变，中国永远只能是追随者”。

采访链接

关于模型效率与成本优化

MoE架构的极限优化

DeepSeek 没有用 Dense（全参数）模型，而是用 Mixture of Experts（混合专家）架构。这个架构早就存在（Noam Shazeer的Switch Transformer），但梁文锋的贡献在于：

激活稀疏性优化到97%+：而不是传统的50%激活率
多头潜在注意力（MLA）创新：将显存占用从标准MHA的100%降低到5%-13%，这是算法和硬件协同优化的结果
动态路由机制：Engram模块负责海量知识点的存储与快速检索，通过动态路由只激活部分参数，大幅降低计算成本

在接受采访时，梁文锋强调这些优化的核心不是”我们发明了新东西”，而是”我们对每个环节的理解更深，优化的粒度更细”。

$5.6M训练成本的奇迹

数字快照（DeepSeek-R1，2025年1月）：

GPU配置：2048块H800（价格约$2000/块，但成本计算中已是折扣价）
训练时长：2.8M GPU-hours
总成本：$5.6M
对标目标：OpenAI o1推理能力

梁文锋在多个场合被问到这个数字时强调：这不只是”成本优化”，这是用0.056%的成本达成竞争级别的效果。对标GPT-4的训练成本可能是10亿级别。这背后代表的是对计算资源的根本性理解差异。

有意思的是，梁文锋主动回应了硅谷的质疑。他说：这个成本数字完全可以验证——我们公开了所有技术细节和论文，用H800的成本是透明的，有质疑的可以自己复算。这种透明度本身就是开源战略的一部分。

成本详情

关于推理与强化学习的突破

DeepSeek-R1在推理能力上的突破不是单纯的模型规模，而是通过大规模强化学习重新思考推理的本质。梁文锋团队发现：

推理不需要预训练时期就教会，而是通过RL过程中自发涌现出来的能力
这打破了传统认知中”预训练数据决定下限”的假设
R1的成功证明了在约束条件下（芯片限制），你可以用其他维度的优化来补偿参数量劣势

论文细节

关于开源战略与商业逻辑

为什么开源而非闭源

梁文锋在多个采访中都阐述过这个逻辑：

开源不是被迫的，而是主动的商业选择。 他希望”更多人，哪怕一个小APP都可以低成本用上大模型，而不是技术只掌握在一部分人和公司手中，形成垄断”。

换句话说，他倒逼整个行业进入”普惠AI”时代。这与OpenAI最初的非营利理念相似，但梁文锋走得更远——完整开源权重 + 完整技术报告 + 发布蒸馏的6个小模型。

有评论将梁文锋比作”AI界的黄峥”（拼多多创始人），因为都是用极致的成本优化+开放生态来打破行业垄断。

开源对中国AI生态的意义

梁文锋在接受采访时强调：“英伟达的领先，不只是一个公司的努力，而是整个西方技术社区和产业共同努力的结果。中国AI的发展，同样需要这样的生态。”

他认为：

不能所有人都去复刻OpenAI，要有人去创新
创新需要高密度人才的组织方式
开源是加速生态成熟最快的方式

观点汇总

关于中国AI生态与国际竞争

对中美AI差距的本质认识

在总理座谈会上（2025年1月20日）和多个采访中，梁文锋反复强调一个核心观点：

“真实的gap是原创和模仿之差。如果这个不改变，中国永远只能是追随者。”

他进一步解释：

过去30年，中国企业习惯了”别人做技术创新，我们拿过来做应用变现”
这个习惯很赚钱，但也造成了路径依赖
硅谷创新强，不只是因为他们聪明，而是他们敢于尝试，有失败的容错度
中国最好的水平和国外最好的相比，模型结构和训练动力学上可能有一倍的差距，“我们要做的正是不停地去缩小这些差距”

对OpenAI与Anthropic的看法

梁文锋没有直接批评竞争对手，但他的战略选择隐含了对他们模式的质疑：

OpenAI最初以非营利方式运作，后来商业化，形成了事实上的技术垄断
Anthropic走的也是相似的闭源+商业路线
梁文锋反而选择了相反的方向：开源+技术普惠+生态建设

有硅谷观察者评价说：梁文锋”倒逼OpenAI重新Open”——通过技术突破+成本颠覆+开源策略，改写了整个行业的竞争维度。

采访细节

关于「高密度人才」组织

梁文锋认为，中国创新缺的绝对不是资本，而是两个东西：

信心：相信自己可以做出原创性的创新
如何组织高密度的人才来实现创新

他的做法是：

极端精英化 + 自下而上的协作

DeepSeek团队只有139人（其中约130多名工程师和研究人员）
对比：OpenAI有1200名研究人员，Anthropic有500多名
选人标准：顶级学术竞赛获奖经历，80%团队成员有奖项背景
很多都是应届毕业生、博四博五、毕业才几年的年轻人

为什么年轻人？梁文锋说过：“创新需要信心，年轻人往往更具信心，他们还没有被规则和套路固化。”

深度分析

企业文化与管理哲学

「没有KPI」的三无政策

梁文锋在接受采访时披露了DeepSeek的考核体系：

没有KPI、没有固定团队、没有汇报关系。 战略按周迭代而不是按年制定。

为什么这样做？关键是：AI研发具有高度的不确定性。 如果通过KPI考核来衡量员工工作成果，会让员工倾向于选择保守、可预测的路径。但创新恰恰需要容错度、试错空间、失败的权利。

梁文锋强调：“创新往往不是被安排出来的，更不是KPI考核教出来的，而是源自自下而上的热爱与奇思。“

扁平化的自然分工

DeepSeek不采用前置分工，而是自然分工：

每个人都自带想法和研究方向
遇到问题时，人们自己就会拉人讨论、形成小组
当想法显示出潜力时，才自上而下调配资源
如果资源充足，员工对计算资源和训练集群的使用没有任何限制，无需审批

梁文锋本人不是”不干预”，而是”有效干预”：交给员工重要的事，不干预过程，让他自己想办法、自己发挥。这对应了他的一个核心观点：“系统设计>个体努力”——设计好激励系统，而不是靠管理层意志硬推。

价值观一致与文化的无形力量

关于企业文化，梁文锋有个有趣的观点：

“我们并没有一个成文的企业文化，因为所有成文的东西都会阻碍创新。” 更重要的是管理者的以身示范——遇到一件事，你如何做决策，那就成为了一种准则。

招人时确保价值观一致，然后通过企业文化来确保步调一致。这样高密度人才才能形成”创新场域”。

详细总结

关键洞察与思维框架

第一性原理：从底层重新审视每个假设

梁文锋在量化投资时代就养成了这个习惯。到了AI领域：

别人接受”scaling law决定了模型能力”，他问：这是必然还是经济约束导致的选择？
别人认为”大模型必须参数量大”，他问：那是因为大参数量本身优越，还是因为没想到更高效的架构？
别人相信”推理能力需要预训练教会”，他问：能否通过RL从零自发涌现？

这套思维方式直接导向了MoE、MLA、稀疏注意力、大规模强化学习等一系列创新。

「距钱距离」与商业直觉

梁文锋在总理座谈会上谈到AI赋能实体经济时，举了个例子：幻方与某汽车零部件厂商合作，通过AI视觉检测系统将产品缺陷率从0.8%降至0.1%，年节约成本2000多万元。

他认为这就是”距钱距离最近”的AI应用——直接对应财务报表的影响。而不是停留在概念阶段。

对DeepSeek本身，他的”距钱距离”策略是：技术→开源→生态→变现，而不是急功近利的直接商业化。

关键的不公平优势

梁文锋自己分析过为什么DeepSeek能做成：

量化思维基因：用稀疏性、动态优化、风险管理的思维看待模型架构
对数学模型的深度理解：不是”我会用Transformer”，而是”我理解Transformer每个组件为什么这样设计，怎么改进”
充足的资金与算力：幻方的支持让他们有长期研发的底气，不受融资和商业化压力
对约束条件下的创意思考：芯片受限的环境，反而激发了更创意的架构设计

分析来源

关键决策时刻

2025年1月20日：R1的”Sputnik时刻”

这不是随意选择的日期。梁文锋精准把握了时机：

时间选择：中国春节前夕，硅谷正在休假
技术成熟：R1已经反复验证，成本数字经得起推敲
市场冲击：单日Nvidia股价跌17%，$600B市值蒸发
信号意义：向全球宣布”GPU能力可能被高效算法推翻了”

这个时刻对应了当年苏联发射Sputnik卫星对美国的冲击——一个新的技术范式的出现，改变了整个行业的竞争格局。

2025年1月：参加总理座谈会

这个出现本身很罕见。梁文锋平时极度低调，很少接受采访。但在关系到国家AI战略的座谈会上，他主动发言了，提出了对政府工作的意见建议，重点是：

AI从”实验室阶段”转向”产业应用阶段”的政策支持
通过税收优惠、数据开放等方式，鼓励企业共建AI工业互联网平台
对青年科技创业的激励机制

官方新闻

媒体评价与国际反响

硅谷的反应

《华尔街日报》专约撰稿人Gregory Zuckerman在发现梁文锋曾为他的书《The Man Who Solved the Market》写过中文版序言后，在社交媒体上发出著名的呼喊：“梁文锋，快联系我！”

硅谷普遍震惊的原因是：梁文锋打破了关于AI进步的两个”共识”：

你需要巨额资本（数十亿美元）
你需要庞大的研发团队（千人规模）

梁文锋用$5.6M和139人证明了这两个假设都可以被颠覆。

中国媒体评价

36氪：发表了《AI战事正酣，都在等梁文锋》的深度报道，将他塑造为”中国AI的定海神针”
量子位：多次详细分析DeepSeek的技术突破，强调梁文锋”一如既往地强”的科研能力
澎湃新闻：将DeepSeek形容为”AI界的拼多多”，强调低成本+开源的颠覆性
Nature杂志：DeepSeek-R1论文登上Nature封面，梁文锋署名为通讯作者

一个有趣的细节

梁文锋因为太低调，Nature杂志的采访请求被他拒绝了。但他反而是通过开源代码、发表学术论文、接受中文媒体采访这三个渠道来”发声”——这本身就体现了他对”学术贡献>商业包装”的价值排序。

关于本质

梁文锋这个人的本质特征是什么？

技术理想主义者：不被短期商业诱惑所动，坚持长期的原创性创新追求
量化思维者：用数据、模型、优化的思维方式看待所有问题，包括组织管理
开源倡导者：反而坚定地相信开源生态的力量，而不是技术垄断
低调实干家：不擅长包装和宣传，靠产品和技术说话
第一代AI原住民：在AI还不流行时就开始研究AI（2007年的量化选股），天然具有信心和前沿感

他对中国AI最大的贡献可能不是单纯的技术突破，而是证明了一种新的可能性：用开源、用协作、用高效优化，你也可以对标全球最强的闭源技术公司。这改写了中国AI从业者对自己可能性的认知。

重要采访与文章列表

标题	媒体	日期	重点
DeepSeek创始人梁文锋的独家采访	新浪财经	2025.02	创业初心、价格战、团队管理
中国的AI不可能永远跟随，需要有人站到技术的前沿	新浪财经	2025.01	中美AI竞争、原创vs模仿
没有KPI、极度扁平、极致创新……DeepSeek创始人梁文锋60条思考	MBAChina	2025.02	管理哲学、创新观点
DeepSeek-R1持续震撼硅谷	量子位	2025.01	技术突破、行业冲击
梁文锋署名DeepSeek新论文：公开V3大模型降本方法	量子位	2025.05	MLA、MoE、FP8训练细节
量化巨头幻方创始人梁文锋参加总理座谈会并发言	澎湃新闻	2025.01	AI赋能实体经济、政策建议
梁文锋就是AI界的黄峥	新浪财经	2025.01	商业模式对标、生态思维
从梁文锋采访看AI创新与未来普通人机遇	CSDN	2025.02	创新信心、人才密度

对标人物

Yann LeCun（Meta）：学术理想主义 + 开源倡导者
Demis Hassabis（DeepMind）：追求AGI的科学家创业者
黄峥（拼多多）：极致成本优化 + 生态颠覆
徐进（幻方共同创始人）：量化投资的协作者

Mars Product Wiki

探索

梁文锋