梁文锋(Liang Wenfeng)
这个人最值得记住的核心逻辑:用量化对冲的思维方式(稀疏性+动态路由)看待大模型架构设计,反而用别人花10亿的成本干成了$5.6M的活。本质上,他不是在堆算力,而是在优化人类对计算资源的利用效率。
个人背景
出身与成长
梁文锋,1985年出生于广东省湛江市吴川,父母均为小学教师。年少时展现卓越的数学天赋——初中时别人还在研究一元二次方程,他已自学完高中数学、开始接触大学数学内容。2002年,以全校第一成绩考入浙江大学信息与电子工程系,2007年攻读浙江大学信息与通信工程专业硕士,主攻机器视觉研究。
浙大时代的量化启蒙
这个阶段很关键。梁文锋学生时代就开始编写人工智能算法进行量化选股,完全是自我驱动的好奇心——那时(2007年左右)AI选股还是小众话题。这段经历为他后来的量化对冲生涯奠定了基础。
幻方科技时代(2008-2023)
创业初心
2008年环球金融危机期间,梁文锋与浙大同学徐进、陆政哲组建团队,探索通过机器学习进行量化交易。这是他第一次将 AI 应用于实战商业场景。
2015年,梁文锋正式与校友创立杭州幻方科技有限公司(High-Flyer),定位为”世界顶级的量化对冲基金”。作为幻方的联合创始人和技术负责人,他带领团队建设了两套堪称业界顶尖的超算系统:
- 萤火一号(2020年):AI超级计算机正式投入运作
- 萤火二号(2021年):配备1万张A100 GPU芯片,投入十亿级别资金
到2023年,幻方量化已管理约80亿美元资产,成为中国最大的量化基金之一,年收益率持续稳定。
量化思维对DeepSeek的影响
关键洞察:量化对冲的本质就是用数学模型和统计学找市场的低效点,用更少的资本赚更多的钱。梁文锋将这套思维方式完全迁移到了大模型架构设计——别人堆参数量,他优化激活稀疏性;别人烧GPU,他设计混合专家(MoE)动态路由。
他看透了一个本质的点:OpenAI的scaling law(参数量越大越聪明)不是自然规律,而是”他们有的是钱”导致的工程选择。如果我们限制计算预算约束,应该怎么做模型架构设计?
DeepSeek创办与「技术理想主义者」的信念
为什么选择做AGI而非应用变现
2023年5月,梁文锋宣布进军通用人工智能领域。2023年7月,正式创办杭州深度求索人工智能基础技术研究有限公司(DeepSeek)。
在多次采访中,梁文锋强调这个决定完全不是商业驱动的。他说过一句经典的话:“如果一定要(为创办DeepSeek)找一个商业上的理由,它可能是找不到的,因为划不来。“那为什么做?因为他们能做,他们是最合适的人选,他们想做。
采访原文显示,梁文锋的驱动力来自三个方面:
- 科学好奇心:远处的猜想——理解人类智能的本质可能就是语言,人的思维可能就是一个语言的过程。在语言大模型上可能诞生出类人的AGI。
- 信念驱动:创新首先是一种信念。中国在前沿研究上曾经信心不足,但创新需要信心,而年轻人往往更具信心。
- 历史使命感:中国AI不可能永远处在跟随的位置,真实的gap是原创和模仿之差,“如果这个不改变,中国永远只能是追随者”。
关于模型效率与成本优化
MoE架构的极限优化
DeepSeek 没有用 Dense(全参数)模型,而是用 Mixture of Experts(混合专家)架构。这个架构早就存在(Noam Shazeer的Switch Transformer),但梁文锋的贡献在于:
- 激活稀疏性优化到97%+:而不是传统的50%激活率
- 多头潜在注意力(MLA)创新:将显存占用从标准MHA的100%降低到5%-13%,这是算法和硬件协同优化的结果
- 动态路由机制:Engram模块负责海量知识点的存储与快速检索,通过动态路由只激活部分参数,大幅降低计算成本
在接受采访时,梁文锋强调这些优化的核心不是”我们发明了新东西”,而是”我们对每个环节的理解更深,优化的粒度更细”。
$5.6M训练成本的奇迹
数字快照(DeepSeek-R1,2025年1月):
- GPU配置:2048块H800(价格约$2000/块,但成本计算中已是折扣价)
- 训练时长:2.8M GPU-hours
- 总成本:$5.6M
- 对标目标:OpenAI o1推理能力
梁文锋在多个场合被问到这个数字时强调:这不只是”成本优化”,这是用0.056%的成本达成竞争级别的效果。对标GPT-4的训练成本可能是10亿级别。这背后代表的是对计算资源的根本性理解差异。
有意思的是,梁文锋主动回应了硅谷的质疑。他说:这个成本数字完全可以验证——我们公开了所有技术细节和论文,用H800的成本是透明的,有质疑的可以自己复算。这种透明度本身就是开源战略的一部分。
关于推理与强化学习的突破
DeepSeek-R1在推理能力上的突破不是单纯的模型规模,而是通过大规模强化学习重新思考推理的本质。梁文锋团队发现:
- 推理不需要预训练时期就教会,而是通过RL过程中自发涌现出来的能力
- 这打破了传统认知中”预训练数据决定下限”的假设
- R1的成功证明了在约束条件下(芯片限制),你可以用其他维度的优化来补偿参数量劣势
关于开源战略与商业逻辑
为什么开源而非闭源
梁文锋在多个采访中都阐述过这个逻辑:
开源不是被迫的,而是主动的商业选择。 他希望”更多人,哪怕一个小APP都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断”。
换句话说,他倒逼整个行业进入”普惠AI”时代。这与OpenAI最初的非营利理念相似,但梁文锋走得更远——完整开源权重 + 完整技术报告 + 发布蒸馏的6个小模型。
有评论将梁文锋比作”AI界的黄峥”(拼多多创始人),因为都是用极致的成本优化+开放生态来打破行业垄断。
开源对中国AI生态的意义
梁文锋在接受采访时强调:“英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。中国AI的发展,同样需要这样的生态。”
他认为:
- 不能所有人都去复刻OpenAI,要有人去创新
- 创新需要高密度人才的组织方式
- 开源是加速生态成熟最快的方式
关于中国AI生态与国际竞争
对中美AI差距的本质认识
在总理座谈会上(2025年1月20日)和多个采访中,梁文锋反复强调一个核心观点:
“真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者。”
他进一步解释:
- 过去30年,中国企业习惯了”别人做技术创新,我们拿过来做应用变现”
- 这个习惯很赚钱,但也造成了路径依赖
- 硅谷创新强,不只是因为他们聪明,而是他们敢于尝试,有失败的容错度
- 中国最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,“我们要做的正是不停地去缩小这些差距”
对OpenAI与Anthropic的看法
梁文锋没有直接批评竞争对手,但他的战略选择隐含了对他们模式的质疑:
- OpenAI最初以非营利方式运作,后来商业化,形成了事实上的技术垄断
- Anthropic走的也是相似的闭源+商业路线
- 梁文锋反而选择了相反的方向:开源+技术普惠+生态建设
有硅谷观察者评价说:梁文锋”倒逼OpenAI重新Open”——通过技术突破+成本颠覆+开源策略,改写了整个行业的竞争维度。
关于「高密度人才」组织
梁文锋认为,中国创新缺的绝对不是资本,而是两个东西:
- 信心:相信自己可以做出原创性的创新
- 如何组织高密度的人才来实现创新
他的做法是:
极端精英化 + 自下而上的协作
- DeepSeek团队只有139人(其中约130多名工程师和研究人员)
- 对比:OpenAI有1200名研究人员,Anthropic有500多名
- 选人标准:顶级学术竞赛获奖经历,80%团队成员有奖项背景
- 很多都是应届毕业生、博四博五、毕业才几年的年轻人
为什么年轻人?梁文锋说过:“创新需要信心,年轻人往往更具信心,他们还没有被规则和套路固化。”
企业文化与管理哲学
「没有KPI」的三无政策
梁文锋在接受采访时披露了DeepSeek的考核体系:
没有KPI、没有固定团队、没有汇报关系。 战略按周迭代而不是按年制定。
为什么这样做?关键是:AI研发具有高度的不确定性。 如果通过KPI考核来衡量员工工作成果,会让员工倾向于选择保守、可预测的路径。但创新恰恰需要容错度、试错空间、失败的权利。
梁文锋强调:“创新往往不是被安排出来的,更不是KPI考核教出来的,而是源自自下而上的热爱与奇思。“
扁平化的自然分工
DeepSeek不采用前置分工,而是自然分工:
- 每个人都自带想法和研究方向
- 遇到问题时,人们自己就会拉人讨论、形成小组
- 当想法显示出潜力时,才自上而下调配资源
- 如果资源充足,员工对计算资源和训练集群的使用没有任何限制,无需审批
梁文锋本人不是”不干预”,而是”有效干预”:交给员工重要的事,不干预过程,让他自己想办法、自己发挥。这对应了他的一个核心观点:“系统设计>个体努力”——设计好激励系统,而不是靠管理层意志硬推。
价值观一致与文化的无形力量
关于企业文化,梁文锋有个有趣的观点:
“我们并没有一个成文的企业文化,因为所有成文的东西都会阻碍创新。” 更重要的是管理者的以身示范——遇到一件事,你如何做决策,那就成为了一种准则。
招人时确保价值观一致,然后通过企业文化来确保步调一致。这样高密度人才才能形成”创新场域”。
关键洞察与思维框架
第一性原理:从底层重新审视每个假设
梁文锋在量化投资时代就养成了这个习惯。到了AI领域:
- 别人接受”scaling law决定了模型能力”,他问:这是必然还是经济约束导致的选择?
- 别人认为”大模型必须参数量大”,他问:那是因为大参数量本身优越,还是因为没想到更高效的架构?
- 别人相信”推理能力需要预训练教会”,他问:能否通过RL从零自发涌现?
这套思维方式直接导向了MoE、MLA、稀疏注意力、大规模强化学习等一系列创新。
「距钱距离」与商业直觉
梁文锋在总理座谈会上谈到AI赋能实体经济时,举了个例子:幻方与某汽车零部件厂商合作,通过AI视觉检测系统将产品缺陷率从0.8%降至0.1%,年节约成本2000多万元。
他认为这就是”距钱距离最近”的AI应用——直接对应财务报表的影响。而不是停留在概念阶段。
对DeepSeek本身,他的”距钱距离”策略是:技术→开源→生态→变现,而不是急功近利的直接商业化。
关键的不公平优势
梁文锋自己分析过为什么DeepSeek能做成:
- 量化思维基因:用稀疏性、动态优化、风险管理的思维看待模型架构
- 对数学模型的深度理解:不是”我会用Transformer”,而是”我理解Transformer每个组件为什么这样设计,怎么改进”
- 充足的资金与算力:幻方的支持让他们有长期研发的底气,不受融资和商业化压力
- 对约束条件下的创意思考:芯片受限的环境,反而激发了更创意的架构设计
关键决策时刻
2025年1月20日:R1的”Sputnik时刻”
这不是随意选择的日期。梁文锋精准把握了时机:
- 时间选择:中国春节前夕,硅谷正在休假
- 技术成熟:R1已经反复验证,成本数字经得起推敲
- 市场冲击:单日Nvidia股价跌17%,$600B市值蒸发
- 信号意义:向全球宣布”GPU能力可能被高效算法推翻了”
这个时刻对应了当年苏联发射Sputnik卫星对美国的冲击——一个新的技术范式的出现,改变了整个行业的竞争格局。
2025年1月:参加总理座谈会
这个出现本身很罕见。梁文锋平时极度低调,很少接受采访。但在关系到国家AI战略的座谈会上,他主动发言了,提出了对政府工作的意见建议,重点是:
- AI从”实验室阶段”转向”产业应用阶段”的政策支持
- 通过税收优惠、数据开放等方式,鼓励企业共建AI工业互联网平台
- 对青年科技创业的激励机制
媒体评价与国际反响
硅谷的反应
《华尔街日报》专约撰稿人Gregory Zuckerman在发现梁文锋曾为他的书《The Man Who Solved the Market》写过中文版序言后,在社交媒体上发出著名的呼喊:“梁文锋,快联系我!”
硅谷普遍震惊的原因是:梁文锋打破了关于AI进步的两个”共识”:
- 你需要巨额资本(数十亿美元)
- 你需要庞大的研发团队(千人规模)
梁文锋用$5.6M和139人证明了这两个假设都可以被颠覆。
中国媒体评价
- 36氪:发表了《AI战事正酣,都在等梁文锋》的深度报道,将他塑造为”中国AI的定海神针”
- 量子位:多次详细分析DeepSeek的技术突破,强调梁文锋”一如既往地强”的科研能力
- 澎湃新闻:将DeepSeek形容为”AI界的拼多多”,强调低成本+开源的颠覆性
- Nature杂志:DeepSeek-R1论文登上Nature封面,梁文锋署名为通讯作者
一个有趣的细节
梁文锋因为太低调,Nature杂志的采访请求被他拒绝了。但他反而是通过开源代码、发表学术论文、接受中文媒体采访这三个渠道来”发声”——这本身就体现了他对”学术贡献>商业包装”的价值排序。
关于本质
梁文锋这个人的本质特征是什么?
- 技术理想主义者:不被短期商业诱惑所动,坚持长期的原创性创新追求
- 量化思维者:用数据、模型、优化的思维方式看待所有问题,包括组织管理
- 开源倡导者:反而坚定地相信开源生态的力量,而不是技术垄断
- 低调实干家:不擅长包装和宣传,靠产品和技术说话
- 第一代AI原住民:在AI还不流行时就开始研究AI(2007年的量化选股),天然具有信心和前沿感
他对中国AI最大的贡献可能不是单纯的技术突破,而是证明了一种新的可能性:用开源、用协作、用高效优化,你也可以对标全球最强的闭源技术公司。这改写了中国AI从业者对自己可能性的认知。
重要采访与文章列表
| 标题 | 媒体 | 日期 | 重点 |
|---|---|---|---|
| DeepSeek创始人梁文锋的独家采访 | 新浪财经 | 2025.02 | 创业初心、价格战、团队管理 |
| 中国的AI不可能永远跟随,需要有人站到技术的前沿 | 新浪财经 | 2025.01 | 中美AI竞争、原创vs模仿 |
| 没有KPI、极度扁平、极致创新……DeepSeek创始人梁文锋60条思考 | MBAChina | 2025.02 | 管理哲学、创新观点 |
| DeepSeek-R1持续震撼硅谷 | 量子位 | 2025.01 | 技术突破、行业冲击 |
| 梁文锋署名DeepSeek新论文:公开V3大模型降本方法 | 量子位 | 2025.05 | MLA、MoE、FP8训练细节 |
| 量化巨头幻方创始人梁文锋参加总理座谈会并发言 | 澎湃新闻 | 2025.01 | AI赋能实体经济、政策建议 |
| 梁文锋就是AI界的黄峥 | 新浪财经 | 2025.01 | 商业模式对标、生态思维 |
| 从梁文锋采访看AI创新与未来普通人机遇 | CSDN | 2025.02 | 创新信心、人才密度 |
相关概念与参考
- Mixture of Experts (MoE):混合专家架构,梁文锋的核心优化方向
- 多头潜在注意力 (MLA):DeepSeek的注意力机制创新
- Scaling Law:梁文锋反思和颠覆的经典假设
- 开源AI生态:梁文锋推动的行业方向
- 量化对冲思维:梁文锋的思维基因
- 技术理想主义:对标Yann LeCun、Hinton等学术大师的价值观
相关产品与组织
- DeepSeek — 创始人兼CEO
- DeepSeek-R1 — 推理模型旗舰产品
- DeepSeek-V3 — 基础模型
- 幻方科技 — 创业起点和重要支持方
- 浙江大学 — 教育背景、人才来源地
对标人物
- Yann LeCun(Meta):学术理想主义 + 开源倡导者
- Demis Hassabis(DeepMind):追求AGI的科学家创业者
- 黄峥(拼多多):极致成本优化 + 生态颠覆
- 徐进(幻方共同创始人):量化投资的协作者