梁文锋(Liang Wenfeng)

这个人最值得记住的核心逻辑:用量化对冲的思维方式(稀疏性+动态路由)看待大模型架构设计,反而用别人花10亿的成本干成了$5.6M的活。本质上,他不是在堆算力,而是在优化人类对计算资源的利用效率。

个人背景

出身与成长

梁文锋,1985年出生于广东省湛江市吴川,父母均为小学教师。年少时展现卓越的数学天赋——初中时别人还在研究一元二次方程,他已自学完高中数学、开始接触大学数学内容。2002年,以全校第一成绩考入浙江大学信息与电子工程系,2007年攻读浙江大学信息与通信工程专业硕士,主攻机器视觉研究。

浙大时代的量化启蒙

这个阶段很关键。梁文锋学生时代就开始编写人工智能算法进行量化选股,完全是自我驱动的好奇心——那时(2007年左右)AI选股还是小众话题。这段经历为他后来的量化对冲生涯奠定了基础。

背景参考

幻方科技时代(2008-2023)

创业初心

2008年环球金融危机期间,梁文锋与浙大同学徐进、陆政哲组建团队,探索通过机器学习进行量化交易。这是他第一次将 AI 应用于实战商业场景。

2015年,梁文锋正式与校友创立杭州幻方科技有限公司(High-Flyer),定位为”世界顶级的量化对冲基金”。作为幻方的联合创始人和技术负责人,他带领团队建设了两套堪称业界顶尖的超算系统:

  • 萤火一号(2020年):AI超级计算机正式投入运作
  • 萤火二号(2021年):配备1万张A100 GPU芯片,投入十亿级别资金

到2023年,幻方量化已管理约80亿美元资产,成为中国最大的量化基金之一,年收益率持续稳定。

量化思维对DeepSeek的影响

关键洞察:量化对冲的本质就是用数学模型和统计学找市场的低效点,用更少的资本赚更多的钱。梁文锋将这套思维方式完全迁移到了大模型架构设计——别人堆参数量,他优化激活稀疏性;别人烧GPU,他设计混合专家(MoE)动态路由。

他看透了一个本质的点:OpenAI的scaling law(参数量越大越聪明)不是自然规律,而是”他们有的是钱”导致的工程选择。如果我们限制计算预算约束,应该怎么做模型架构设计?

参考资料

DeepSeek创办与「技术理想主义者」的信念

为什么选择做AGI而非应用变现

2023年5月,梁文锋宣布进军通用人工智能领域。2023年7月,正式创办杭州深度求索人工智能基础技术研究有限公司(DeepSeek)。

在多次采访中,梁文锋强调这个决定完全不是商业驱动的。他说过一句经典的话:“如果一定要(为创办DeepSeek)找一个商业上的理由,它可能是找不到的,因为划不来。“那为什么做?因为他们能做,他们是最合适的人选,他们想做。

采访原文显示,梁文锋的驱动力来自三个方面:

  1. 科学好奇心:远处的猜想——理解人类智能的本质可能就是语言,人的思维可能就是一个语言的过程。在语言大模型上可能诞生出类人的AGI。
  2. 信念驱动:创新首先是一种信念。中国在前沿研究上曾经信心不足,但创新需要信心,而年轻人往往更具信心。
  3. 历史使命感:中国AI不可能永远处在跟随的位置,真实的gap是原创和模仿之差,“如果这个不改变,中国永远只能是追随者”。

采访链接

关于模型效率与成本优化

MoE架构的极限优化

DeepSeek 没有用 Dense(全参数)模型,而是用 Mixture of Experts(混合专家)架构。这个架构早就存在(Noam Shazeer的Switch Transformer),但梁文锋的贡献在于:

  • 激活稀疏性优化到97%+:而不是传统的50%激活率
  • 多头潜在注意力(MLA)创新:将显存占用从标准MHA的100%降低到5%-13%,这是算法和硬件协同优化的结果
  • 动态路由机制:Engram模块负责海量知识点的存储与快速检索,通过动态路由只激活部分参数,大幅降低计算成本

在接受采访时,梁文锋强调这些优化的核心不是”我们发明了新东西”,而是”我们对每个环节的理解更深,优化的粒度更细”。

$5.6M训练成本的奇迹

数字快照(DeepSeek-R1,2025年1月):

  • GPU配置:2048块H800(价格约$2000/块,但成本计算中已是折扣价)
  • 训练时长:2.8M GPU-hours
  • 总成本:$5.6M
  • 对标目标:OpenAI o1推理能力

梁文锋在多个场合被问到这个数字时强调:这不只是”成本优化”,这是用0.056%的成本达成竞争级别的效果。对标GPT-4的训练成本可能是10亿级别。这背后代表的是对计算资源的根本性理解差异。

有意思的是,梁文锋主动回应了硅谷的质疑。他说:这个成本数字完全可以验证——我们公开了所有技术细节和论文,用H800的成本是透明的,有质疑的可以自己复算。这种透明度本身就是开源战略的一部分。

成本详情

关于推理与强化学习的突破

DeepSeek-R1在推理能力上的突破不是单纯的模型规模,而是通过大规模强化学习重新思考推理的本质。梁文锋团队发现:

  • 推理不需要预训练时期就教会,而是通过RL过程中自发涌现出来的能力
  • 这打破了传统认知中”预训练数据决定下限”的假设
  • R1的成功证明了在约束条件下(芯片限制),你可以用其他维度的优化来补偿参数量劣势

论文细节

关于开源战略与商业逻辑

为什么开源而非闭源

梁文锋在多个采访中都阐述过这个逻辑:

开源不是被迫的,而是主动的商业选择。 他希望”更多人,哪怕一个小APP都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断”。

换句话说,他倒逼整个行业进入”普惠AI”时代。这与OpenAI最初的非营利理念相似,但梁文锋走得更远——完整开源权重 + 完整技术报告 + 发布蒸馏的6个小模型。

有评论将梁文锋比作”AI界的黄峥”(拼多多创始人),因为都是用极致的成本优化+开放生态来打破行业垄断。

开源对中国AI生态的意义

梁文锋在接受采访时强调:“英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。中国AI的发展,同样需要这样的生态。”

他认为:

  • 不能所有人都去复刻OpenAI,要有人去创新
  • 创新需要高密度人才的组织方式
  • 开源是加速生态成熟最快的方式

观点汇总

关于中国AI生态与国际竞争

对中美AI差距的本质认识

在总理座谈会上(2025年1月20日)和多个采访中,梁文锋反复强调一个核心观点:

“真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者。”

他进一步解释:

  • 过去30年,中国企业习惯了”别人做技术创新,我们拿过来做应用变现”
  • 这个习惯很赚钱,但也造成了路径依赖
  • 硅谷创新强,不只是因为他们聪明,而是他们敢于尝试,有失败的容错度
  • 中国最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,“我们要做的正是不停地去缩小这些差距”

对OpenAI与Anthropic的看法

梁文锋没有直接批评竞争对手,但他的战略选择隐含了对他们模式的质疑:

  • OpenAI最初以非营利方式运作,后来商业化,形成了事实上的技术垄断
  • Anthropic走的也是相似的闭源+商业路线
  • 梁文锋反而选择了相反的方向:开源+技术普惠+生态建设

有硅谷观察者评价说:梁文锋”倒逼OpenAI重新Open”——通过技术突破+成本颠覆+开源策略,改写了整个行业的竞争维度。

采访细节

关于「高密度人才」组织

梁文锋认为,中国创新缺的绝对不是资本,而是两个东西:

  1. 信心:相信自己可以做出原创性的创新
  2. 如何组织高密度的人才来实现创新

他的做法是:

极端精英化 + 自下而上的协作

  • DeepSeek团队只有139人(其中约130多名工程师和研究人员)
  • 对比:OpenAI有1200名研究人员,Anthropic有500多名
  • 选人标准:顶级学术竞赛获奖经历,80%团队成员有奖项背景
  • 很多都是应届毕业生、博四博五、毕业才几年的年轻人

为什么年轻人?梁文锋说过:“创新需要信心,年轻人往往更具信心,他们还没有被规则和套路固化。”

深度分析

企业文化与管理哲学

「没有KPI」的三无政策

梁文锋在接受采访时披露了DeepSeek的考核体系:

没有KPI、没有固定团队、没有汇报关系。 战略按周迭代而不是按年制定。

为什么这样做?关键是:AI研发具有高度的不确定性。 如果通过KPI考核来衡量员工工作成果,会让员工倾向于选择保守、可预测的路径。但创新恰恰需要容错度、试错空间、失败的权利。

梁文锋强调:“创新往往不是被安排出来的,更不是KPI考核教出来的,而是源自自下而上的热爱与奇思。“

扁平化的自然分工

DeepSeek不采用前置分工,而是自然分工

  • 每个人都自带想法和研究方向
  • 遇到问题时,人们自己就会拉人讨论、形成小组
  • 当想法显示出潜力时,才自上而下调配资源
  • 如果资源充足,员工对计算资源和训练集群的使用没有任何限制,无需审批

梁文锋本人不是”不干预”,而是”有效干预”:交给员工重要的事,不干预过程,让他自己想办法、自己发挥。这对应了他的一个核心观点:“系统设计>个体努力”——设计好激励系统,而不是靠管理层意志硬推。

价值观一致与文化的无形力量

关于企业文化,梁文锋有个有趣的观点:

“我们并没有一个成文的企业文化,因为所有成文的东西都会阻碍创新。” 更重要的是管理者的以身示范——遇到一件事,你如何做决策,那就成为了一种准则。

招人时确保价值观一致,然后通过企业文化来确保步调一致。这样高密度人才才能形成”创新场域”。

详细总结

关键洞察与思维框架

第一性原理:从底层重新审视每个假设

梁文锋在量化投资时代就养成了这个习惯。到了AI领域:

  • 别人接受”scaling law决定了模型能力”,他问:这是必然还是经济约束导致的选择?
  • 别人认为”大模型必须参数量大”,他问:那是因为大参数量本身优越,还是因为没想到更高效的架构?
  • 别人相信”推理能力需要预训练教会”,他问:能否通过RL从零自发涌现?

这套思维方式直接导向了MoE、MLA、稀疏注意力、大规模强化学习等一系列创新。

「距钱距离」与商业直觉

梁文锋在总理座谈会上谈到AI赋能实体经济时,举了个例子:幻方与某汽车零部件厂商合作,通过AI视觉检测系统将产品缺陷率从0.8%降至0.1%,年节约成本2000多万元。

他认为这就是”距钱距离最近”的AI应用——直接对应财务报表的影响。而不是停留在概念阶段。

对DeepSeek本身,他的”距钱距离”策略是:技术→开源→生态→变现,而不是急功近利的直接商业化。

关键的不公平优势

梁文锋自己分析过为什么DeepSeek能做成:

  1. 量化思维基因:用稀疏性、动态优化、风险管理的思维看待模型架构
  2. 对数学模型的深度理解:不是”我会用Transformer”,而是”我理解Transformer每个组件为什么这样设计,怎么改进”
  3. 充足的资金与算力:幻方的支持让他们有长期研发的底气,不受融资和商业化压力
  4. 对约束条件下的创意思考:芯片受限的环境,反而激发了更创意的架构设计

分析来源

关键决策时刻

2025年1月20日:R1的”Sputnik时刻”

这不是随意选择的日期。梁文锋精准把握了时机:

  • 时间选择:中国春节前夕,硅谷正在休假
  • 技术成熟:R1已经反复验证,成本数字经得起推敲
  • 市场冲击:单日Nvidia股价跌17%,$600B市值蒸发
  • 信号意义:向全球宣布”GPU能力可能被高效算法推翻了”

这个时刻对应了当年苏联发射Sputnik卫星对美国的冲击——一个新的技术范式的出现,改变了整个行业的竞争格局。

2025年1月:参加总理座谈会

这个出现本身很罕见。梁文锋平时极度低调,很少接受采访。但在关系到国家AI战略的座谈会上,他主动发言了,提出了对政府工作的意见建议,重点是:

  • AI从”实验室阶段”转向”产业应用阶段”的政策支持
  • 通过税收优惠、数据开放等方式,鼓励企业共建AI工业互联网平台
  • 对青年科技创业的激励机制

官方新闻

媒体评价与国际反响

硅谷的反应

《华尔街日报》专约撰稿人Gregory Zuckerman在发现梁文锋曾为他的书《The Man Who Solved the Market》写过中文版序言后,在社交媒体上发出著名的呼喊:“梁文锋,快联系我!”

硅谷普遍震惊的原因是:梁文锋打破了关于AI进步的两个”共识”:

  1. 你需要巨额资本(数十亿美元)
  2. 你需要庞大的研发团队(千人规模)

梁文锋用$5.6M和139人证明了这两个假设都可以被颠覆。

中国媒体评价

  • 36氪:发表了《AI战事正酣,都在等梁文锋》的深度报道,将他塑造为”中国AI的定海神针”
  • 量子位:多次详细分析DeepSeek的技术突破,强调梁文锋”一如既往地强”的科研能力
  • 澎湃新闻:将DeepSeek形容为”AI界的拼多多”,强调低成本+开源的颠覆性
  • Nature杂志:DeepSeek-R1论文登上Nature封面,梁文锋署名为通讯作者

一个有趣的细节

梁文锋因为太低调,Nature杂志的采访请求被他拒绝了。但他反而是通过开源代码、发表学术论文、接受中文媒体采访这三个渠道来”发声”——这本身就体现了他对”学术贡献>商业包装”的价值排序。

关于本质

梁文锋这个人的本质特征是什么?

  1. 技术理想主义者:不被短期商业诱惑所动,坚持长期的原创性创新追求
  2. 量化思维者:用数据、模型、优化的思维方式看待所有问题,包括组织管理
  3. 开源倡导者:反而坚定地相信开源生态的力量,而不是技术垄断
  4. 低调实干家:不擅长包装和宣传,靠产品和技术说话
  5. 第一代AI原住民:在AI还不流行时就开始研究AI(2007年的量化选股),天然具有信心和前沿感

他对中国AI最大的贡献可能不是单纯的技术突破,而是证明了一种新的可能性:用开源、用协作、用高效优化,你也可以对标全球最强的闭源技术公司。这改写了中国AI从业者对自己可能性的认知。

重要采访与文章列表

标题媒体日期重点
DeepSeek创始人梁文锋的独家采访新浪财经2025.02创业初心、价格战、团队管理
中国的AI不可能永远跟随,需要有人站到技术的前沿新浪财经2025.01中美AI竞争、原创vs模仿
没有KPI、极度扁平、极致创新……DeepSeek创始人梁文锋60条思考MBAChina2025.02管理哲学、创新观点
DeepSeek-R1持续震撼硅谷量子位2025.01技术突破、行业冲击
梁文锋署名DeepSeek新论文:公开V3大模型降本方法量子位2025.05MLA、MoE、FP8训练细节
量化巨头幻方创始人梁文锋参加总理座谈会并发言澎湃新闻2025.01AI赋能实体经济、政策建议
梁文锋就是AI界的黄峥新浪财经2025.01商业模式对标、生态思维
从梁文锋采访看AI创新与未来普通人机遇CSDN2025.02创新信心、人才密度

相关概念与参考

  • Mixture of Experts (MoE):混合专家架构,梁文锋的核心优化方向
  • 多头潜在注意力 (MLA):DeepSeek的注意力机制创新
  • Scaling Law:梁文锋反思和颠覆的经典假设
  • 开源AI生态:梁文锋推动的行业方向
  • 量化对冲思维:梁文锋的思维基因
  • 技术理想主义:对标Yann LeCun、Hinton等学术大师的价值观

相关产品与组织

对标人物

  • Yann LeCun(Meta):学术理想主义 + 开源倡导者
  • Demis Hassabis(DeepMind):追求AGI的科学家创业者
  • 黄峥(拼多多):极致成本优化 + 生态颠覆
  • 徐进(幻方共同创始人):量化投资的协作者