Ashish Vaswani

这个人最值得记住的是：他设计了改变世界的架构，却没有停在论文的荣光中。反而用两次创业（一次失败、一次重启）来验证「我能把这个思想变成产品」。这个执念是真的。

身份与背景

印度 AI 研究者，但不是那种”只在学术象牙塔里的”。他走的是研究 → 大厂 → 创业 → 大厂失败 → 再次创业的完整循环，每一环都留下了痕迹。

阶段一：NLP 的早期探险者（2006-2016）

USC 博士，师从 David Chiang——一个被 NLP 圈子严重低估的研究者。Chiang 的实验室专注”机器翻译的序列建模”，这是后来所有 seq2seq 和 Transformer 工作的思想基础。

Vaswani 在这个环境中，学到的不是”如何应用深度学习”（那时候深度学习还不流行），而是**“如何从问题的本质出发设计架构”**。

这个习惯在后来被证明是关键的。

阶段二：Google Brain 的架构师（2016-2021）

2016 年加入 Google Brain（当时 Noam Shazeer 和 Illia Polosukhin 也在），正值深度学习第三波浪潮刚开始爆发。

Google Brain 当时的技术状况是：

seq2seq 已存在：Ilya Sutskever 的 LSTM-based encoder-decoder 在机器翻译、语音识别等任务上效果不错
注意力机制已存在：有很多论文提出了局部注意力、全局注意力、多头注意力
位置编码已有概念：但还没有统一的方案

问题是：这些片段技术都没有被系统地整合。每个问题都需要一个定制化的架构——翻译任务用 seq2seq+attention，图像标注用 CNN+attention，等等。

Vaswani 看到的问题：为什么我们需要这么多不同的架构？能否设计一个通用的架构，用于所有序列到序列的任务？

“Attention Is All You Need” —— 纸上的革命（2017年6月）

这篇论文现在是科技史上被引用最多的论文之一（173,000+ 次），但当时的反应其实没那么热烈。投稿 NeurIPS 2017 时，有评审觉得”这不过是 attention 机制的组合，没什么创新”。

但 Vaswani 和共同作者（Noam Shazeer、Parmar Niki 等）坚持了这个方向。论文的关键贡献是：

论文的五个核心创新

自注意力（Self-Attention）：每个位置都能”看到”序列中所有其他位置，而不是像 RNN 那样逐步处理
多头注意力（Multi-Head Attention）：不同的注意力”头”学习不同的语义关系（语法、语义、共指等）
前向网络（Feed-Forward Network）：在注意力之间插入非线性变换，增加表达力
位置编码（Positional Encoding）：用三角函数编码位置信息，让模型知道词序
层标准化和残差连接：稳定训练，允许更深的网络

为什么这个论文改变了一切？

按照常规的 NLP 思维，序列处理必须是递归的——你必须一个一个地处理词，因为后面的词依赖前面的词。

Transformer 说：不，序列中的所有词可以并行处理。只要有注意力机制，你就能建立词之间的依赖关系。

这听起来是一个小的工程改进。但它实际上是：

计算并行化：从 O(n) 序列依赖变成可以并行化处理
长程依赖：RNN 在序列长度超过 100-200 时效果就开始下降；Transformer 可以处理几千甚至几万长度的序列
可扩展性：RNN 的计算复杂度是 O(n)；Transformer 是 O(n²)（注意力矩阵），但硬件优化得很好，实际上更快

一句话：Transformer 用并行计算和全连接注意力，击穿了 RNN 的瓶颈。

阶段三：Adept AI 的”我想做产品”（2021-2022）

2021 年 11 月，Vaswani 与 Niki Parmar 离开 Google，创办 Adept AI。融资 $65M Series A，这在当时是创纪录的。

Adept 的定位很野心勃勃：AI Agent 能否自动化任何软件流程？

想象一个 AI，它能：

看你用什么软件
理解你在做什么
自动执行重复的步骤

这是对”AI 的下一个应用形式”的大胆想象。

但是——这里很关键——仅仅 9 个月后（2022 年 11 月），Vaswani 和 Parmar 就离开了 Adept。

为什么？公开的解释很少，但从行业观察看，可能的原因是：

技术难度被低估了：AI agent 本来看起来是”理解 + 执行”，但实际上涉及视觉理解、长序列规划、错误恢复等复杂问题
市场还没准备好：2022 年还没有 GPT-4（那是 2023 年 3 月发布的），LLM 的能力还不足以真正做 agent
内部分歧：这只是猜测，但大多数 founder 团队在融资后会有策略分歧

这个”失败”或者说”战略调整”，对 Vaswani 来说是重要的信号。它说明：即使你发明了 Transformer，也不保证你能直接把研究转化成产品。

阶段四：Essential AI 的”重新开始”（2023-现在）

2023 年，Vaswani 和 Parmar 再次联合，成立 Essential AI。

这次，他们的思路更清晰：不做通用 agent，而做 “企业大脑”——一个能理解企业特定流程的 AI 系统。

融资结构很有趣：

Seed $8.3M：标准的早期融资
Series A $56.5M（2023年12月）：但投资者不只是风投，还包括 Google、NVIDIA、AMD、Thrive Capital

为什么这个投资者组合重要？

Google：战略投资，保持对尖端 AI 人才的接近
NVIDIA、AMD：直接利益相关——Essential AI 如果成功，会大量使用他们的芯片
Thrive Capital：专业 VC，带来运营经验

这个组合传达了一个信号：所有人都赌 Vaswani 会成功，因为他做的事情对所有人都有价值。

不公平优势的重新组合：

Transformer 的核心发明人身份（永久的权威）
Google Brain 10 年的深度研究经验
Adept 失败的教训（知道什么不work）
两个关键的共同创始人（Niki Parmar 的 NLP 深度）
芯片 + 云 + 风投的三角支持

”Attention Is All You Need”：深度解读

这篇论文为什么这么重要，不仅是因为它发明了 Transformer，而是因为它改变了 AI 研究的范式。

论文前的 NLP 世界

2017 年之前，NLP 的工作流是这样的：

问题定制化：翻译需要 seq2seq，语言建模需要 LSTM，句子编码需要 CNN
架构为问题服务：不同任务用不同的神经网络设计
扩展瓶颈：LSTM 很难扩展到非常长的序列（>512 tokens），因为梯度消失问题

论文之后的范式转换

单一架构解决所有问题：

Transformer 基础模型可以用于翻译、分类、生成、表示学习等
可扩展性爆炸：从 12 层的 BERT 到 96 层的 GPT-3，模型深度增加了 8 倍，但仍然稳定训练
迁移学习成为标准：预训练 + fine-tune 的模式统一了整个 NLP 领域

为什么 Vaswani 的设计这么聪明？

很多人理解 Transformer 是”注意力的应用”。但真正的洞见是系统设计：

自注意力 + 多头 + 前向网络 + 位置编码 + 层标准化 + 残差连接

每一个组件都解决一个特定的问题：

自注意力：建立远程依赖
多头：学习多种语义关系
前向网络：增加非线性表达力
位置编码：保持位置信息（transformer 本身没有位置知识）
层标准化：训练稳定性
残差：梯度流动

移除任何一个，性能都会下降。这不是”所有组件都要”，而是”这个特定的组合最优”。

这种”最小必要集合”的设计美学，来自 Vaswani 的 USC 背景（理论 NLP）和 Google 的工程经验的完美结合。

关键决策与思想转折

决策1：公开发表 vs 保密竞争

2017 年，Google 可以选择把 Transformer 作为内部技术，给 Google 搜索、Gmail 等产品带来优势。

但他们选择了完全公开——论文发表在 arxiv，代码开源（稍后的 TensorFlow 实现）。

Vaswani 为什么同意这个决策？

从采访来看，他相信：

知识应该流动：隐藏一个架构不会让竞争对手找不到类似的思想
标准化的力量：如果所有人都用 Transformer，那么 Google 做任何基于 Transformer 的创新都会更快
长期竞争力：Google 的竞争力不在”有一个秘密算法”，而在”能最好地利用这个算法”

这个决策形塑了整个 AI 行业——没有 Transformer 的开源，就不会有 BERT、GPT、Claude 这样的繁荣生态。

决策2：离开 Adept，而不是坚持

大多数创业者的故事是”坚持你的愿景”。Vaswani 的故事是”承认你的愿景有问题，重新开始”。

在 Adept 做了 9 个月后，他意识到：

AI agent 的时机还没到（LLM 能力不足）
商业模式还不清楚（企业如何付费）
技术难度被大大低估了

普通 founder 的反应：坚持 + 筹更多钱 + 改产品定位（但不改本质）

Vaswani 的反应：我们输了，重新开始。

这个勇气来自什么？可能来自：

自信于自己的能力：他知道无论怎样都能再融资、再创业
长期视角：他关心的不是”Adept 成不成功”，而是”我能否做成一个真正改变产业的东西”
对市场时机的敏感度：他知道 2022 年做 agent 的时机不对，2024-2025 年才是

决策3：Essential AI 的投资者选择

很多创业公司会说”我想保持独立”，然后拒绝战略投资者（Google 入股）。

Vaswani 的反应完全相反：邀请所有利益相关方进来。

为什么？因为他认识到：

硬件公司需要他成功（他用他们的芯片）
云公司需要他成功（他会在他们的云上运行）
Google 需要他成功（他原来是 Google 的人）

与其与这些力量对抗，不如让他们都成为利益相关方。

这是一种对称信息的博弈论思维——所有人都知道彼此想要什么，所以反而比较容易合作。

Essential AI 的产品方向

不同于 Adept 的”通用 agent”，Essential AI 的方向是：

企业 AI 系统 = 特定知识 + 一般推理能力的组合

想象一个保险公司，他们有：

1000+ 页的保单规则
10 年的理赔历史
特定的审批流程

Essential AI 的目标是：构建一个 AI 系统，能够：

学习公司的特定知识（保单规则、历史案例）
在新的理赔申请上应用这个知识
自动审批 80%+ 的低风险案件

技术路线

Essential AI 最近（2025年12月）发布了 Rnj-1，一个 8B 参数的开源模型，专门为代码和 STEM 任务优化。

这个模型的有趣之处是：

开源但精英化：虽然开源，但设计目标是”特定领域的最优”，而不是”通用的中等”
小而精：8B 参数可以在消费级 GPU 上运行，但性能相当于大参数模型的 coding 能力
验证”小模型 + 特定知识”的路线：这正是 Essential AI 对企业 AI 的理解

思想特征与反共识洞见

核心论点：架构即哲学

Vaswani 反复强调的一个观点：好的架构不仅是高效的，更重要的是”优美的”。

Transformer 之所以能统治整个 AI 行业，不只是因为性能，而是因为它的设计简洁性。

这反映了一个更深的信念：复杂问题的最优解往往是最简洁的。

第二个洞见：失败即信息

Adept 的”失败”（9 个月后团队离开）看起来像一个坏故事。但对 Vaswani 来说，它是：

市场时机的反馈
技术难度的验证
团队适配性的测试

正是这个”失败”，让 Essential AI 的 Series A 融资时，所有人都相信他已经学到了教训。

第三个洞见：论文的诅咒

被问过很多次：“你怎么看 Transformer 改变了世界？”

Vaswani 的回答很有趣：“我更关心现在我能做什么，而不是过去我做了什么。论文改变了世界，但那是 2017 年。现在是 2026 年。”

这反映了一个高级的思维方式：不被自己的成就困住。

数字快照与时间线

指标	数据
Transformer 论文引用数	173,000+
论文发表年份	2017 年 6 月
共同作者数	8 人
Adept AI 融资（Series A）	$65M
Adept 持续时间	9 个月
Essential AI 种子融资	$8.3M
Essential AI Series A	$56.5M（2023年12月）
Rnj-1 参数量	8B（开源）
2024 C&C Prize	与其他 Transformer 作者共获

来源与参考

Ashish Vaswani - Wikipedia — 生平和学术历程
The AI Pioneer Trying to Save Artificial Intelligence From Big Tech - Bloomberg — 对 Essential AI 和行业思考的深度报道
Attention Is All You Need - arxiv:1706.03762 — 原始论文
Transformer Co-Creator Launches Rnj-1: Essential AI’s First Open Model — Essential AI 最新产品方向
Essential AI reveals funding, development of full-stack AI automation tools — Series A 融资和战略
Ashish Vaswani - The mind behind the transformer that powers GenAI — 对其思想和贡献的综述

Mars Product Wiki

探索

Ashish Vaswani

Ashish Vaswani

身份与背景

阶段一：NLP 的早期探险者（2006-2016）

阶段二：Google Brain 的架构师（2016-2021）

“Attention Is All You Need” —— 纸上的革命（2017年6月）

论文的五个核心创新

为什么这个论文改变了一切？

阶段三：Adept AI 的”我想做产品”（2021-2022）

阶段四：Essential AI 的”重新开始”（2023-现在）

”Attention Is All You Need”：深度解读

论文前的 NLP 世界

论文之后的范式转换

为什么 Vaswani 的设计这么聪明？

关键决策与思想转折

决策1：公开发表 vs 保密竞争

决策2：离开 Adept，而不是坚持

决策3：Essential AI 的投资者选择

Essential AI 的产品方向

技术路线

思想特征与反共识洞见

核心论点：架构即哲学

第二个洞见：失败即信息

第三个洞见：论文的诅咒

数字快照与时间线

相关产品与论文

相关人物

来源与参考

关系图谱

目录