快速了解

Midjourney · Image Generation · San Francisco, US · Scale Unlisted (Assumed $10-15B private valuation) 估值 · $500M+ ARR · 19.83M registered, 1.2-2.8M DAU 用户 #行业-图像设计竞品：DALL-E 3 · Stable Diffusion · Flux

Midjourney

一句话：独立研究实验室用零融资做到年收 5 亿美元，通过 Discord 分发 AI 图像生成，建立品牌美学壁垒和社区数据壁垒，打破”创业必须融资”的神话。

一、基本面

Midjourney Inc.（MJ）由 David Holz 创立于 2022 年 2 月，是一家完全自举、零融资的独立研究实验室。

创始人背景：David Holz，美国企业家，曾创办 Leap Motion（2012 年，手势识别设备），融资超过 1 亿美金，在此之前从事 NASA 和 Max Planck Institute 的研究工作。虽然 Leap Motion 未成为主流（被 Ultraleap 收购），但 Holz 对硬件、人机交互、深度学习的理解为 Midjourney 奠定了基础。此次创业他学到了”专注于小而精的团队”的哲学。

融资与自举：Midjourney 选择了最激进的路线——零融资，纯自举。2022 年 8 月上线仅 1 个月即实现盈利，这在 AI 初创中几乎无人能及。这意味着：

没有 VC 压力要冲增长率、没有董事会期望、没有稀释股权
每一笔支出都是自己的钱，决策极其谨慎
完全的执行自主权

关键指标（2026 年 1 月）：

注册用户：1983 万
日活跃用户：120-280 万参考：这是 Midjourney 官方披露的范围
年度经常性收入（ARR）：$500M+（基于 2025 年 5 月数据推算）参考：OpenAI Intelligence Report
团队规模：107-163 人（变动范围，最新为 ~120 人）
人均产收：$530 万/年（按 $500M 年收入、150 人计算）
日生成图像量：3400 万张参考：Midjourney 官方披露
无债务、无外部融资、完全利润驱动

这是一个”反常识”的公司——按照 2024-2025 年的 AI 创业常识，不融资的公司应该分分钟被融资的大军碾压。但 Midjourney 做到了反向证伪。

二、发展脉络与创始人基因

前史：Leap Motion 的失败与学习

David Holz 的前一家公司 Leap Motion（2012 年成立）在 VR/AR 热潮中融资超 $1 亿，试图用手势识别来革新人机交互。结果呢？公司在 2023 年被 Ultraleap 收购（融资后的资本回报可能接近 break-even）。

失败的核心逻辑：

过度融资导致的野心膨胀——想做”改变世界的交互方式”
硬件的客户采购周期长——2 年构建手势识别的应用生态，还没等来大规模采用
团队过大（高峰超 600 人），每月烧钱数百万，对每次迭代都是赌命

Leap Motion 教会了 Holz 什么是”大船掉头难”。这也解释了为什么 Midjourney 采取了完全相反的打法：小团队、快迭代、赚钱优先于融资、专注于一个单点功能。

三、成长旅程

3.1 怎么找到这个机会的

2021-2022 年，扩散模型（Diffusion Models）和大规模文本编码（CLIP）的突破刚开始在学术圈流行，但还没有变成消费级产品。那时候 OpenAI 的 DALL-E 1（2021 年 1 月）反响平凡，DALL-E 2（2022 年 4 月）才真正炸裂——但 OpenAI 有”API 优先”的战略，不想做面向普通创意人的产品。

David Holz 的洞察很清晰：模型能力已经足够，但没有人做一个面向创意工作者、上手即用、反馈闭环紧凑的产品。而且这个市场有一个被低估的洼地——创意产业的专业人士（设计师、艺术家、动画师）从不缺钱，只缺工具。

关键信号：

Stable Diffusion（2022 年 8 月开源）证实了开源模型可以生成高质量图像
Discord 已经是创意社群（游戏、动画、美术）的聚集地，且有强大的 bot 生态
从 DALL-E 2 的”排队论”（一开始限制人数、供不应求）可以推断，有大量被压抑的需求

3.2 产品怎么设计的

非共识 #1：Why Discord？

大多数 AI 初创会选择：“做一个网站或 App，让用户登录、输入提示词、点击生成、查看结果。”

Midjourney 选择了：“把 bot 放到 Discord 上。”

这个决策的天才之处在于：

社交优先：Discord 本身就是社群，生成的图像自然会在频道里展示、互动、收赞，整个社交反馈闭环内置
口碑链条更短：用户看到频道里有人在”魔法般”生成图像，自然会问”怎么用的？“，进而邀请朋友
社区数据内生：所有生成的图像都在公开的 Discord 频道，Midjourney 可以实时看到最受欢迎的风格、人群、主题，形成”品味库”
降低定制成本：Discord 的权限管理、DM、频道都现成了，不用自己建认证系统
提高黏性：在社区里生成 > 独自生成，社群的存在感强化了产品黏性

副作用是：生成的所有图像默认公开（包括付费用户的），这对隐私敏感的用户是问题。但 Midjourney 用”社区数据”换来的品味库和网络效应，值这个代价。

非共识 #2：产品极简

Midjourney 的核心体验就是：

在 Discord 输入 /imagine [提示词]
等待 60 秒生成 4 张图
点击 U（放大）或 V（变体）继续优化

没有高级编辑器、没有图层、没有滤镜库。就是纯粹的”输入语言，输出图像”。

这种极简的另一层含义是：所有的智能都在模型里，产品的工作是把模型的能力包装成 3 个按钮。这解决了一个核心问题——如果做成”功能丰富”的产品，反而会降低生成质量（因为要支持兼容太多定制）。

非共识 #3：个性化学习（V7 创新）

到了 2025 年 4 月的 V7 版本，Midjourney 推出了”个性化学习”——模型会学习每个用户的偏好风格，越用越懂用户想要什么美学。这是从”通用生成模型”到”为个人定制审美”的进化。参考：Midjourney V7 发布公告

对应的产品创新还有：

Draft Mode（2025 年）：10 倍速生成 + 50% 成本，用于快速迭代
语音输入：不用打字，直接说出想象，模型自动转化为提示词
Omni Reference：一张参考图 + 一行文字，AI 能理解你要什么风格

这些都指向同一个方向：从工具化的”输入-输出”，演进到助手化的”我理解你的审美”。

3.3 怎么验证的（MVP）

2022 年 2 月，Midjourney 在 Discord 上内测发布了最简陋的版本——就是一个 bot，每次生成耗时 1-2 分钟，质量参差不齐。创始人 David Holz 在 Discord 的”Founder’s Court”直接邀请 100 个创意工作者进来试用。

早期的用户反馈是分化的：

30%：生成质量不够好，放弃
50%：能用，但需要多试几次才能出好东西
20%：尖叫声，“这改变了我的工作方式”

Midjourney 的做法是：死死盯着这 20% 的尖叫声，理解他们为什么兴奋，然后每周迭代一个关键功能来满足他们。第一个月的产品不是”完美的 v1”，而是”有明确 wow moment 的 beta”。

验证方式的核心是社区反馈即时化：在 Discord 上，用户能看到别人生成的图，看到哪些 prompt 效果好，自动形成了 best practice 库。Midjourney 不需要做用户研究访谈，只要看频道聊天记录就知道用户想要什么。

3.4 怎么切入市场的（PMF）

初始目标不是大众消费者——而是创意专业人士和设计师。这是一个更狭窄但付费意愿极强的市场。

PMF 的信号非常清晰：

自发传播：没有任何营销预算（真的是零），但 Twitter、Instagram、TikTok 上创意工作者自发分享 MJ 生成的作品
付费转化快：用户体验到 “AI 能理解我的美学偏好” 之后，主动升级付费，不需要销售推动
用户创建内容：大量用户用 MJ 生成的图作为自己的作品集、社交媒体展示，甚至卖给客户

2022 年 7-8 月是 Midjourney 的 PMF 拐点。Discord 上的日活从 1000 人跳到 10000 人，再到 100000 人。而这一切都发生在”零营销预算、零销售团队”的背景下。

市场切入的层级很清晰：

第一波：数字艺术家、概念美术师（想快速生成参考）
第二波：品牌设计师、创意总监（用作头脑风暴、方案展示）
第三波：内容创作者、自媒体博主（生成封面、配图、缩略图）
第四波：普通用户（好玩、社交分享）

3.5 怎么增长的

增长引擎的设计非常精妙：

阶段 1（2022 年 2-8 月）：社区爆炸

初始：100 人内测
2 周后：1000 人
1 月后：10000 人
2 月后：100000 人
3 月后：100 万人

这完全是病毒增长。机制是：

用户生成美好的图 → 在 Discord 频道展示
频道里有新人看到 → 被震撼 → 想参与
朋友圈分享 → Twitter 刷屏 → 更多人跳进来

阶段 2（2023 年）：产品-市场契合强化

V3、V4、V5 快速迭代，每个版本都有明显的质量跃升
推出付费层级：Basic、Standard、Pro、Mega
日生成图像量从几百万跳到数千万

阶段 3（2024-2025 年）：多模态融合 + 社区拓展

推出 Niji mode（动画/二次元）
推出视频生成（Image-to-Video，2025 年 6 月）
推出网页编辑器（2024 年），降低 Discord 使用的学习曲线

关键的增长催化剂：

社交媒体的自发传播：TikTok、Instagram 上”AI 生成的惊人作品”成了一个爆款内容类别
创意行业的接纳：更多专业设计师开始用 MJ，这会吸引他们的客户和竞争对手跟风
定价合理：$10-120/月的价格对创意专业人士来说完全可承受，而且有免费试用层级

ARR 增长曲线：

2023 年中：~$100M ARR 推测
2024 年中：~$250M ARR 推测
2025 年 5 月：$500M+ ARR（官方数据）

这是从零到 5 亿美金年收入，用时 3 年，不融资的案例。对标 Cursor（3 年到 10 亿但融资 35 亿），Midjourney 的”人均产出效率”更高。

3.6 怎么赚钱的

定价策略演变：

初期（2022 年 8 月上线）：

Basic：$10/月，100 张图/月
Standard：$30/月，无限快速生成
Pro：$60/月，50 张并发生成
Mega：$120/月，最高优先级

定价的逻辑很清晰：按生成配额来分层。重度用户（设计师、内容创作者）要付更多钱。

中期（2024 年）：切换到”快速生成额度”模式——按并发数和优先级而非总数，更好地贴合实际使用。

2025 年的关键创新：Draft Mode

推出 Draft Mode——10 倍速生成（10 秒而非 60 秒），成本是标准的 50%。这打破了之前的”要么付钱要么等待”的二元论，变成”快速迭代用 draft，最终稿用标准”。

这个定价创新的天才之处在于：

对轻度用户：draft 足够了，付费意愿上升
对重度用户：可以快速迭代多个方案再选最好的，实际支出反而更多
对公司：通过”速度差异化”而非”功能差异化”来收费，很难被开源模型复制

纯订阅制，无 API

关键决策：Midjourney 只做订阅，不做 API 出售、不做按需计费、不做 B2B 企业授权。这意味着：

不向其他产品出租模型
所有收入来自直接用户的月费
完全不依赖企业客户

这种”单点突破”的打法看似限制了市场，实际上是反向选择——避免了”API 版本会被复制、被大厂更便宜的 API 取代”的风险。Midjourney 选择了深度服务消费者而非浅层服务企业。

转化率数据：

注册用户 1983 万
付费用户推测 1000-2000 万（基于 $500M 年收入，月费平均 $25-30 计算）
转化率约 50-100%（极其健康）

3.7 壁垒在哪

Midjourney 的壁垒是多维度的，不像 Cursor 那样主要依赖架构差异：

品牌美学壁垒 ★★★★★

用户一看生成的图，第一时间就能说”这是 Midjourney 风格”。这种视觉辨识度有多强呢？

Instagram、TikTok 上说”用 Midjourney 生成”会获得高赞
专业设计师能一眼看出作品是不是 MJ 生成的
“Midjourney aesthetic”成了一个独立的视觉文化符号

这种品牌壁垒来自两个源头：

模型的”审美训练”：Midjourney 用特定的数据集和微调方式，让模型倾向于生成某种美的偏好（色彩丰富、构图平衡、细节精致）
社区的集体审美：Discord 频道里用户互相点赞最好看的作品，这形成了正反馈——越多人用 MJ，越多人看到好看的 MJ 作品，越多人想用 MJ

社区和网络效应壁垒 ★★★★

1000 万用户日活在 Discord 上相互交流、互相启发、看别人的提示词、学最佳实践
每个新用户加入时，已经有几千万张参考图在频道库里，大大降低了学习曲线
社区变成了数据库，Midjourney 能看到哪些 prompt 最流行、哪些风格最受欢迎

从竞品的角度，这个壁垒极难复制：DALL-E 3 也能生成高质量图，但它没有 Discord 社区、没有社交反馈闭环。

数据壁垒 ★★★★

3400 万张日生成的图像（共超过 50 亿张）全部流向 Midjourney 的数据库
每张图都带着用户的提示词、选择的参数、用户反馈（U/V/Remix）
这个数据库能帮助 Midjourney：
- 理解”什么提示词的搭配效果最好”
- 优化模型的理解能力
- 训练个性化的推荐引擎（V7 的个性化学习）

这对标 Meta 的”广告投放数据”——Meta 告诉 Midjourney，用户的美学偏好数据对优化广告投放有多值钱。2025 年，Meta 甚至和 Midjourney 达成了合作，用 MJ 的”美学技术”来优化 Meta 的广告投放。参考：Midjourney 与 Meta 合作

弱项：模型不自研

Midjourney 用的是什么模型？官方很少披露细节，但从论文和技术博客推测，混用了开源的扩散模型（Diffusion）+ 自训练的微调层。相比 OpenAI 用专有的 DALL-E 模型、Stable Diffusion 能完全开源，Midjourney 处于中间——既不是万无一失的专有，也不是完全开源。

但这个弱项实际上被隐藏了，因为：

用户看不到底层用的什么模型，只看结果
品牌美学和社区网络效应足以形成锁定

四、战略框架

4.1 时代红利（Why Now）

2021-2022 年是扩散模型的拐点年：

Stable Diffusion 即将开源（2022 年 8 月）
DALL-E 2 证明了消费级生成质量的可行性（2022 年 4 月）
Creator Economy 兴起，内容创作者对”秒速出图”的工具饥渴

Midjourney 的时机非常精准——在模型足够好、但还没有产品把它变成消费级工具的窗口期上线。

4.2 核心优势

配置论分析：

竞争维度的重新定义：从”模型能力”重新定义为”审美品味 + 社区”
这引入了新变量——你不是在和 OpenAI 比模型能力，而是在和它的社区生态比
对标：iPhone 之于手机行业（不是硬件最强，而是生态和体验）

Midjourney for X 评估：

创意工作适配度：极高。生成、修改、迭代一个设计方案，反馈周期从”问客户意见 → 修改 → 再问”（1-2 天），变成”AI 秒速生成 4 个方案”（1 分钟）
距钱距离：中等。生成的图片能直接被专业用户卖给客户（概念美术、品牌提案），但对大多数消费者用户是”娱乐消费”而非”直接增收”

反脆弱评估：

下行风险：开源扩散模型 + 更便宜的竞品（Stable Diffusion Free Tier）逐步蚕食市场
上行空间：如果 AI 生成创意内容变成主流（预计 2025-2026），Midjourney 作为”最美观最流行的风格”会赚翻
杠铃策略：用 freemium tier 锁住海量创意消费者（保守端），同时押注专业设计师付费用 Pro/Mega（激进端）

五、其他

非共识 #1：不融资

Midjourney 之前的创始人融资经历（Leap Motion 超 1 亿）让 David Holz 看清了融资的代价——高速增长的压力、团队扩张的低效、董事会的干预。

他做出了激进的选择：从第一天就把产品设计成”赚钱优先”。这意味着：

早期就设计好了付费转化漏斗
不追求”先铺量后变现”的互联网逻辑
控制成本，宁可小团队也要保持效率

这对标 Basecamp 的创始人 Jason Fried 的哲学：“小而美比大而困更好”。

非共识 #2：小团队高效

107-163 人的团队年收 5 亿美金，人均产出 530 万/年。对比：

Cursor：300+ 人年收 10 亿，人均 167-250 万
DALL-E 的 OpenAI：1000+ 人支撑多个产品线

Midjourney 的秘密是：不招销售、不招市场、极少的 HR，大部分是工程和产品。纯研发驱动。

非共识 #3：Discord 优先分发

传统思路：“做 web app、iOS、Android，全覆盖。”

Midjourney：“只做 Discord bot，可能吧。”

结果：通过 Discord 单一渠道积累了 2000 万用户，社区粘性远高于 web/app。2024 年才推出 web 编辑器，纯是”方便一些用户”而非”增长引擎”。

这违反了产品多元化的常规智慧，但它工作了。

非共识 #4：三大核心创新（2025）

Midjourney 在 2025 年推出的三个功能，构成了从”工具”到”助手”的进化：

Draft Mode（2025 年早期）：10 倍速生成 + 50% 成本
- 解决的问题：创意人士需要快速迭代 100 个想法，宁可质量稍低但速度快
- 定价创新：之前不能对速度定价，现在能了
个性化学习（V7，2025 年 4 月）：模型学会用户的偏好风格
- 解决的问题：用户要反复调试提示词才能得到满意的结果，很烦
- 壁垒提升：越用越懂你，替换成本上升
视频生成（2025 年 6 月）：Image-to-Video，把静态图变成视频
- 解决的问题：视频内容创作是新风口，但视频生成难且贵
- 市场拓展：从平面设计拓展到视频编导

六、Mars 视角

[待 Mars 审核后填充]

Midjourney 的三大非共识特性（零融资 + 小团队 + Discord 优先）精准戳中了当下 AI 创业的伪共识。现在很多人是不融资根本活不了；Midjourney 证明了只要对标的是全球市场，服务足够有价值，纯自举也能年赚 5 亿。

这对中国 AI 创业的启示是：不要盲目融资，要早期就设计好赚钱逻辑；不要盲目追求”全渠道覆盖”，要抓住一个社区聚集的地方（国内可能不是 Discord 而是小红书/抖音）做深。

七、相关案例

DALL-E 3：OpenAI 的文生图模型，能力上不弱于 MJ，但因为被限制在 ChatGPT 里、收费贵（GPT+ $20/月）、社区弱，增长远慢于 MJ。对比看”产品包装”和”社区”的重要性。
Stable Diffusion：开源扩散模型，任何人都能本地跑，成本接近零。代表了”能力民主化”，但因为需要技术门槛（本地部署）和审美调整（参数微调），被 MJ 的”开箱即用”降维打击。
Flux：Black Forest Labs 的新一代开源模型，生成质量逼近 MJ，但也是开源无社区的路数。能否通过产品包装逆转，值得观察。
Luma AI：主打视频生成，也是融资（$300M+ 累计融资）走的路，对标 MJ 的 Video v1。会成为 MJ 在视频领域的竞争对手。
Cursor：虽然品类不同，但都是用”社区网络效应”锁定用户的产品。Cursor 通过 freemium + 口碑、MJ 通过 Discord + 视觉分享，殊途同归。

八、关键时间线

时间	事件	意义
2022.02	Midjourney 成立，100 人内测开始	创始人：David Holz（Leap Motion 前 CEO）
2022.03	Stable Diffusion 即将开源，DALL-E 2 发布	时机窗口：模型足够好，产品还是空白
2022.08	公开发布，Discord bot 上线，同月即盈利	零融资 1 个月即盈利，业界哗然
2022.09-12	Discord 日活从 1000 → 100 万，病毒传播	纯有机增长，零营销预算
2022.11	V3 发布，明显质量提升	首个”突破”版本
2023.03	V4 发布，风格可控性大幅提升	PMF 时刻，付费转化明显上升
2023.07	V5 发布，写实能力显著进步	吸引摄影师、广告人投入
2023 年末	推出 Niji Mode（动画二次元）	拓展垂直市场
2024	推出 Web 编辑器	降低使用门槛，但 Discord 仍是核心
2024 年底	1500+ 万注册用户，日活 200+ 万
2025 年 5 月	$500M+ ARR 对外宣布	三年零融资到 5 亿美金
2025.04	V7 发布：完全重建，个性化学习、Omni Reference	从工具到助手的进化
2025.06	视频生成 V1（Image-to-Video）发布	从平面到动态内容的拓展
2025 年末	Draft Mode 推出，10 倍速 + 50% 成本	定价创新，轻度用户门槛降低
2026.01	1983 万注册用户，日活 120-280 万	稳定增长期
2026.01	与 Meta 达成合作，用 MJ 审美优化广告投放	品牌价值商业化，从 B2C 向 B2B 扩展

九、参考来源

十、更新日志

2026-03-17：初始创建，基于提供的调研数据完成全部章节（待 Mars 审核）

关联打法

看完后推荐

想了解竞品？看 [[产品/[[DALL|DALL、[[产品/Stable Diffusion|Stable Diffusion]]、[[产品/Flux|Flux]]
想了解打法？看打开能力门槛新市场、打开价格门槛新市场
想了解行业？看图像设计赛道全部产品

Mars Product Wiki

探索

Midjourney

Midjourney

一、基本面

二、发展脉络与创始人基因

前史：Leap Motion 的失败与学习

三、成长旅程

3.1 怎么找到这个机会的

3.2 产品怎么设计的

3.3 怎么验证的（MVP）

3.4 怎么切入市场的（PMF）

3.5 怎么增长的

3.6 怎么赚钱的

3.7 壁垒在哪

四、战略框架

4.1 时代红利（Why Now）

4.2 核心优势

五、其他

六、Mars 视角

七、相关案例

八、关键时间线

九、参考来源

十、更新日志

关联打法

看完后推荐

关系图谱

目录