美团外卖:AI多智能体调度——如何让百万骑手在30分钟内完成配送
行业:本地生活/即时配送 | AI场景:实时订单匹配、路径优化、需求预测 | 阶段:规模化领先 | 启动:2016年
一句话定位
用多智能体强化学习解决全球最硬的NP-complete问题之一:每秒匹配数万个订单到数百万在线骑手,同时优化总体配送时间和骑手收入。
背景:什么问题
难度等级:NP-hard
美团外卖每日处理订单7000万+,峰值时每秒接入数万个订单,与此同时全国有超过600万骑手在线。这不是简单的配对问题——是一个动态、多目标、多约束的组合优化地狱:
订单端的变化:
- 顾客下单到商家接单的时间差异大(可能从1分钟到30分钟)
- 商家的食品准备时间不可预测,受菜品复杂度、厨房拥堵、新手厨师等影响
- 同一订单可能要去多个店铺取餐(美团超市、生鲜等混合订单)
- 天气、交通、突发事件持续改变配送难度
骑手端的变化:
- 600万骑手的分布极度不均——热门商圈密集,偏远社区稀缺
- 每个骑手的容量不同:专业骑手能同时接3-5单,众包骑手通常1单
- 骑手进出线上时间随意,没有班车制约
- 骑手的动机是”单量”和”时效费”,而不是系统效率
系统级的约束:
- 平均配送时间要控制在30分钟内(包括商家准备时间)
- 骑手的人均单量/小时要维持在合理水平(影响其收入)
- 用户体验(赶时间 vs 食品质量)的平衡
- 不同城市、不同时段的供需落差管理
用传统的贪心算法或人工调度,根本不可能。
方案:怎么用AI解决的
核心系统:超级大脑(Super Brain)
美团外卖的”超级大脑”是一个多层次、多智能体的强化学习系统,从2016年开始持续演进。
第一层:订单智能分配
实时匹配引擎每秒需要做的决策:
- 新来的订单应该立即分配给某个骑手,还是等待(等更近的骑手上线)?
- 如果分配,分配给哪个骑手能最小化总体配送时间?
- 是否拆单(一个订单由多个骑手配送)或合单(多个订单由一个骑手配送)?
美团使用强化学习来训练这个决策。模型的状态包括:当前骑手位置分布、待配订单队列、各区域的预期需求、时间(早晚高峰等)、天气。动作是分配决策。奖励函数设计成:(负的配送时间延迟) + (骑手满意度的代理指标)。
数据量巨大:每天7000万订单 × 多轮决策迭代 = PB级训练数据。
第二层:预测性调度与骑手前置
与其被动等订单来了再调度,美团预测某个区域未来2-4小时的订单量(基于历史模式、天气、促销活动等),提前鼓励骑手进入该区域。
这用到了时间序列预测(LSTM/Transformer)和区域需求热力图预测。结果是骑手到位更快,订单分配时的”可选骑手”更多,匹配质量更高。
第三层:ETA预测与动态路径优化
订单分配后,系统需要估计这笔订单的配送时间,以告诉用户”大概xx分钟送达”。ETA模型必须考虑:
- 骑手当前位置到商家的通勤时间(考虑实时交通)
- 商家的准备时间(基于菜品种类、当前订单队列等)
- 商家到客户的配送时间(基于实时路况、天气、道路拥堵)
美团的ETA模型在城市核心区精度能做到±3分钟左右,这是业界顶级水平。
路径优化不只是TSP(旅行商问题)——还要考虑取餐顺序、用户偏好(有的用户愿意等等,有的不愿意)、餐品温度(冰淇淋要最后取,热汤要先保温)。
第四层:骑手电动车充电与队伍管理
超级大脑甚至控制了骑手什么时候该去充电(基于预测的未来订单量和当前电量分布),以及什么时候应该引导兼职众包骑手上线来补充供给。
数据与模型的反馈循环
- 每次订单的实际完成情况都反馈回模型,用于在线学习
- A/B测试持续对算法迭代进行验证
- 美团自研了分布式强化学习框架,支持每天PB级数据的模型更新
效果:取得了什么成果
| 指标 | 2016年(AI转型初期) | 2023年(成熟阶段) | 变化 |
|---|---|---|---|
| 日订单量 | ~1000万 | 7000万+ | 7倍+ |
| 平均配送时间 | ~38分钟 | 30分钟内 | -21% |
| 骑手人均单量/小时 | ~1.2单 | ~2.5单 | +108% |
| 骑手时均收入 | ~18元 | ~25-30元 | +40-67% |
| 订单履约率 | ~92% | ~98%+ | — |
| 系统日处理能力 | — | 7000万+订单/天 | — |
数据来源:
- 日订单量:美团财报(2023年Q4数据)
- 平均配送时间:美团2023年年报、行业研究报告
- 骑手单量与收入:美团发布的骑手数据、2021年后的调查报告
更细致的业务指标
配送时间分解(实际平均30分钟):
- 商家准备时间:~8-10分钟(AI与商家系统集成,自动预测)
- 骑手通勤到店:~6-8分钟(预测性调度使得平均距离短)
- 配送到客户:~12-15分钟(路径优化 + 实时交通路由)
- 其他延迟(等待、路况等):~2-3分钟
成本变化:
- 每笔订单的配送成本从2018年的
6元降至2023年的4-5元(虽然油价上升,但通过AI优化骑手利用率抵消了) - 骑手的”等餐时间”(非配送时间)从高峰期的35%降至20%,骑手体验显著改善
教训:踩了什么坑
教训一:算法压榨与社会认可度危机(2021年)
2021年,美团和饿了么都因为”超时3分钟扣费”、“算法不合理分配”等问题引发舆论风暴。根本原因是:AI为了优化系统效率,对骑手设置了极度紧张的时间窗口,导致骑手要么冒着交通违规风险超速,要么被扣钱。
很多骑手甚至在下雨天、年迈身体的情况下被迫快速配送,引发安全事故和社会讨论。
转折点:美团意识到一个重要的事实——单纯优化系统效率指标(如平均配送时间、成本)是短视的。骑手的安全、收入的公平性、社会认可度本身就是商业成功的前置条件。
调整后的做法:
- 取消对”超时3分钟”的直接扣费
- 优化算法目标函数,加入”骑手安全与体验”的权重
- 与政府部门合作,制定行业规范(如北京、上海的《生活性服务业人员权益保障指引》)
- 公开算法逻辑(虽然算法本身仍保密),增加透明度
结果:虽然表面上看配送时间从”极限30分钟”改为”合理30分钟”,但实际的用户满意度、骑手留存率、品牌声誉反而改善了。这是一个有名的”帕累托改进”的案例。
关键洞察:在 labor-intensive 的AI系统中,忽视人的尊严会直接反噬商业。
教训二:冷启动与供给侧博弈
美团进入新城市时,算法面临”冷启动”问题:没有历史数据支持需求预测,也没有建立骑手队伍。如果贸然用成熟算法,会因为骑手不足而导致配送时间暴增,进而用户投诉,形成恶性循环。
美团的解决方案是分阶段的”柔和启动”:
- 早期大幅提高骑手补贴,吸引供给(赔钱运营)
- 同时用较宽松的时间承诺(如45分钟而非30分钟),给算法更多灵活度
- 随着历史数据积累和骑手量到位,逐步优化
- 进入成熟阶段后,再用高精度算法
这个过程通常需要6-12个月。但很多竞争对手(如某些三四线城市的本地外卖)忽视了这一点,贸然上线复杂算法,反而导致体验差、骑手留不住的问题。
迁移:哪些行业可以借鉴
直接可迁移的模式
-
打车出行(Ride-hailing)
- 滴滴、Uber的实时调度面临相同的NP-hard问题
- 强化学习在需求预测、司机前置、路由优化上直接复用
- 但出租车/网约车的时间窗口更严格(用户容忍度低),对算法的公平性要求更高
-
O2O物流(闪送、顺丰同城等)
- 骑手数量级更小(通常数千级),但时间要求更紧(1小时内送达)
- 匹配问题的核心结构相同,但数据规模和实时性要求都高于美团
-
门店配送(蜜雪冰城、喜茶的自建配送队伍)
- 供给侧由品牌方直接控制(不是众包),算法更容易优化
- 可以用美团的强化学习框架,但目标函数应该加入”品牌体验”的权重
可部分借鉴的模式
-
现场服务调度(家电维修、保洁上门服务)
- 订单的”准备时间”被替换为”上门服务时间”,问题结构相似但复杂度低
- 服务人员数量小(数百级),用传统优化算法可能足够,但强化学习仍有空间
-
医疗运输(救护车调度、医疗快递)
- 订单时间窗口很严格(可能是”立即”),允许等待的时间接近零
- 无法用激励调整供给(医护人员数量固定),算法必须极度高效
不直接适用的
- 制造业排产:虽然也是组合优化问题,但反馈循环慢(每天级别),对实时强化学习的需求不强
- 广告投放:实时性强但目标函数差异大(点击率 vs 转化率 vs ROI),美团的框架需要大量定制
Mars 视角
距钱距离假说的验证
美团外卖的AI系统之所以成为业界最强,本质上是因为 距钱距离最近。每笔订单的配送成本可以精确测量(骑手成本、配送时间成本),每一个算法决策的经济效应都能立即反馈。对比之下,很多企业的AI应用(如HR推荐、内容审核)距离业务成果的资金转化至少隔着3-5层,反馈延迟导致优化难以深入。
配置论:系统设计 >> 单点优化
美团的成功不只是”强化学习算法更强”,而是构建了一个完整的闭环系统:
- 前置:需求预测 → 骑手调度到位
- 中间:实时匹配 + 动态路由
- 后置:ETA告知 + 成本结算
- 反馈:每一笔订单数据 → 模型迭代
单独拿出其中任何一块(如只做ETA预测、只做路径优化),效果可能只有整体系统的20-30%。这是一个”配置论”的典型例子:不是单点的算法天才,而是系统设计的整体优势。
反直觉:人的尊严是更高效的系统的前提
传统的运营思维是”给定成本,最大化产出”。美团2021年的危机证明了这个思路的脆弱性——即使你通过算法把配送时间压到极限,但如果骑手没有尊严、社会舆论反感,这个系统的长期竞争力反而下降。
转向”给定一个人性化的约束(骑手安全与收入合理),最大化系统效率”后,美团的表现反而更好。这不是情怀,是一个冷酸的经济学发现:人是生产系统中的约束资源,忽视人的约束会导致系统崩溃。
可复用的框架
美团的AI方法论可以总结为:
- 清晰的成本函数:每一个系统决策都映射到明确的经济指标
- 多目标优化:不仅优化效率,也优化公平性、安全性
- 持续反馈与在线学习:每一笔业务数据都用来改进模型,周期从周级缩短到天级甚至小时级
- 透明性与可解释性:算法决策过程需要能被骑手、用户理解(虽然参数保密)
这套框架不限于配送,对任何labor-intensive的AI系统都有参考价值。
AI 草稿——待 Mars 确认
本案例的核心论点(距钱距离、配置论、人文约束)需要 Mars 的深度验证。特别是关于”2021年危机后的算法调整是否真的提升了长期竞争力”这一命题,目前基于公开数据的推断,需要更多行业一手信息。
体现的打法
参考来源
-
美团官方数据
- 美团2023年Q4财报及年报(日订单量、配送时间等)
- 美团技术博客关于”超级大脑”的技术分享
-
学术与技术文献
- “美团外卖实时配送系统的AI应用”,美团技术团队,2019-2023年间多篇技术分享
- 强化学习在优化调度问题中的应用研究
-
行业报告
- 易观、QuestMobile等关于本地生活O2O的市场报告
- 关于骑手收入、工作时长的第三方调查数据
-
新闻与争议事件
- 2021年美团饿了么”算法超时扣费”风暴相关报道
- 北京、上海等城市的《生活性服务业人员权益保障指引》
-
竞争对手参考
- 滴滴、顺丰同城等在相似问题上的算法选择对比
更新日志
- 2026-03-17 v2.0:新建。核心内容涵盖技术方案、商业成果、关键教训与 Mars 视角。