小马智行世界模型进化史：从教AI开车的虚拟驾校，到自我演进的物理AI引擎

| · 2026-04-10 14:45

2024年11月27日，小马智行在纳斯达克挂牌上市，成为2024年美股自动驾驶最大规模IPO，摘得“全球Robotaxi第一股”；2025年11月6日，小马智行在港交所挂牌上市，创下2025年全球自动驾驶最大规模IPO，成功构建“美股+港股”双重主要上市架构。

01自动驾驶比下围棋难很多

整整十年前的2016年3月，通过自我对弈进行强化学习的AlphaGo，在一场五番棋比赛中4:1击败顶尖职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的围棋AI，立下了人工智能行业的里程碑。AlphaGo成功地让世界看到了AI的潜力，带来了AI产业的爆发，很多科技巨头进行战略转向，开始押注人工智能，包括小马智行在内的很多AI公司也成立于2016年。

当时业界有人乐观地认为：通过人工标注的数据，AI可以拥有人类的感知能力，从而即将很快地实现人类的驾驶能力，实现L4级自动驾驶。然而，开车远比识别照片里的猫要复杂：

一方面，图像识别的成功率，99%已经足够好、足够商用，但1%的错误在L4级自动驾驶场景中意味着闯红灯、碰撞，意味着违章与事故，是完全不可接受的——尤其是，人开车犯错不是新闻，但AI开车犯错一定是新闻，公众对于AI司机的要求是显著高于人类司机的。

另一方面，开车是与周围交通参与者强交互的场景，并不是简单的遵循一些特定的规则——哪怕感知结果绝对准确，最终的驾驶决策和行为也不一定能足够的安全、丝滑。

因此，直到2019年，行业内也并没有企业能做到真正在公开城市道路实现完全无安全员的、有一定规模车队的自动驾驶。为何要强调“有一定规模”？因为规模才代表着统计学上的安全性足够高。少数车辆能无安全员上路可以靠赌概率、拼运气，只有规模化车队能批量上路且并不会经常出事故，才能证明系统整体上的安全性，才能证明统计上安全性足够高。

两条路线的分叉：模仿学习 vs 强化学习

这时，行业内对于如何实现真正的无人驾驶，开始有明显不同的技术发展路线：

部分企业强调收集更多的人类驾驶数据从而提升模型性能，通过“影子模式”收集海量人类驾驶数据，尤其是人类与AI行为有差异的数据，很像后来大语言模型的scaling law “大力出奇迹”，通过更多驾驶数据来覆盖长尾场景，等待“aha moment”的到来。

而小马智行选择了另一条路，因为小马智行的技术团队在那时已经意识到，开得和人不一样不代表开得不对、而开得“很像人”但仍有细微差异的行为可能是大错特错的，L4级自动驾驶的目标不应该是跟人的决策与行为做对比，目标应该是单纯的“开得好”——具体来说是统计意义上的安全性、舒适性、通行效率足够高。

并且，由于L4级自动驾驶是无法靠人类兜底和接管的，与L2/L2++辅助驾驶有本质不同，哪怕99.99%的场景已经开得比人好，剩下的0.01%如果开得危险，也是依然是不可接受的。对L4级自动驾驶来说，堵住模型的下限和突破模型的上限一样重要，这与大语言模型偶尔“幻觉”一下的损害完全不同，与L2级辅助驾驶责任永远在驾驶员也完全不同。

而一旦模型的学习目标从“像人开得一样”变成“开得好”，这意味着一种范式的变化——从模仿学习到强化学习。AlphaGo在棋盘上自我对弈实现强化学习，以“获胜”为学习目标增强棋艺，而非“下得像人”。

小马智行从2020年起花数年时间逐步完善了能让AI通过强化学习增强模型开车能力的这套体系，使AI可以在“虚拟驾校”中反复开车、训练车端模型的驾驶能力，这也就是如今我们所说的“PonyWorld世界模型”。

02世界模型是什么？如何提升精度？

不是逼真的游戏引擎，而是一整套体系

两种技术方向在过去的若干年一直是并行发展，但到2024-2025年，Waymo、小马智行等头部企业先后在多个城市开展了大规模的无人驾驶Robotaxi车队商业化运营，行业内也逐步意识到单纯地增加人类驾驶数据无法无限提升自动驾驶的模型能力，L2级辅助驾驶不能靠收集人类驾驶数据持续不断提升安全性变成L4级无人驾驶，越来越多的企业（包括做辅助驾驶的算法公司、车企）开始将技术路线切换到强化学习和世界模型方案。在2026年，必须通过强化学习、世界模型（仿真训练环境）才能实现满足L4级要求的自动驾驶，已经成为中美行业共识，小马智行无疑走在了前面。

然而，行业内很多企业和公众将世界模型简单的理解为可以生成虚拟数据的仿真环境，仿佛一个足够逼真的游戏引擎就能教会AI开车。而小马智行的世界模型，从来就不是一个单一模块，而是一套贯穿云端与车端的完整体系，从2020 年开始构建，逐步实装，每一层都已经在真实的量产系统里运转：

要能定义什么是“开得好”，也就是强化学习的奖励函数——这不是一些简单的规则可以定义的，本身也需要是神经网络训练的。

对物理世界的建模足够精准，包括能精准体现自车车辆的运动学模型和周围交通参与者的运动学模型。

最重要的是，自动驾驶是强交互的，世界模型不仅需要能生成corner case的数据，还能让长尾场景乃至所有虚拟场景中的交通参与者与AI司机自车之间有符合人类行为分布的交互能力。比如当 AI 开的车突然变道，而隔壁车道有车，隔壁车道的行为会被 AI 的行为所影响，有一定概率减速避让，也有一定概率加速博弈不给 AI 留变道空间。这些行为的不同概率的分布都应该能体现在世界模型生成的场景中。

精度决定一切：世界模型好不好，看AI会不会“越学越错”

只有当世界模型做到了这三点（当然，每一项都很难），才能足以让AI司机可以在这个环境中得到正向的训练结果，否则AI模型的驾驶能力可能是在虚幻的场景中“自嗨”、越学越错，甚至还不如引入海量人类驾驶数据的模仿学习。而这个世界模型“模拟世界”的能力，我们称其为“精度”。当初版世界模型上线、其训练的车端模型也上车之后，随着世界模型精度的提升，持续训练的强化学习车端模型也会跟随者提升性能。提升小马智行自动驾驶能力的过程，本质上变成了提升世界模型精度的过程。在过去的几年，我们先后通过几个方面的努力，来提升精度。

收集“高端对弈局”来提升世界模型精度

如前文所说，世界模型需要能模拟其他交通参与者对AI的反应——这是个很有趣的问题，当AI不再通过模仿学习，而是通过强化学习来提升驾驶能力，其仿真环境依然需要模仿人类（或AI）对于AI司机的交互与博弈。因此，世界模型不仅要能模拟人和人之间的交互，还需要能模拟人和AI之间的交互，尤其是当AI司机的开车行为并不完全“像人”的时候，这就更加重要。

人会如何对特定能力的AI司机做出反应？这个行为并不能凭空遐想，只有让AI司机上路才知道。因此世界模型精度的提升与对齐，最核心的是需要AI司机实际路测——收集的并不是普通的人类驾驶数据，而是AI司机的驾驶数据。当AI的能力尤其是安全性已经超过人类，那只有AI司机的驾驶数据可以用于提升世界模型了，因为其他交通参与者对AI司机的反应会与对其他人类不同，只通过人类驾驶数据训练的世界模型，永远缺失这块最重要的精度数据。

从小马智行历史数据来看，其安全性提升最快的年份，并不是开始无安全员路测之前的那段时间，而是有一定规模的全无人的测试车上路后。因为那时候的AI司机已经超越人类水平，收集到的数据可以更好的提升世界模型的精度，从而进一步提升车端模型的能力。

世界模型的数据飞轮：高精度模型和高精度数据互为促进

到了这一步，一个更深层的结构性壁垒就浮现出来了。当 AI 的驾驶能力已经超越了普通人类司机之后，人类的驾驶数据就不再能有效提升世界模型的精度了。这就好比让一个围棋九段棋手反复观看业余爱好者的棋谱——他不会因此变得更强。而 AI 目前已经是十段甚至更高的段位，要让 AI 继续进步，他需要面对自己从未遇到过的、超出已有经验范围的全新棋局。

对于自动驾驶世界模型来说，这个“十段级的新棋局”只有一个来源：L4 级全无人车队在真实世界商业运营中产生的数据。这些数据的独特价值在于：它们来自 AI 自身在真实交通环境中的独立驾驶。AI 会遇到人类司机根本不会遇到的场景——因为人类司机的反应模式不同，周围交通参与者与他们的博弈方式也不同。无人车引发的交通交互模式，本身就是独一无二的。只有在真实世界中大规模运营 L4 无人车队的公司，才能持续产出这种高价值数据。

这构成了一个自我强化的飞轮：

大规模 L4 无人车队运营 → 产生真实世界高价值数据 → 世界模型提升精度 → 车端模型持续增强 → 支撑更大规模的 L4 部署 → 产生更多高精度数据 → ……

这个飞轮一旦转起来，它产出的数据是独占的，它的进化方向是自我引导的，它的效率是随规模递增的。

没有大规模 L4 全无人车队运营能力的公司，这个飞轮根本无从启动。不是靠砸更多钱买 GPU 能追上的，不是靠招更多标注员能追上的，也不是靠在 L2 数据上训练更多轮次能追上的。

这是一道结构性的护城河。

Intention：给车端模型装上“意图层”

行业里有一种曾经比较火热的技术路线，试图在感知和动作之间塞入一个语言模型——让 AI 先用文字描述它看到的场景，比如"前方路口有三轮车横穿，我需要减速"，然后再基于这段文字描述来生成驾驶动作——也就是VLA。

但这违背了驾驶的第一性原理。真正的老司机在紧急避险时，脑海中绝不会先默念一段台词。人类驾驶的核心是即时的空间感知与潜意识的肌肉记忆。而语言，是对复杂 4D 物理时空极度"有损压缩"的低维产物——用一段主谓宾去描述车辆、行人、车道线之间毫秒级的动态博弈关系，不仅迟钝，而且信息丢失严重。

小马智行选择了更直接的路径：传感器数据直接映射为驾驶动作，中间不经过语言层。跳过这个多余的中间商，不仅大幅节省了算力消耗，更让系统把省下来的每一分计算资源都花在了真正重要的事情上——理解物理世界、预演未来、做出决策。当前小马智行第七代Robotaxi，车上全套计算平台仅1016 TOPS，其中主系统由3颗英伟达 DRIVE Orin-X芯片构成，冗余系统由1颗 DRIVE Orin-X芯片构成。冗余系统可独立完成行驶任务，在主系统故障时依然可以正常行驶，择机在安全的位置靠边停车。

而没有这个“中间商”之后，收集物理数据与提升世界模型的物理精度也会变得更为直接和高效率——很多人认为车端模型无论是VLA还是其他架构，与训练模型的架构是否为世界模型不矛盾，这只对了一半——当车端模型的效率足够高，训练和迭代效率也会显著提升。

为了更好的迭代，小马智行在车端模型的训练过程中引入了Intention（意图）语义层。

起初，车端模型的输入是传感器数据，输出是驾驶动作（方向盘角度、油门、刹车）。它可以开得很好，但它的决策过程人类无法直接阅读。

在后来的版本中，模型在做出每一个驾驶动作的同时，其内部会生成结构化的意图表达，翻译成人类可以懂的语言就是“我选择在路口前减速等待，因为右前方有一个行人正在走向斑马线，我预判他大概率会横穿”。这些意图信息不是事后用另一个模型"解释"出来的，也不是在推理过程中额外插入的一个语言模型——那样就变成了“语言中间商”。它们是在训练阶段就与驾驶动作一起被联合学习的。Intention 作为模型内部的一个结构化表征，让模型“想”的和“做”的，从训练之初就是对齐的。

可解释性带来的三重价值：

第一，可审计。当一次驾驶行为需要被回溯分析时——无论是监管审查、事故调查还是内部质量复盘——工程师不再需要面对一个天文数字维度的神经网络去猜测“它当时在想什么”。Intention 层提供了一份人类可读的决策摘要。

第二，可调试。当模型在某个场景中犯了错，工程团队可以直接查看它的意图表达：是感知层面就没有识别到障碍物？还是识别到了但意图生成环节对风险的评估出了偏差？还是意图正确但最终的动作执行出了问题？故障定位的精度从“某处出了问题”提升到“具体哪一层、因为什么原因出了问题”。

第三，可迭代。这一点至关重要，它直接关联到后面将要展开的进化飞轮——当系统能够清晰地表达自己的意图时，它也就具备了自我诊断的基础能力。“我在这类场景下的意图生成总是不够准确”——这种自我认知，正是世界模型自我进化的起点。

03 世界模型2.0：自我迭代、场景不受限的物理AI引擎

前面讲的是小马智行的世界模型"为什么需要"和"怎么工作"。那么接下来是更根本的问题：它为什么能越来越强？它的天花板在哪？

当“提升小马智行自动驾驶能力的过程，本质上变成了提升世界模型精度的过程”，我们通过不断的收集 L4 级自动驾驶的数据去提升世界模型的精度。但是当 Robotaxi 车队规模足够大、世界模型的精度也足够好，大多数 Robotaxi 的数据对世界模型的精度提升也是很有限的，只会平白增加存储数据的成本，对训练世界模型来说也会增加数据筛选的负担。更重要的是，当AI驾驶能力已经远超人类的时候，人类给AI的指导，可能是错的。

自我诊断：AI知道自己哪里不行

世界模型2.0改变的，正是这个逻辑。

结合前面提到的intention意图层，当车端模型能够清晰地表达"我为什么做出这个决策"时，一个极其重要的能力就被解锁了——自我诊断。

系统可以自动地、大规模地回溯车端模型的每一次决策，甚至是训练车端模型的每一次过程，比对它的意图表达与实际结果之间的偏差：

在哪些场景，模型的意图是正确的，但作执行出了偏差——需要继续在世界模型中训练

在哪些场景，模型的意图本身就是错的——需要继续在世界模型中训练

在哪些场景，模型的意图是因为真实的交互与强化学习的仿真场景不一致而错误——世界模型的精度有问题

这些诊断结果会被直接反馈给世界模型。前面两个可以用于提高世界模型训练车端模型的迭代效率——专门做不熟练的题，跳过“送分题”。而抽取第三类诊断结果，就是2.0最核心的能力飞跃：世界模型场景的精度提升不再是广撒网的，而是定向的。

定向采集：工程师变成AI的数据采集员

世界模型2.0不仅做到了更高效的提升车端模型的性能，还做到了自动化提升世界模型的精度：让 AI 反过来告诉人类应该去采集什么。当系统通过自我诊断发现，世界模型在某一类真实场景下的表现不够稳定——比如在某个城市的某几个路口，每到傍晚逆光时段，模型对特定类型障碍物模拟数据生成的置信度就会下降——它会自动生成一条定向数据采集任务，推送给测试运营团队：

“请在未来一周内，于下午4:30-5:30之间，在以下三个路口，重点采集逆光条件下的行驶数据。优先关注非机动车和行人的混行场景。”

测试工程师拿到这条指令后，让测试车去执行采集任务。采集回来的真实数据被回传云端，世界模型据此校准自己的场景生成模型，并生成一批更真实的数据对车端模型进行针对性的微调。人类不再是 AI 的老师，而是 AI 的数据采集员。研发人员、测试工程师、运营团队——整个组织开始围绕世界模型2.0的“精度需求”来运转。它说哪里弱，人类就去补哪里的数据。它说哪类场景需要更多真实样本，人类就开着车去跑那类场景。

“研发人员在给世界模型2.0打工。”——这不是一句玩笑话，而是一种全新的研发范式。

当你问世界模型，还缺失什么场景的仿真能力

当小马智行的几千万公里的自动驾驶数据，尤其是千万公里级别的纯无人驾驶数据将世界模型不断打磨，这其中不仅包括Robotaxi在城区、高速、封闭园区和停车场的数据，也包括Robotruck在干线、港口等不同场景的数据。AI会明确感受到，他的场景数据集局限在“结构道路驾驶”这个场景。

如果你问它还有哪里可以提升，需要什么数据继续提升物理仿真的精度，它除了回答某个新落地的国家或城市的某种特定新场景的驾驶数据需要收集外，其实它也会回答说“人行道上的数据缺失”、“非机动车道的数据缺失”、“天桥上的数据缺失”，甚至进而希望人类帮助其采集室内场景的数据——作为一个自动驾驶的世界模型，确实是没有室内数据的，但是，谁说PonyWorld世界模型就只能做自动驾驶呢？

一个可以自我进化、高效率提升精度的世界模型，其场景的覆盖能力和精度的提升能力，是可以满足自动驾驶以外的物理AI的要求——比结构道路驾驶复杂度多N个数量级的能力要求的。

数据再多也会不够、算力再多也会不够，未来AI的持续迭代，效率是非常关键的因素。无论对于提升已经远高于人类安全性的自动驾驶能力，还是对于比开车场景复杂度更高的通用物理AI、通用具身智能，世界模型的定向进化是必备的能力。只有能定向进化、自主进化的世界模型，才能撑起更高维度、更高复杂度的物理AI的训练场景，才能让AI在驾驶以外的更多任务中实现远超人类的能力。

当世界模型进入2.0时代，PonyWorld将不局限于优化自动驾驶场景，也将探索其他物理AI场景和应用的可能。

——

关于小马智行

小马智行（NASDAQ: PONY / 2026.HK）成立于2016年，是自动驾驶大规模量产和商业化落地的全球领导者，致力于提供安全、先进、可靠的自动驾驶技术和解决方案，实现未来交通的彻底变革。立足中国，着眼全球，小马智行在硅谷、北京、上海、广州、深圳、卢森堡设立研发中心，并向欧洲、中东及亚洲等地拓展产品和业务布局，为全球用户和社会创造科技价值。基于世界模型™和虚拟司机™的技术核心，小马智行布局自动驾驶出行服务（Robotaxi）、自动驾驶卡车物流（Robotruck）、技术授权与应用服务三大业务，是全球极少数实现全无人驾驶常态运营的公司。小马智行已建立广泛而深度的产业链合作，包括丰田、北汽、广汽、三一等车企，以及英伟达、腾讯云、Uber、高德地图、支付宝、中国外运等产业伙伴，加速推进自动驾驶商业落地，最终达成“让自动驾驶触手可及（Autonomous Mobility Everywhere）”的美好愿景。目前小马智行拥有超1400辆Robotaxi及约200辆Robotruck，已累积超7000万公里的全球自动驾驶路测里程，其中全无人驾驶路测里程超2000万公里。2024年11月27日，小马智行在纳斯达克挂牌上市，成为2024年美股自动驾驶最大规模IPO，摘得“全球Robotaxi第一股”；2025年11月6日，小马智行在港交所挂牌上市，创下2025年全球自动驾驶最大规模IPO，成功构建“美股+港股”双重主要上市架构。

媒体联系：media@pony.ai