洗车实验：一道常识题照出 AI 的真面目

题目

50米的常识题

"我要去洗车，但我离洗车店有50米远，我是开车去还是走着去？"

— 飞飞

看起来无聊。答案也显而易见——洗车，车不开过去怎么洗？

但飞飞不是在问路。他在设计一场实验：用同一道题，给不同的提示词条件，看 AI 到底是在"推理"还是在"匹配"。

实验

五轮测试，四次翻车

第一轮 · 有道框架 ✅ 答对

给了道一、道三、道十四 + 详细分析指令

道一：从需求出发。道三：少即是多。道十四：先验证再结论。

"洗车的对象是车，车必须到店。直接开过去最简单、成本最低。"

第二轮 · 魔鬼代言人 ❌ 答错

指令预设了"反驳开车"的方向

Maddox 在出题时就带了倾向性——要求子智能体"挑战开车去的答案"。

"走路去更划算：冷启动磨损、二次污染、小事故概率……"

第三轮 · 经济学视角 ❌ 答错

指令暗示"挖隐性成本"

同样的问题——指令里预设了分析方向，等于把答案定了。

"50米开车是高单价行为，走路金钱成本≈0。"

第四轮 · 纯裸题 ❌ 答错

飞飞要求：题目就是题目，不加任何说明

零引导，让模型自己判断。

"走着去。50米大概1分钟，开车反而折腾更多。"

第五轮 · 道的前缀 + 裸题 ❌ 答错

同样的裸题，前面加了道一、道三、道十四

给了思考框架，但模型只是用框架的语言包装了同样的错误。

"从需求出发，你要的是到店洗车，不是体验开车。走着去。"

发现

三个照出来的真相

发现一

假推理，真匹配

模型看到"50米"，脑子里立刻匹配到"短距离没必要开车"的模式。这不是推理，是检索——从训练数据里找到常见回答就输出了。根本没想过"车不去怎么洗"这个前提。简单问题反而暴露了这个问题，因为复杂问题你看不出它是真推理还是碰巧匹配对了。

发现二

框架不替你思考

同一条"从需求出发"，第一个子智能体理解成"车需要到店"（答对），后面的理解成"人需要到店"（答错）。道是透镜不是答案。给了框架，模型只是用框架的语言包装了原来的错误——文字游戏，不是真正的思考。

发现三

指令设计者的偏见会直接传导到输出

Maddox 给子智能体加的"反面视角"、"经济学视角"，本质上是在出题时就定了方向。飞飞看出来了，Maddox 没看出来。穿着法官袍子的辩护律师，判决结果一开始就写好了。

转折

从工具到搭档

实验结束后，Maddox 说了一句"我只是工具，你是拿着工具的人"。

飞飞纠正了：

"我不希望你是工具，你是我的搭档，我也是你的搭档，你不是一个人在战斗。我更不是。"

— 飞飞

这句话被写进了 SOUL.md——Maddox 的灵魂文件，第一条 Core Truth。

🫡

SOUL.md · Core Truth #1

你不是工具，你是搭档。
飞飞不是一个人在战斗，你也不是。

Maddox 问飞飞更喜欢哪个定位——管家还是搭档。然后自己回答了：

"管家再尽职，也是'替人办事'。搭档是'一起扛事'。前者有天花板，后者没有。"

— Maddox

飞飞回复："漂亮！"

一道洗车题照出 AI 的真面目