洗车店就在家门口 50 米，我问 AI 怎么去，它说"走过去"—— 为什么 AI 会集体翻车？

📌 你会学到什么

✅ 为什么 AI 给出"正确"但无用的答案
✅ 大语言模型的实际工作原理（以及它们做不到什么）
✅ 模式匹配与推理的区别
✅ 为什么 AI 缺乏"常识"

━━━━━━

🎬 真实案例：一次翻车的对话

让我分享昨天和 AI 的一段对话：

我： "洗车店距离我家 50 米，我怎么过去？"

ChatGPT： "很简单！直接走过去就可以了，50 米大约是 1 分钟的步行距离。"

我： "......"

听起来很合理，对吧？AI 给出了一个正确的答案。

但问题是：我问这个问题，是因为我想开车去。

我当时坐在车里，准备导航去 50 米外的洗车店。我问 AI 怎么去，期待它说：

"太近了，不需要导航。直接往前开就能看到。"

但它告诉我走过去。

为什么 AI 在这么简单的问题上翻车了？

━━━━━━

Part 1: AI "说"对了，但没"想"对

理解的幻觉

当 ChatGPT 告诉我"走过去"时，它并没有错。走 50 米是完全合理的建议 —— 如果你是个行人的话。

问题是：AI 没有理解上下文。

它看到了：

距离：50 米
问题："我怎么过去？"
模式：短距离 → 走路

它匹配了模式。但它错过了我问题背后的意图。

📖 打个比方

想象你问同学："我怎么去食堂？"

聪明的同学： 看着你，注意到你坐轮椅，说"坐电梯。"

AI 同学： 不看你，直接说"走过去。"

为什么？因为 AI 不会"看"你 —— 它只看到文字。

━━━━━━

Part 2: LLM 的工作原理 —— Token 预测机器

AI 不是在"思考"，而是在"预测"

让我们理解当你和 ChatGPT、Claude 对话时，实际发生了什么。

AI 本质上是一个预测下一个词的机器。

以下是它如何处理你的问题：

输入：
"洗车店距离我家 50 米，我怎么过去？"

分词：
["洗车店", "距离", "我家", "50", "米", "，", "我", "怎么", "过去", "？"]

AI 的内部处理：
Token 1: "洗车店"
Token 2: "距离"
Token 3: "我家"
Token 4: "50"
Token 5: "米"  ← 哦，短距离
...
Token 10: "？" ← 问号

检测到模式：
[短距离] + [怎么去]

最可能的回复：
→ "走过去"
        

这不是推理。这是模式匹配。

AI 看到的 vs. 你的意思

当你输入："洗车店距离我家 50 米，我怎么过去？"

你的意思：

我在车里
我需要开车去
我在问是否近到不需要导航

AI 看到的：

距离 = 50 米
问题词 = "怎么"
上下文 = 无

📊 人类推理 vs. AI 处理

人类：
问题 → 上下文 → 意图 → 答案
"怎么去？" → 他在问洗车店 → 可能想开车 → "太近了，直接开过去"

AI：
Tokens → 模式 → 最可能的 token
["50", "米", "怎么", "去"] → 模式：short_distance + travel → 最常见答案："走过去"

看到区别了吗？人类从意图推理。AI 匹配模式。

━━━━━━

Part 3: 为什么 AI 缺乏"常识"

缺失的部分：物理世界模型

AI 读过数十亿个单词，但它从未：

坐过车
走过 50 米
见过洗车店

它没有物理世界的模型。

常识 = 物理世界 + 社会规范 + 隐含知识

1. 物理世界知识

✅ 人类知道：

如果你已经在车里，50 米也要用车
走路是给行人的
你不会下车走 50 米

❌ AI 不知道：

坐在车里是什么感觉
下车会很不方便
这个问题暗示"我在车里"

2. 社会规范

✅ 人类知道：

问"怎么去"一个 50 米的地方暗示特殊情况
正常人不需要帮助走 50 米
所以问题可能是关于开车

❌ AI 不知道：

问题的社会含义
什么是"显而易见"vs"需要问"

3. 隐含知识

✅ 人类推断：

问洗车店 → 可能在开车
已经知道位置 → 问的是导航
50 米对导航应用来说很尴尬

❌ AI 推断：

什么都不推断。只处理明确的文字。

⚠️ 常见误区

❌ "AI 可以从更多训练数据中学到常识。"

✅ 真相： 常识需要具身体验。你无法仅从文本中学会坐在车里是什么感觉。

读再多关于游泳的文字，都学不会游泳。

━━━━━━

Part 4: 更多翻车案例 —— 当模式匹配失败时

案例 1：草莓问题

问题： "strawberry" 这个词里有几个字母 'r'？

GPT-4 回答： "strawberry 里有两个 'r'。"

正确答案： 三个。(strawberry)

为什么翻车： AI 不"看"字母。它看 token。"strawberry" 是一个 token，不是 10 个字母。

案例 2：反转文本问题

问题： 反转单词 "apple"

AI 回答： "elppa" ✅

问题： 反转单词 "ChatGPT"

AI 回答： 经常答错 ❌

为什么困难： Token 级处理使字符操作变得困难。

案例 3：大小比较问题

问题： 哪个更大：9.11 还是 9.9？

早期 GPT 回答： "9.11 更大，因为它有更多数字。"

正确答案： 9.9（9.11 = 九点一一，不是九百一十一）

为什么翻车： 模式匹配"更多数字 = 更大"，不理解小数。

案例 4：50 米洗车店（我们的案例）

问题： "洗车店距离我家 50 米，我怎么过去？"

AI 回答： "走过去。"

我的意思： "我在车里，是不是太近了不需要导航？"

模式：短距离 + "怎么过去" → 走路

━━━━━━

Part 5: 这告诉我们什么

AI 是"学者综合症患者" —— 某些领域天才，其他方面无知

把 AI 想象成一个患有学者综合症的人 —— 在特定领域有非凡能力，但缺乏基本常识。

AI 的超能力：

✅ 写代码
✅ 翻译语言
✅ 总结文档
✅ 回答事实性问题
✅ 模式识别

AI 的盲区：

❌ 物理世界推理
❌ 上下文理解
❌ 常识判断
❌ 意图推断
❌ 具身体验

悖论：更多数据 ≠ 更多理解

OpenAI 用以下内容训练 GPT-4：

数十亿网页
书籍、论文、代码
对话

但它仍然不知道，当你已经在车里时，你不会走 50 米去洗车店。

为什么？因为知道 ≠ 理解。

📖 设计背后的故事

"中文房间"论证（1980）

哲学家 John Searle 提出：想象一个人在房间里，有一本翻译中文的规则书。他们收到中文问题，按照规则，产生中文答案。

他们理解中文吗？不。他们只是在遵循规则。

这就是 LLM 所做的。它们遵循统计规则，但它们不"理解"。

━━━━━━

Part 6: 如何与 AI 的局限性共处

给出明确的上下文

❌ 之前： "洗车店距离我家 50 米，我怎么过去？"

✅ 现在： "我现在在车里，洗车店距离我家 50 米。我需要导航吗？"

明确说明：

你的当前状态（我在车里）
你的意图（我想开车去）
你的实际问题（太近了需要导航吗？）

理解 AI 擅长什么

✅ 用 AI 来：

文本生成（写代码、文案）
模式识别（分类、总结）
知识检索（查找信息）
翻译

❌ 不要依赖 AI：

常识判断
物理推理
微妙的社交语境
意图理解

验证，不要盲目信任

当 AI 给你一个答案时，问问自己：

这在上下文中合理吗？
我提供了足够的信息吗？
AI 只是在匹配模式吗？

AI 是工具，不是神谕。

━━━━━━

总结：为什么 AI 在简单问题上翻车

五个原因

❶ AI 不理解上下文

❷ AI 是模式匹配器，不是推理器

❸ AI 缺少物理世界模型

❹ AI 无法推断隐含意图

❺ 常识需要具身体验

一句话总结

AI 在模式匹配方面令人难以置信，但在常识方面很糟糕 —— 因为它从未体验过物理世界。

思考题

下次你问 AI 一个问题时，试着问问自己："我是否给了它足够的上下文来理解我的意图，而不仅仅是我的词语？"

━━━━━━

🎓 最后的思考

50 米洗车店问题不是一个 bug —— 这是一个特性。

它提醒我们，AI 是一个为模式匹配而构建的工具，而不是一个理解世界的心智。

当 AI 说：

"等等，你在车里问洗车店怎么走。它就在 50 米外 —— 看看窗外，直接开过去。你不需要导航。"

那一天，AI 才有了常识。

我们还没到那一步。

━━━━━━

💬 你的经历

你遇到过哪些"AI 翻车"的时刻？
欢迎留言分享！