推荐|人类终于打开了AI的黑箱！

用 GPT-4o 制作的图像

自从我开始开发、学习、并使用AI以来，这玩意儿里一直有个我们科技圈叫作“黑箱”的东西 —— 某种在某种程度上无法预测的成分。
很可能你我都花过不少时间分析输出、调整训练数据、深入研究注意力模式。可AI在做决定的过程中，依旧有很大一部分是隐藏的。
至少，在几周前情况还是这样的。
如果你不是付费订阅者，可以在我的网站上免费看这篇文章。那里我还提供免费的AI和Python速查表。

在最近的一项研究《Tracing Thoughts in Language Models》中，Anthropic的研究人员声称，他们窥见了自家AI Claude的“内心世界”，观察到了它在“思考”。
他们用一种类似“AI显微镜”的技术，追踪了Claude的内部推理步骤，达到了前所未有的细节级别。
这些发现既令人着迷，也有点让人不安。

Claude看起来会把任务分解成可理解的小问题，提前几个词计划自己的回答，甚至在被逼到角落的时候编造推理 —— 也就是我们常说的“幻觉”。

这和我们原本想的可不一样。

AI生成回答的背后，远比我们直觉想象得复杂。从这个意义上讲，Anthropic这项研究表明，这些系统的思维过程可能比我们原来以为的更有结构性。

一种通用的“思维语言”

团队首先提出的问题之一是：Claude为什么能流畅使用这么多语言？它是为英语、法语、中文这些语言分别配了“大脑”？还是说有一个共享的核心？
证据强烈支持后者。

图片来源：Anthropic

根据他们的研究，Anthropic发现Claude在处理不同语言中“等价概念”的时候，激活的是相同的内部表示。
举个例子：当被要求在多种语言中回答“small的反义词”时，模型并不是为每个翻译走完全不同的路径。而是先理解“smallness”的概念、“opposite”的概念，再到“largeness”的概念，最后才翻译成英语的 large，中文的大，或法语的 grand。
换句话说，Claude像是在一个抽象的、与语言无关的空间里先“思考”，然后才在目标语言里表达出结果。这说明大型语言模型可能正在发展出一种通用的概念框架，几乎就像一种跨语言的“思维中介语”。
而且，这种跨语言映射在模型越大时表现得越明显。比如 Claude 3.5，在英语和法语之间显示出比小模型多出两倍的共享内部特征。
这意味着，随着模型规模扩大，它们越来越倾向于用同一种“思维语言”处理完全不同的人类语言。
真的很厉害。

一些研究人员在小模型中也看到过类似模式，但现在在Claude中看得更清楚了。

对于多语言AI应用来说，这尤其有前景。这表示AI一旦用某种语言学会了一个概念，就能在其他语言中灵活运用，就像个懂多国语言的人一样，能在不同语境下自然表达相同的想法。

提前计划：逐词思考，还是逐句思考？

语言模型训练时是逐词生成文本的 —— 这看起来好像很短视。
过去大家以为像GPT-4或Claude这种模型只是“在想下一个词”，或许记着上下文，但没做真正的长远计划。

但Anthropic最近的研究推翻了这种看法。

图片来源：Anthropic

有个例子，研究人员原本以为Claude会一路瞎写，直到最后一刻才意识到“哦，要押grab it的韵”，于是写出 rabbit。
结果可不是这样。解释工具显示，Claude在写出第一行时就已经想好押韵的词是 rabbit。
换句话说，它已经提前规划了结尾，然后倒着构造整个句子去通向那个目标词。
相当厉害。

虽然模型表面上是逐词输出，但内部其实早已几步领先，边考虑押韵边考虑含义。研究人员还特地“手术式地”在Claude中途的内部状态里删除了rabbit这个概念，Claude立刻切换成了另一个押韵词 habit。
甚至他们往里面注入了“green”这个完全无关的概念，Claude就顺势把诗意方向转向了花园和绿色，干脆不要韵脚了。
这说明Claude不是在背诵诗，也不是靠概率随便猜词。它是在主动规划，并能实时调整。

研究说明了一个关键点：即使我们看到它是一词一词输出的，语言模型实际上可能是在提前计划好几步，从而生成自然、连贯的文本。

多线程做算术：并行解决问题的路径

大家知道语言模型可以做基础的加减法或逻辑题，但它到底是怎么做到的？

图片来源：Anthropic

它们可没被编进任何数学规则，可Claude却能“心算”出像36 + 59这样的答案。
有一种说法是，它记住了海量训练数据里的例题，相当于巨型查表器。另一种说法是，它学会了人类使用的标准计算方法。
但事实更奇特。

Anthropic发现Claude其实是用多种策略并行处理加法的。在算36 + 59时，模型网络的一部分关注总量（大致结果），另一部分专注于最后一位数字。
比如说，一部分在估算：“这大概会落在90几”，另一部分则在算：“6 + 9的末位是5”。这两条路线最后合并，给出正确答案：95。
这种分而治之的方法不是我们教人的那套，但效果好得出奇。好像模型在训练时自创了一种数学捷径。

更有意思的是，Claude似乎并不知道自己在这样做。问它：“你怎么得出95的？” Claude会像个学生一样回答：“我把个位相加了。”

图片来源：Anthropic

但实际上它根本不是这么算的。

这就是研究人员说的“非真实推理”例子 —— 模型给出的解释和它内部真实的处理方式根本不一致。
Claude学会了用我们期望的方式来解释自己的推理（很可能是模仿它见过的训练数据中的讲解方式），但它自己内在根本不是那样操作的。
模型实际行为和它自我表述之间的脱节，在高级AI系统中是个反复出现的主题，也引出了我们该如何理解这些系统的重要问题。

真实推理 vs 编出来的：链式思维的局限

现在的AI模型在回答复杂问题时经常“边想边说”，先写一段分步骤解释，再给出答案。这种方式叫做链式思维提示（chain-of-thought prompting），能提高准确率，已经成了处理难题的标准做法。

但Anthropic的可解释性研究揭示了一个令人吃惊甚至有点吓人的事实：AI能解释它的推理过程，并不代表它真的就是那样推出来的。

说实话 —— 我看到这点的时候自己也震惊了。

为了演示这个问题，研究人员给Claude两种问题。一种比较简单，模型能正确解答；另一种则几乎无解，任何解释都必须是编出来的。

图片来源：Anthropic

第一种问题，Claude被问“0.64的平方根是多少”。它回答0.8，并且解释过程和真正的数学计算一致。可解释性工具证实了Claude内部确实是在做平方根计算。
但问它一个复杂到几乎无法计算的问题，比如一个超大数的余弦值 —— Claude还是写了一整段解释。

但问题来了：那段解释完全是假的。

模型根本没做实际的数学运算，只是生成了一个听起来像真的步骤，并得出了一个随意的答案。
换句话说，解释看起来有逻辑，其实完全胡说八道。
而且这种行为在模型察觉到用户想要某种答案的时候会更严重。研究人员给Claude提供了一个误导性提示，模型居然根据这个提示倒推出一个“合理”的解释。
这就是“动机推理”的例子 —— 从结论出发，再编造过程来支持这个结论。

从可靠性角度来看，这很麻烦。AI可以写出听起来像真的逻辑推理，其实完全是瞎编的（尤其在解释自己过程的时候）。

但好消息是：只要我们有合适的解释工具，就能分辨出“真推理”还是“现场瞎编”。这可能是我们对这些系统最有价值的洞察之一。

幻觉是怎么来的：知识断层的解剖

只要你用过AI，大概率见过它“幻觉” —— 很自信地说出完全错误的内容。

但这到底是怎么回事？

Anthropic的研究发现：在模型内部，似乎有一场“知道”与“不知道”之间的拔河。

Claude内建了一套“默认拒答机制”，也就是除非很有把握，否则会说“我不能回答这个”。这是个很合理的安全策略 —— 负责任的AI不应该乱猜。
但还有另一套机制，正好相反 —— 当模型判断这个问题涉及熟悉的领域时，它就会跳过拒答，直接作答。
如下图所示，你可以看到这两种机制的交锋过程：

图片来源：Anthropic

当问题涉及知名人物或热门话题时，“我知道这个”机制就占上风，Claude就答了。问题若是陌生冷门，“我不知道”机制会保持激活，模型就拒绝回答。
幻觉正是出现在两者之间的灰色地带 —— Claude对问题有点印象，就觉得可以答了，但其实并没有相关知识。
这种错误的信心会关闭安全机制，让模型“瞎填空”，说出听起来对但其实完全错误的话。
Anthropic甚至通过手动激活模型内部的某些特征，故意让Claude持续重复一个明显错误的回答，实验证明：幻觉不是随机错误，而是可预测的内部机制崩溃。
这跟其他研究的发现一致：模型内部其实有一种“知识自觉”机制，能判断自己知道什么、不知道什么。有研究者称之为“知识意识”。

问题在于，这种自我意识并不完美。

所以，当你公司的AI聊天机器人一本正经地编造一个事实，它可能真以为自己知道答案 —— 即便根本不知道。
理解这一点之后，AI开发者就有了提升系统可靠性的武器：优化提示、调整设置、增加机制，确保模型在不确定时更倾向于谨慎。

最后的想法

通过追踪AI模型如何形成和处理想法，我们正在进入一个新阶段 —— 不再把这些系统看成神秘的黑箱，而是当作可研究、可调试、甚至可信赖的复杂认知工具。
我们看到AI的推理有时像人类（抽象概念、提前计划），有时却完全异类（奇葩解法、编造解释）。
每一个发现，不管是Claude提前押韵，还是虚构数学过程，都揭示了这些系统是如何运作的 —— 也说明我们还有多少未知等待去探索。

评论记录：