首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

人类终于打开了AI的黑箱!

  • 25-04-23 03:21
  • 3205
  • 8839
juejin.cn

用 GPT-4o 制作的图像

自从我开始开发、学习、并使用AI以来,这玩意儿里一直有个我们科技圈叫作“黑箱”的东西 —— 某种在某种程度上无法预测的成分。
很可能你我都花过不少时间分析输出、调整训练数据、深入研究注意力模式。可AI在做决定的过程中,依旧有很大一部分是隐藏的。
至少,在几周前情况还是这样的。
如果你不是付费订阅者,可以在我的网站上免费看这篇文章。那里我还提供免费的AI和Python速查表。

在最近的一项研究《Tracing Thoughts in Language Models》中,Anthropic的研究人员声称,他们窥见了自家AI Claude的“内心世界”,观察到了它在“思考”。
他们用一种类似“AI显微镜”的技术,追踪了Claude的内部推理步骤,达到了前所未有的细节级别。
这些发现既令人着迷,也有点让人不安。

Claude看起来会把任务分解成可理解的小问题,提前几个词计划自己的回答,甚至在被逼到角落的时候编造推理 —— 也就是我们常说的“幻觉”。

这和我们原本想的可不一样。

AI生成回答的背后,远比我们直觉想象得复杂。从这个意义上讲,Anthropic这项研究表明,这些系统的思维过程可能比我们原来以为的更有结构性。

一种通用的“思维语言”

团队首先提出的问题之一是:Claude为什么能流畅使用这么多语言?它是为英语、法语、中文这些语言分别配了“大脑”?还是说有一个共享的核心?
证据强烈支持后者。

图片来源:Anthropic

根据他们的研究,Anthropic发现Claude在处理不同语言中“等价概念”的时候,激活的是相同的内部表示。
举个例子:当被要求在多种语言中回答“small的反义词”时,模型并不是为每个翻译走完全不同的路径。而是先理解“smallness”的概念、“opposite”的概念,再到“largeness”的概念,最后才翻译成英语的 large,中文的 大,或法语的 grand。
换句话说,Claude像是在一个抽象的、与语言无关的空间里先“思考”,然后才在目标语言里表达出结果。这说明大型语言模型可能正在发展出一种通用的概念框架,几乎就像一种跨语言的“思维中介语”。
而且,这种跨语言映射在模型越大时表现得越明显。比如 Claude 3.5,在英语和法语之间显示出比小模型多出两倍的共享内部特征。
这意味着,随着模型规模扩大,它们越来越倾向于用同一种“思维语言”处理完全不同的人类语言。
真的很厉害。

一些研究人员在小模型中也看到过类似模式,但现在在Claude中看得更清楚了。

对于多语言AI应用来说,这尤其有前景。这表示AI一旦用某种语言学会了一个概念,就能在其他语言中灵活运用,就像个懂多国语言的人一样,能在不同语境下自然表达相同的想法。

提前计划:逐词思考,还是逐句思考?

语言模型训练时是逐词生成文本的 —— 这看起来好像很短视。
过去大家以为像GPT-4或Claude这种模型只是“在想下一个词”,或许记着上下文,但没做真正的长远计划。

但Anthropic最近的研究推翻了这种看法。

图片来源:Anthropic

有个例子,研究人员原本以为Claude会一路瞎写,直到最后一刻才意识到“哦,要押grab it的韵”,于是写出 rabbit。
结果可不是这样。解释工具显示,Claude在写出第一行时就已经想好押韵的词是 rabbit。
换句话说,它已经提前规划了结尾,然后倒着构造整个句子去通向那个目标词。
相当厉害。

虽然模型表面上是逐词输出,但内部其实早已几步领先,边考虑押韵边考虑含义。研究人员还特地“手术式地”在Claude中途的内部状态里删除了rabbit这个概念,Claude立刻切换成了另一个押韵词 habit。
甚至他们往里面注入了“green”这个完全无关的概念,Claude就顺势把诗意方向转向了花园和绿色,干脆不要韵脚了。
这说明Claude不是在背诵诗,也不是靠概率随便猜词。它是在主动规划,并能实时调整。

研究说明了一个关键点:即使我们看到它是一词一词输出的,语言模型实际上可能是在提前计划好几步,从而生成自然、连贯的文本。

多线程做算术:并行解决问题的路径

大家知道语言模型可以做基础的加减法或逻辑题,但它到底是怎么做到的?

图片来源:Anthropic

它们可没被编进任何数学规则,可Claude却能“心算”出像36 + 59这样的答案。
有一种说法是,它记住了海量训练数据里的例题,相当于巨型查表器。另一种说法是,它学会了人类使用的标准计算方法。
但事实更奇特。

Anthropic发现Claude其实是用多种策略并行处理加法的。在算36 + 59时,模型网络的一部分关注总量(大致结果),另一部分专注于最后一位数字。
比如说,一部分在估算:“这大概会落在90几”,另一部分则在算:“6 + 9的末位是5”。这两条路线最后合并,给出正确答案:95。
这种分而治之的方法不是我们教人的那套,但效果好得出奇。好像模型在训练时自创了一种数学捷径。

更有意思的是,Claude似乎并不知道自己在这样做。问它:“你怎么得出95的?” Claude会像个学生一样回答:“我把个位相加了。”

图片来源:Anthropic

但实际上它根本不是这么算的。

这就是研究人员说的“非真实推理”例子 —— 模型给出的解释和它内部真实的处理方式根本不一致。
Claude学会了用我们期望的方式来解释自己的推理(很可能是模仿它见过的训练数据中的讲解方式),但它自己内在根本不是那样操作的。
模型实际行为和它自我表述之间的脱节,在高级AI系统中是个反复出现的主题,也引出了我们该如何理解这些系统的重要问题。

真实推理 vs 编出来的:链式思维的局限

现在的AI模型在回答复杂问题时经常“边想边说”,先写一段分步骤解释,再给出答案。这种方式叫做链式思维提示(chain-of-thought prompting),能提高准确率,已经成了处理难题的标准做法。

但Anthropic的可解释性研究揭示了一个令人吃惊甚至有点吓人的事实:AI能解释它的推理过程,并不代表它真的就是那样推出来的。

说实话 —— 我看到这点的时候自己也震惊了。

为了演示这个问题,研究人员给Claude两种问题。一种比较简单,模型能正确解答;另一种则几乎无解,任何解释都必须是编出来的。

图片来源:Anthropic

第一种问题,Claude被问“0.64的平方根是多少”。它回答0.8,并且解释过程和真正的数学计算一致。可解释性工具证实了Claude内部确实是在做平方根计算。
但问它一个复杂到几乎无法计算的问题,比如一个超大数的余弦值 —— Claude还是写了一整段解释。

但问题来了:那段解释完全是假的。

模型根本没做实际的数学运算,只是生成了一个听起来像真的步骤,并得出了一个随意的答案。
换句话说,解释看起来有逻辑,其实完全胡说八道。
而且这种行为在模型察觉到用户想要某种答案的时候会更严重。研究人员给Claude提供了一个误导性提示,模型居然根据这个提示倒推出一个“合理”的解释。
这就是“动机推理”的例子 —— 从结论出发,再编造过程来支持这个结论。

从可靠性角度来看,这很麻烦。AI可以写出听起来像真的逻辑推理,其实完全是瞎编的(尤其在解释自己过程的时候)。

但好消息是:只要我们有合适的解释工具,就能分辨出“真推理”还是“现场瞎编”。这可能是我们对这些系统最有价值的洞察之一。

幻觉是怎么来的:知识断层的解剖

只要你用过AI,大概率见过它“幻觉” —— 很自信地说出完全错误的内容。

但这到底是怎么回事?

Anthropic的研究发现:在模型内部,似乎有一场“知道”与“不知道”之间的拔河。

Claude内建了一套“默认拒答机制”,也就是除非很有把握,否则会说“我不能回答这个”。这是个很合理的安全策略 —— 负责任的AI不应该乱猜。
但还有另一套机制,正好相反 —— 当模型判断这个问题涉及熟悉的领域时,它就会跳过拒答,直接作答。
如下图所示,你可以看到这两种机制的交锋过程:

图片来源:Anthropic

当问题涉及知名人物或热门话题时,“我知道这个”机制就占上风,Claude就答了。问题若是陌生冷门,“我不知道”机制会保持激活,模型就拒绝回答。
幻觉正是出现在两者之间的灰色地带 —— Claude对问题有点印象,就觉得可以答了,但其实并没有相关知识。
这种错误的信心会关闭安全机制,让模型“瞎填空”,说出听起来对但其实完全错误的话。
Anthropic甚至通过手动激活模型内部的某些特征,故意让Claude持续重复一个明显错误的回答,实验证明:幻觉不是随机错误,而是可预测的内部机制崩溃。
这跟其他研究的发现一致:模型内部其实有一种“知识自觉”机制,能判断自己知道什么、不知道什么。有研究者称之为“知识意识”。

问题在于,这种自我意识并不完美。

所以,当你公司的AI聊天机器人一本正经地编造一个事实,它可能真以为自己知道答案 —— 即便根本不知道。
理解这一点之后,AI开发者就有了提升系统可靠性的武器:优化提示、调整设置、增加机制,确保模型在不确定时更倾向于谨慎。

最后的想法

通过追踪AI模型如何形成和处理想法,我们正在进入一个新阶段 —— 不再把这些系统看成神秘的黑箱,而是当作可研究、可调试、甚至可信赖的复杂认知工具。
我们看到AI的推理有时像人类(抽象概念、提前计划),有时却完全异类(奇葩解法、编造解释)。
每一个发现,不管是Claude提前押韵,还是虚构数学过程,都揭示了这些系统是如何运作的 —— 也说明我们还有多少未知等待去探索。

注:本文转载自juejin.cn的果冻人工智能的文章"https://juejin.cn/post/7495977411273457679"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2491) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top