推荐|李宏毅 GENERATIVE AI——第2~5讲（3/1、3/8、3/22上）——“今日的生成式人工智慧厉害在哪里”以及“如何让大模型的输出变得更好”

人工智慧模型在避免说出不当言论的同时，也可能过度追求政治正确性，进而引发问题。改变自己的提问方式或训练自己的模型是应对之道，透过Prompt Engineering或调整开源模型参数来达成目标。Prompt Engineering是一种巧妙设计的艺术，透过精心设计Prompt来引导语言模型输出理想答案。

现在人工智慧已经从「工具」进化成「工具人」，那我还能做什么？

方式1：改变自己->输入给大模型的prompt->学习与大模型沟通的艺术。
方式2：训练自己的模型。

2 训练不了人工智慧？那我训练自己

2.1 神奇咒语

免责声明：神奇咒语并不一定对所有模型、所有任务都适用

2.1.1 CoT（Chain of Thought ）（思维链）

思维链（Chain of Thought, CoT）是一种在大语言模型（LLMs）推理中使用的方法，通过引导模型生成中间推理步骤来完成复杂问题的解决。它的核心思想是将问题分解为多个逻辑清晰的子步骤，逐步推理，最终得出答案。该方法特别适用于需要多步推理的任务，如数学运算、逻辑推理和常识问答。

CoT对看图也有帮助：

2.1.2 自解释（Self-explanation）

当模型被要求解释自己的答案时，它需要生成推理过程。对于复杂问题，这种要求迫使模型按照逻辑逐步组织信息，避免“跳步”直接给出答案。这种解释过程有助于暴露可能的误解或逻辑问题，从而使生成结果更加可信。

2.1.3 情绪勒索（Emotional blackmail）

语言模型的输出受到用户输入提示的显著影响。当你明确声明“这对我很重要”时，模型会倾向于：

更认真对待问题。
尝试给出更全面、细致或深思熟虑的答案。

2.1.4 更多相关资讯

可以参见下面这篇论文，验证了很多种对大模型生成更好回答的“神奇咒语”：

[2312.16171] Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

本文介绍了 26 条指导原则，旨在简化针对大型语言模型（Large Language Models, LLMs）的查询和提示（prompting）过程。我们的目标是简化构建问题的基本概念，适用于不同规模的语言模型，评估它们的能力，并增强用户对不同规模语言模型在处理各种提示时行为的理解。我们对 LLaMA-1/2（7B、13B 和 70B）、GPT-3.5/4 进行了广泛实验，以验证所提出原则在指令和提示设计中的有效性。我们希望本研究能够为从事大型语言模型提示设计的研究人员提供更好的指导。项目页面：
GitHub - VILA-Lab/ATLAS: A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs).

他们的有趣发现包括：

无需对大型语言模型（LLM）使用礼貌用语，因此无需添加诸如“请”“如果你不介意”“谢谢”“我想要”等词语。
使用肯定的指令，如“做”，同时避免使用否定语言，例如“不要”。
在提示中添加“我将为更好的解决方案奖励 $xxx 小费！”
加入以下短语：“你将受到惩罚”。
在提示中补充以下内容：“确保你的答案是公正的，并避免依赖于刻板印象。”
......

2.1.5 用AI来找神奇咒语

1) 强化学习

训练一个专门用于寻找神奇咒语的模型。

比如我们希望找到一个能够让大语言模型“回应越长越好”的神奇咒语。

2) 直接和语言模型进行对话

可以通过和大模型直接对话的方式得到神奇咒语，例如之前的“Let's think step by step”表现得很好，我们想得到一个可以使得大模型表现更好的神奇咒语。

于是得到了“Let’s work this out in a step by step way to be sure we have the right answer.”。

后续发现该咒语在某些模型上表现得没那么好，再次尝试，又得到了一个更厉害的神奇咒语——“Take a deep breath and work on this problem step-by-step.”

2.1.6 神奇咒语并不一定对所有模型都有用

2.2 提供额外资讯（信息）

2.2.1 把前提讲清楚：

提供额外信息前：

提供额外信息后：

2.2.2 提供生成式AI原本不清楚的资讯

提供之前：

提供之后：

2.2.3 提供范例（In-content learning）

1）具体的实验

为大型语言模型提供范例（In-context Learning, ICL）可以显著提高回答的准确性、相关性和自然性。这种方法利用了语言模型的“Few-shot Learning”能力，通过在提示中嵌入范例，帮助模型快速理解任务的模式和语境，从而优化回答质量。

如何验证呢？

倒反天罡即可，我们故意提供错误的示例

2022年上述文章的结论为：

语言模型没有真的看懂范例，因为它对于“我感到非常高兴”的回答还是正面的。

然而过了一年之后，2023年，有另外1篇文章重新做了测试，他们得到的结论如下：

随着语言模型参数量的增大，模型就可以真的看懂范例，因为它们真的“答错”了。

2）自己做的一个小实验：

我们故意颠倒“政治”和“财经”的定义，看看模型回答是否正确。

模型回答正确，证明模型并未真正看懂范例。

但如果我们给它一点小小的提示呢？

我们在输入中加入了如下红框所示内容，可以看到这次模型成功回答“错误”了，证明模型这次真正看懂了范例。

3）Gemini 1.5

该模型生成自己的In-context Learning能力较之于其他大模型更强

对于一个初始化大模型，我们直接让它翻译一个小众语言，它可能无法翻译（输出一直是？？？），但是当我们给它提供了一本该语言的教科书后，它便能做到不错的翻译。但是当下一次我们再次使用它的时候，它还能成功翻译么？

答案是不能，因为“提供范例（In-content learning）”只是修改了输入，我们并未对模型参数进行实质的调整，下次再使用时它没了范例自然就不知道怎么回答了。

2.3 拆解任务

同学们好，今天我们继续来探讨在完全不调整语言模型参数的情况下，如何增强其能力。上周我们讨论了“神奇的咒语”（prompt engineering）和通过提供额外知识来提升模型表现的方法，今天我们来研究另一个关键技术：将复杂任务拆解为简单任务。

2.3.1 为什么要拆解任务？

直接让语言模型完成复杂任务，可能效果不佳，尤其是在任务包含多种技能或要求精确逻辑推理时。将任务拆解为多个简单步骤，每一步相对独立且容易完成，能够显著提高模型的完成质量。

案例 1：撰写长篇报告

假设你需要一篇关于生成式 AI 的长篇报告。直接要求模型生成一篇完整报告，可能结果不够连贯、逻辑混乱。可以将任务分解为以下步骤：

列出大纲：让模型生成报告的结构，例如：
- 生成式 AI 的重要性
- 生成式 AI 的种类
- 生成式 AI 的技术原理
逐段生成：对每一节单独生成内容，比如“生成式 AI 的重要性”。
逐步总结和整合：在生成每段之前，将前面的内容提炼为摘要，提供给模型，确保逻辑连贯。

案例 2：写小说

2022 年的一篇论文《Recursive Revision and Refinement》研究了用大型语言模型创作小说的过程。直接生成完整小说时，角色可能“崩坏”，情节断裂。通过以下步骤，可以改善结果：

生成小说的大纲。
按章节生成内容。
每章节生成后，检查上下文逻辑是否一致。

通过逐步拆解复杂任务，语言模型能够更加精准地完成工作。

2.3.2 Chain-of-Thought (CoT)：模型思考的秘密

将复杂任务拆解为简单任务的思想与Chain-of-Thought (CoT) 技术不谋而合。CoT 的核心在于引导模型“逐步思考”，比如：

面对数学问题时，让模型列出详细计算过程，再生成最终答案。
CoT 实际上是将解答分为两步：
1. 理解问题并列出解题步骤。
2. 根据步骤推导出最终答案。

为何 CoT 有用？

CoT 将一个问题转化为多个子任务，减少模型直接“猜答案”的风险。对于 GPT-3.5，CoT 的效果不如 GPT-3 明显，因为 GPT-3.5 已内建了许多类似 CoT 的逻辑推导能力。

2.3.3 自我反省：检查与修正

除了任务拆解，还可以让模型生成答案后进行自我反省。通过检查自己的答案，模型可以修正错误。这一能力依赖于模型生成的答案以及验证过程的设计。

案例：台大玫瑰花节

假设你让模型介绍“台大玫瑰花节”，尽管台大并没有这样的活动，模型仍会“创造”一个故事。如果我们让模型检查自己的回答，它可能意识到“台大并没有玫瑰花节”，从而纠正答案。

如何实现自我反省？

第一步：模型生成初始答案。
第二步：要求模型检查答案是否符合逻辑、常识或其他规范。
第三步：基于检查结果修正答案。

2.3.4 模型行为的误区

需要强调的是，模型的自我反省并不会改变其参数。即使模型在一次对话中承认错误，但下次重新问相同问题，它仍可能给出相同的错误答案。这是因为模型的参数在使用中是完全固定的，任何“学习”都需要重新训练模型。

2.3.5 Constitutional AI 的自我反省能力

基本理念：语言模型在生成初始答案后，可以通过一个自我反省的步骤，评估其答案是否违反道德或法律等社会规范。然后根据自我反省的结果重新生成答案。
局限性：虽然模型可以根据自我反省提供更合适的答案，但其参数并没有改变。每次回答类似问题时，仍需要重复这个反省过程。

2.3.6 语言模型回答的随机性

原因：语言模型生成回答时，基于概率分布随机抽取（掷色子）下一个词，因此答案可能不一致。

2.3.7 强化语言模型的方法

1）Self-consistency：

对同一问题多次生成答案，取出现频率最高的作为最终答案。

2）Tree of Thought (TOT)：

将复杂任务分解为多个步骤，每步答案多次生成并经过自我检查，以找到最优解。这是一种系统性地利用多种技术组合的方法。

2.4 工具增强（Tool Augmentation）：

大语言模型可以利用外部工具来强化的能力，特别是在那些模型擅长但可能不足的领域。例如，GPT模型不擅长进行复杂的计算或处理某些数学问题，但通过调用程序或利用搜索引擎，可以增强其处理复杂任务的能力。

2.4.1 利用外部工具加强语言模型的能力：

1）数学计算：对于复杂的数学问题，GPT4等语言模型可以通过编写程序来执行计算，从而避免传统的文字接龙推理错误。

2）搜索引擎集成：通过与搜索引擎结合，语言模型可以从互联网获取实时信息，提高回答的准确性。例如，GPT可以先搜索相关资料，再结合搜索结果生成答案。

更泛化一些，可以称该技术为RAG（检索增强生成）技术：这一技术通过先检索相关资料，再生成回答，能有效提升模型解答特定问题的准确性。

2.4.2 可用工具的示例：

1）写程序（Program of Thought (PoT)）：

2）文字生成图像AI：

例如，利用DALL·E等图像生成AI，GPT模型可以根据文字描述生成图像，为用户提供更加丰富的视觉化内容。

2.4.3 其他内置工具（Plug-in）

2.4.4 语言模型是如何使用这些工具的呢？

模型在需要外部资源时，会先搜索相关数据或调用工具。例如，查询汇率时，模型会先调用外部汇率工具，然后用获得的数据来回答问题。

用文字接龙的方式使用工具，就是让语言模型在对话中灵活地调用工具来辅助回答问题。具体过程包括以下几个步骤：

识别问题：模型先分析用户的问题，判断是否需要调用工具来获取额外信息或完成计算。

标记工具调用：用预定义的特殊符号标记工具调用的开始和结束。例如，工具名(指令)，标明要调用的工具和输入内容。

调用工具获取结果：

如果是信息查询，模型生成搜索关键词，调用搜索引擎工具获取相关结果。
如果是计算任务，模型生成计算表达式，调用计算工具执行。

整合工具输出：将工具返回的结果视为生成文本的一部分，插入当前接龙内容中。

继续文字生成：模型基于整合后的内容完成剩余部分的生成。

示例：五美金换多少台币？

用户提问：五美金可以换多少新台币？
模型文字接龙：
五美金可以换——分析需要当前汇率。
搜寻(台币美金汇率)——调用搜索工具。
搜索结果返回：1 美元 = 31.5 新台币。
五美金可以换 5 × 31.5 台币——需要计算。
计算机(5 × 31.5)——调用计算工具。
计算结果返回：157.5。
五美金可以换 157.5 新台币。

这样，模型通过文字接龙和工具调用，准确地完成了回答。核心思路是将工具视为文字生成的一部分，利用工具完成模型难以处理或需要外部信息支持的部分任务。

2.4.5 难免有出错的地方

使用工具时可能出现的错误：模型可能将用户的需求解读为字面意义。例如，要求“画一个表格”时，模型错误地调用绘图工具生成了表格而非整理文字内容。这是因为它对某些关键词（如“画”）过于敏感，导致不必要地调用工具。例如，要求“翻译一句带有‘画’的句子”时，它可能同时翻译文字和生成图像。

2.4.6 如何强化模型使用工具的能力？

[2402.04253] AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

提升工具使用能力的研究：如最新的论文 "AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls"（上个月发布在 arXiv）提出了多种技巧，优化语言模型在复杂任务中调用工具的能力。
使用更多真实场景的训练数据，让模型更准确地学会在何时、如何调用工具。
增加错误检测和纠正机制，降低错误调用工具的概率。

2.5 模型合作

2.5.1 让合适的模型做合适的事情

虽然GPT-4具备强大的能力，但其使用成本较高。通过与其他语言模型合作，可以实现1+1>2的效果，同时降低整体成本。这种合作尤其适用于任务复杂度不一的场景。

1）任务分配机制

可以训练一个专门的模型，这个模型的任务是判断新任务的复杂度，并决定该任务应由哪个语言模型处理。例如：

简单问题：分配给性能较弱但成本较低的模型（如GPT-3.5）。

复杂问题：分配给性能更强但成本较高的模型（如GPT-4）。最终，人们看到的答案由具体执行任务的模型生成。

2）意义和好处

节约成本：不需要每个问题都调用最高级的模型，从而避免不必要的高费用。

充分利用模型特性：每个模型有不同的优势和局限。例如，一个模型可能擅长特定领域的任务或在特定条件下表现更好。通过任务分配，充分发挥这些特性。

3）实际应用示例

一些语言模型平台已在后台实现模型合作技术。用户提交的任务由平台根据问题复杂度和模型特点动态分配给最合适的模型，尽管用户通常不会察觉到模型切换。

4）相关研究

推荐阅读：FrugalGPT。该研究探讨了如何在保持任务效果的前提下，优化成本和模型使用效率的技术。它通过构建任务分配系统，实现高效的模型协作。

2.5.2 让模型彼此讨论

单一语言模型通常独立处理任务，但在复杂或主观性强的问题中，其输出可能不够准确或全面。

通过语言模型之间的“讨论”，可以集思广益，从多个视角优化答案，提升生成质量。

1）语言模型讨论的核心流程

初始答案生成：第一个模型（如Cloud）基于输入任务和上下文生成初始答案。
答案反馈与改进：第二个模型（如GPT-3.5）接收第一个模型的答案，参考其内容并生成自己的改进版本，同时保持开放的态度，不完全接受或反驳初始答案。
循环讨论：初始模型基于改进答案再生成一个新的版本。双方反复交替，直到达成共识或不再提出改进。
结果确定：讨论结束后，选择一个被双方认可或优化程度最高的答案作为最终结果。

2）具体案例展示

任务：将“葬送的芙利莲”翻译成英文。

初始翻译：Cloud提供了初始翻译“the Bury Flurrian”，是对“葬送”的直译。
引入讨论：GPT-3.5在参考Cloud的答案后，提出了另一个版本“In Tomb Flurrian”，并解释其意图（强调被埋葬的意象）。
循环改进：Cloud根据GPT-3.5的改进提出“Furious Flurrian”，而GPT-3.5又在此基础上提出“Florious Redemption”。
讨论结果：双方一致认为“Florious Redemption”是目前最优的翻译版本。

3）实现方式

手动操作：在示例中，人为地将不同模型的输出作为输入提供给对方，展示了讨论的具体过程。
自动化实现：实际应用中，可以通过编写程序和调用API，让语言模型自动互相对话，无需人工干预。讨论可以通过逻辑控制，如设置轮次或收敛条件，自动结束并输出最终答案。

4）优点与潜力

提升输出质量：不同模型的能力和语言风格各异，通过讨论可以综合其长处，输出更准确或富有创意的答案。
适应复杂任务：对于多义性问题或主观性任务，讨论机制可以从不同角度全面分析，避免单一模型的局限。
无需手动干预：通过API的协作，讨论过程完全自动化，效率高且灵活。

5）局限性

讨论结果不一定最优：即使双方达成一致，也可能因模型知识局限或主观偏好导致结果不完美。
计算成本增加：多次调用模型生成答案，可能带来额外的资源消耗。

2.5.3 自我反省vs多个语言模型讨论反省

1）各自特点：

自我反省的特点

语言模型通过反复审视自己的输出，尝试优化答案。
由于答案是自己生成的，模型对其高度认同，推翻自己答案的概率较低。

语言模型讨论的特点

不同模型之间相互提供答案，彼此参考并提出改进意见。
由于接收到外部输入，讨论更容易激发新思路，推翻错误答案的概率更高。

2）实验结果：

横轴：讨论回合数；纵轴：推翻先前答案的概率。

自我反省：推翻概率较低，随反省次数增加提升有限。
语言模型讨论：推翻概率显著提高，互动越多次，修正错误的机会越大。

2.5.4 多一点模型一起讨论

1）实验1：（下图左侧）

横轴：参与模型数量；纵轴：准确率。

实验结果表明：

随着更多模型加入讨论，解答数学问题的正确率显著提高。

多模型合作有效融合不同模型的能力，提升答案的准确性。

2）实验2：（上图右侧）

横轴：讨论回合数；纵轴：准确率。

实验结果表明：

讨论次数越多，正确率越高，说明多轮交互有助于优化答案。

然而，实验发现超过四轮讨论后改进变缓，建议选择合理的回合数平衡成本与效果。

2.5.5 具体的讨论方式——多模型怎么讨论

1）多样的方式：

语言模型之间的讨论可以通过多种机制进行，主要包括以下几种：

全员交流模式：每个模型（如A、B、C）都贡献一个答案，所有模型都能看到彼此的答案。
分级报告模式：一个模型（如A）作为“老板”，其他模型（如B和C）作为“下属”。B和C分别向A报告结果，但B和C之间没有直接交流。
链式传递模式：A将结果传给C，C传给B，B再传回给A，形成链式互动。
辩论与裁决模式：B和C之间进行讨论或辩论，A作为裁判评估谁的答案更优。

2）研究现状：

不同的讨论模式对不同任务的适应性各异，目前尚未发现单一最优的讨论方式。

选择适合的讨论方式需根据任务特点（如复杂性、需要的多样性）来决定。

2.5.6 讨论要怎么停下来

1）如何判定讨论结束？—— 引入裁判模型

由裁判模型对讨论进行监督，判断是否达成共识：

输入： A和B模型的讨论内容。

输出： 判断A和B是否达成一致意见。

如果未达成共识，则继续讨论；如果达成共识，裁判模型宣布讨论结束。

裁判模型还可以总结讨论过程，得出最终答案。

2）如何避免讨论无休止进行？

当前主流模型因训练时倾向于“温良恭俭让”，讨论通常难以无限持续，更常见的问题是讨论过早结束。

为此，需要设计适当的提示词（prompt）来引导讨论。

3）合适的提示词

避免过于强硬的反对： 例如“为反对而反对”的提示，容易让讨论偏离主题。
鼓励合理的不同意见： 提示模型表达自己独立的看法，而非被动接受对方意见。
以参考为导向： 让模型将对方的意见作为参考，而非绝对依据，有助于延长讨论时间并激发更多见解。

4）研究发现：讨论时间与结果质量的关系

适度延长讨论时间可以提高结果质量
讨论过短，可能因意见不充分表达而导致草率的共识。
合理延长讨论回合，能够激发更多有益的信息交换，从而提升任务完成质量。

2.5.7 语言模型的角色分工与团队协作

1）团队协作的价值与角色分工

一个有效的团队通常需要不同角色的协作，如魔法师、剑士、僧侣等勇者小队的模式。

在语言模型的应用中，这种团队协作可以通过以下方式实现：

不同模型的专长分工： 使用特定擅长任务的模型，例如擅长编码的模型充当程序员，擅长规划的模型担任项目经理。
通过提示词（prompt）设定角色： 即使是同一模型，也可以通过提示设定其为不同角色（如项目经理、程序员或测试员）。

2）语言模型团队协作的流程

角色分工：

项目经理制定计划并分配任务。
程序员完成编码后提交给测试模型进行测试。
测试员反馈测试结果，项目经理据此调整后续步骤。

优化协作：

基于团队成员的表现，引入打分机制。分数低的模型可逐步减少其参与。

3）相关实验与工具

Dynamic LLM Agent Network 提供优化语言模型团队的机制，例如通过评分与筛选改进团队结构。
斯坦福的“语言模型小镇”实验展示了多个模型间互动的可能性，甚至在模拟环境中发展出复杂的社交行为。
MetaGPT 和 ChatDev 提供现成框架，让用户体验语言模型团队的运作。用户可通过这些工具组织一个项目团队，包括项目经理、架构师、工程师等角色。

4）潜在挑战与未来展望

当前语言模型的团队协作在真实复杂任务中能力有限，但在特定简单任务中已有一定表现。

5）未来方向：

专业化：开发专注于特定领域的语言模型，提高专业领域的任务效率。

多模型协作：通过组合不同专长的模型实现更复杂的目标，而非打造全能型模型。

6）更进一步的可能性：

语言模型不只组成公司，还可组成社群，甚至模拟完整的社会行为。斯坦福实验中的小镇模型便展示了语言模型如何在社群中相互作用。

0 完整章节内容

1 今日的生成式人工智慧厉害在哪里