推荐|玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）

系列文章目录

基础篇

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！

实战篇

前言

在近年来，LangChain作为一款强大的开源框架，逐渐成为构建基于大型语言模型（LLM）应用的首选工具。它不仅提供了简洁且灵活的API来进行模型的交互，还包括了众多功能模块，支持高效构建多种应用，如智能问答系统、自动化工作流等。LangChain的模块化设计使得开发者能够根据自己的需求灵活组合不同的功能，从而快速实现复杂的业务场景。

LangChain 的核心模块

LangChain 由以下核心模块组成，每个模块都有其特定的功能：

Model（模型）
- 提供与大语言模型交互的接口，例如 OpenAI、阿里云等的 LLM。
- 开发者可以轻松配置 API 调用和模型参数。
Prompt（提示词）
- 提供动态提示词模板管理功能，支持变量插值、Prompt 优化。
- 适用于创建灵活且高效的模型交互任务。
Chains（链条）
- 用于将多个任务步骤组合成一个链条，例如多次调用模型完成复杂的推理任务。
- 支持模块化设计，便于维护和扩展。
Memory（记忆）
- 提供上下文记忆功能，可以让模型在多轮对话中记住用户的输入和历史对话内容。
- 适合构建长时间、多轮交互的对话系统。
Output Parsers（输出解析器）
- 解析模型的返回结果，例如将文本解析为 JSON 结构，便于后续处理。
- 特别适用于信息提取、分类任务等。
Agents（代理）
- 集成多种工具（如 API、数据库、文件系统）与模型交互，使模型能够动态调用外部资源完成复杂任务。
- 适合构建更智能化的自动化工作流。

LangChain 的应用场景

LangChain 的灵活性和模块化设计使其广泛适用于以下场景：

文本生成与翻译：例如生成新闻稿、调整语气风格、翻译专业文档。
智能问答与知识库：构建基于文档、数据库的知识问答系统。
信息提取与分析：从非结构化文本中提取关键信息，例如用户评论分析、商业报告解析。
对话系统与聊天机器人：利用记忆模块支持上下文多轮对话，实现类似 ChatGPT 的应用。
自动化工作流：通过 Agents 模块集成外部工具，完成复杂的任务链，例如自动处理订单或执行 API 查询。

本文主题

本系列文章将深入探讨如何在 LangChain 中进行问答系统的评估，并重点介绍三种评估方法：

示例生成：通过手动或自动方式创建测试数据，帮助评估问答系统的表现。
手动评估：开发者通过人工验证生成的回答与预期答案的一致性，从而理解模型的表现。
LLM辅助评估：使用另一个大型语言模型对生成的答案进行自动化评分，进一步提高评估的效率和准确性。

通过对这三种评估方法的详细探讨，本文将帮助读者更好地理解如何评估和优化LangChain应用中的问答系统。

一、LangChain 环境搭建与初始配置

在开始构建 LangChain 应用之前，需要完成基础环境的搭建和配置。

1.1 安装依赖

在项目环境中安装必要的 Python 包：

pip install langchain langchain-community langchain_openai python-dotenv openai docarray langchain-huggingface

这些依赖包含了 LangChain 框架、环境变量管理工具 python-dotenv 和与 OpenAI 模型交互的接口。

1.2 环境变量加载

为了保护敏感信息（如 API Key 和 API URL），建议将这些信息存储在项目根目录下的一个名为 .env 的文件中。这样可以避免将敏感信息直接暴露在代码中，同时方便环境的统一配置。

1.2.1 具体步骤

创建 .env 文件
在项目根目录下创建一个名为 .env 的文件。注意，这个文件不需要任何扩展名。
如果使用版本控制（如 Git），记得将 .env 文件添加到 .gitignore 中，避免敏感信息被提交到代码仓库。
编写 .env 文件内容
.env 文件的内容采用键值对的形式，每行一个键值对，格式如下：

阿里云通义千问（Qwen）API 配置
ALIYUN_API_KEY=你的阿里云API密钥
ALIYUN_API_URL=你的阿里云API地址，例如：https://dashscope.aliyuncs.com/compatible-mode/v1

DeepSeek API 配置
DEEPSEEK_API_KEY=你的DeepSeek API密钥
DEEPSEEK_API_URL=你的DeepSeek API地址，例如：https://api.deepseek.com

OpenAI API 配置
OPENAI_API_KEY=你的OpenAI API密钥
OPENAI_API_URL=https://api.openai.com/v1

键名：ALIYUN_API_KEY 和 ALIYUN_API_URL 是阿里云 API 的密钥和访问地址；DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL 是DeepSeek API 的密钥和地址；OPENAI_API_KEY 和 OPENAI_API_URL 是OpenAI API 的密钥和地址。
值：具体的密钥和 URL 需要根据实际情况替换为你自己的值。

在代码中加载 .env 文件
使用 python-dotenv 模块加载 .env 文件中的内容到 Python 程序中。示例如下：

   import os
   from dotenv import load_dotenv

   # 加载 .env 文件中的环境变量
   load_dotenv()

   # 获取环境变量的值
   api_key = os.getenv("ALIYUN_API_KEY")
   base_url = os.getenv("ALIYUN_API_URL")

1.2.2 注意事项

.env 文件应放在项目根目录下，与主代码文件（如 main.py）处于同一级目录。这样 load_dotenv() 可以自动找到 .env 文件。
在使用其他环境变量（如 DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL）时，直接通过 os.getenv("<变量名>") 访问即可。
确保 .env 文件已正确加载。如果程序中获取不到变量值，请检查文件路径和格式是否正确。

通过这种方式，可以在保护敏感信息的同时，方便多环境配置和管理。

1.3 初始化模型客户端

使用 LangChain 提供的 ChatOpenAI，连接阿里云通义千问模型（Qwen）：

from langchain_openai import ChatOpenAI # type: ignore

llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url
)

至此，环境已经完成初始化，可以开始与模型交互。

二、示例生成与评估

在构建问答系统时，生成高质量的测试数据是至关重要的步骤。良好的测试数据可以帮助我们有效评估问答系统的准确性和稳定性。LangChain 提供了多种生成和评估测试数据的方法。本章将重点介绍如何通过手动编写示例和通过大型语言模型（LLM）自动生成示例数据，并展示如何利用这些示例进行问答系统的评估。

2.1 示例生成的方式

2.1.1 手动编写示例

手动编写示例是最直接的一种方式，通常适用于需要确保测试场景覆盖全面的情况。在这种方式中，开发者可以手动设计问题和预期的答案，从而确保测试数据的质量和相关性。

以下是手动编写示例的代码实现：

examples = [
    {
        "query": "Do the Cozy Comfort Pullover Set have side pockets?",
        "answer": "Yes"
    },
    {
        "query": "What collection is the Ultra-Lofty 850 Stretch Down Hooded Jacket from?",
        "answer": "The DownTek collection"
    }
]

输出示例：

Query: Do the Cozy Comfort Pullover Set have side pockets?
Answer: Yes

在这个例子中，我们为“Cozy Comfort Pullover Set”和“Ultra-Lofty 850 Stretch Down Hooded Jacket”这两个产品创建了测试问题，并为它们编写了预期的答案。这种方式适用于小规模测试，尤其是在问题场景已经明确且数据量较小的情况下。

2.1.2 使用LLM生成示例

除了手动编写示例，LangChain还支持使用大型语言模型（LLM）自动生成问题和答案对。通过LangChain的QAGenerateChain，我们可以基于现有的文档数据自动生成问答示例。

以下是使用LLM生成示例的代码：

import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain.evaluation.qa import QAGenerateChain
from langchain.document_loaders import CSVLoader

# 加载 .env 文件中的环境变量
load_dotenv()

# 从环境变量中获取 API Key 和 Base URL
api_key = os.getenv("ALIYUN_API_KEY")
base_url = os.getenv("ALIYUN_API_URL")

# 加载产品数据
file = 'OutdoorClothingCatalog_1000.csv'
loader = CSVLoader(file_path=file, encoding='utf-8')
data = loader.load()

# 初始化 LLM
llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url,
)

# 初始化 QAGenerateChain
example_gen_chain = QAGenerateChain.from_llm(llm)

# 生成新示例数据
new_examples = example_gen_chain.apply_and_parse([{"doc": t} for t in data[:5]])

通过这种方式，可以自动生成问题和答案对，并基于此扩展测试集。LLM生成的示例能够有效扩展我们的测试场景，尤其适用于大规模数据的自动生成。

2.1.3 示例数据的展示

在生成了新的问答示例之后，您可以通过以下代码查看生成的部分新示例数据：

print(new_examples[0])  # 输出第一条自动生成的示例

输出示例：

{
    "query": "What materials are used in the Women's Campside Oxfords?",
    "answer": "The Women's Campside Oxfords are made from soft canvas material with a comfortable EVA innersole and a chain-tread-inspired molded rubber outsole."
}

通过这种方式，我们能够直观地检查模型生成的问答对，并确保其质量和准确性。

2.2 手动评估与调试

生成示例数据后，接下来我们需要对问答系统的表现进行评估。手动评估通常是开发者人工检查模型返回的答案，确保生成的答案与预期一致。为了帮助开发者调试，LangChain提供了调试模式，可以详细查看每一步的处理流程。

2.2.1 启用调试模式

调试模式下，LangChain会输出详细的日志信息，帮助我们跟踪模型的运行过程，包括模型调用、文档检索等信息。我们可以通过以下代码开启调试模式：

import langchain
langchain.debug = True

开启调试模式后，可以执行以下代码来运行问答链条并查看调试输出：

qa.run(examples[0]["query"])

输出示例：

[chain/start] Entering Chain run with input:
{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?"
}
[chain/start] Entering Chain run with input:
{
    "question": "Do the Cozy Comfort Pullover Set have side pockets?",
    "context": "Product details and description of Cozy Comfort Pullover Set."
}
[llm/start] Entering LLM run with input: 
{
    "prompts": [
        "System: Use the following pieces of context to answer the user's question..."
    ]
}
[llm/end] Exiting LLM run with output: 
{
    "text": "Yes, the Cozy Comfort Pullover Set has side pockets."
}
[chain/end] Exiting Chain run with output:
{
    "result": "Yes, the Cozy Comfort Pullover Set has side pockets."
}

通过调试信息，开发者可以详细了解每一步的执行过程，帮助定位潜在问题或改进点。

2.3 评估示例的结果

在手动评估后，我们还可以结合自动生成的示例对模型进行综合评估。将手动示例和LLM生成的示例结合起来，可以确保模型的表现得到了全方位的验证。

以下是如何将手动和自动生成的示例进行合并并进行评估：

examples += new_examples  # 合并手动示例和LLM生成的示例
qa.run(examples[0]["query"])  # 评估合并后的示例

2.3.1 评估结果

模型运行后，我们可以查看评估结果，并检查预测的答案与真实答案的匹配度。以下是一个评估结果的示例：

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "real_answer": "Yes",
    "predicted_answer": "Yes, the Cozy Comfort Pullover Set has side pockets.",
    "predicted_grade": "CORRECT"
}

如果模型的预测答案与实际答案相符，评估结果会显示为“正确”。通过这种方式，我们可以有效评估模型的问答准确性，并据此进行优化。

三、LLM辅助评估

在实际应用中，通过手动评估和自动评估来优化问答系统的性能是一项重要工作。而使用大型语言模型（LLM）进行自动化评估，能够显著提高评估的效率与一致性。本章将探讨如何利用LLM辅助评估问答系统的答案质量，尤其是在自动评分和结果验证方面的应用。

3.1 LLM辅助评估的概述

LLM辅助评估利用自然语言处理的能力，通过另一个独立的语言模型对问答系统生成的答案进行自动评分。与传统的人工评估不同，这种方法不依赖人工逐一比对，而是通过算法实现自动化的答案评定。

3.1.1 LLM辅助评估的优势

高效性：LLM能够快速处理大量的评估任务，比人工评估速度快得多。
一致性：通过模型自动评分，避免了人工评估可能带来的主观性偏差。
可扩展性：对于大规模数据集，人工评估的负担较重，LLM评估能够轻松处理海量数据。

3.2 使用LLM进行答案评分

在实际使用中，我们可以利用LLM根据预设的标准，对生成的答案进行评分。这一过程通常包括：

问题与答案的对比：LLM通过理解问题的意图，判断答案是否合理、准确。
答案的内容完整性：检查答案是否完全涵盖了问题所涉及的要点，是否遗漏重要信息。
评分标准：根据问题和答案的匹配度，模型给出一个评分。常见的评分标准包括准确度、相关性等。

以下是使用LLM辅助评估的基本实现：

from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.evaluation.qa import QAGenerateChain

# 初始化 ChatOpenAI 客户端
llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url,
)

# 创建 QAGenerateChain 生成示例
example_gen_chain = QAGenerateChain.from_llm(llm)

# 自动生成新的问答示例
new_examples = example_gen_chain.apply_and_parse([{"doc": t} for t in data[:5]])

# 打印自动生成的第一个示例
print(new_examples[0])

# 将手动示例与自动生成的示例合并
examples += new_examples

# 使用LLM进行答案评估
result = qa.run(examples[0]["query"])
print(result)

在上述代码中，qa.run(examples[0]["query"])会使用预先加载的模型和生成的示例数据进行答案评估，并输出结果。

3.2.1 评估输出示例

假设我们有一个自动生成的示例，问题是“Do the Cozy Comfort Pullover Set have side pockets?”，对应的答案是“Yes”。LLM会基于输入的答案和背景信息，对其进行评估，输出结果如下：

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "real_answer": "Yes",
    "predicted_answer": "Yes, the Cozy Comfort Pullover Set has side pockets.",
    "predicted_grade": "CORRECT"
}

如果模型生成的答案与实际答案一致，则评分为“CORRECT”。这种评估方式非常适合大规模自动化处理，因为它不需要人工逐一检查每个答案的准确性，而是依靠模型对答案的自然语言理解进行评分。

3.3 LLM辅助评估的过程

LLM辅助评估通常包括以下几个关键步骤：

3.3.1 问题分析

首先，LLM需要分析问题的内容，理解问题的意图和上下文。这是评估过程中的第一个步骤，模型需要理解用户询问的具体信息。

{
    "query": "Do the Cozy Comfort Pullover Set have side pockets?",
    "context": ": 10\nname: Cozy Comfort Pullover Set, Stripe\ndescription: ..."
}

3.3.2 答案生成

然后，LLM会基于问题和上下文生成答案。在此过程中，LLM需要根据给定的上下文和问题，为用户生成最符合预期的回答。

3.3.3 评估标准应用

最后，LLM会根据预设的评分标准对答案进行评估。例如，如果答案完全符合预期且涵盖了所有必要信息，则评为“CORRECT”；如果答案不完整或存在偏差，则评为“INCORRECT”。

{
    "predicted_grade": "CORRECT"
}

3.4 提高评估的准确性

为了进一步提高LLM辅助评估的准确性，我们可以根据以下方法进行优化：

多模型评估：通过多个模型对同一答案进行评估，取其平均结果，从而提高评估的一致性。
自动化调整评分标准：根据历史评分数据调整评分标准，确保评估过程能够灵活应对不同类型的问题。
加入人工验证环节：对于一些边缘案例或高度复杂的问题，可以通过人工干预来核实模型的评估结果。

3.5 LLM辅助评估的局限性

虽然LLM辅助评估具有高效性和一致性，但它也有一定的局限性：

理解偏差：LLM虽然能够高效地理解文本，但对于某些复杂或模糊的问题，可能仍会产生理解偏差。
上下文问题：LLM的理解基于当前输入的上下文信息，若上下文信息不足或不完整，可能影响答案的准确性。
无法处理极端错误：LLM的评估更多依赖于答案的整体结构和内容，而对于一些明显错误或不符合实际的答案，可能难以做出精准的判断。

四、总结

本文深入探讨了在LangChain框架中，如何通过不同的评估方法来优化和验证问答系统的性能。总结如下：

示例生成：
- 介绍了手动编写和通过LLM生成示例数据的两种方式，帮助评估问答系统的准确性与稳定性。
- 使用LLM自动生成示例，不仅能够扩展测试数据集，还能有效提升大规模数据处理的效率。
手动评估：
- 强调了人工评估的重要性，开发者可以通过验证生成的答案与预期答案的一致性，确保系统的准确性。
- 调试模式的启用有助于开发者更深入地理解模型的处理过程，快速定位问题。
LLM辅助评估：
- 介绍了如何使用另一个大型语言模型对生成的答案进行自动化评分，避免了人工逐一比对的繁琐，并提高了评估的一致性和准确性。
- 提出了提高评估准确性的方法，包括多模型评估、自动化调整评分标准以及人工验证环节。

系列文章目录

文章目录

前言

一、LangChain 环境搭建与初始配置

1.1 安装依赖

1.2 环境变量加载

1.2.1 具体步骤

1.2.2 注意事项

1.3 初始化模型客户端

二、示例生成与评估

2.1 示例生成的方式

2.1.1 手动编写示例

2.1.2 使用LLM生成示例

2.1.3 示例数据的展示

2.2 手动评估与调试

2.2.1 启用调试模式

2.3 评估示例的结果

2.3.1 评估结果

三、LLM辅助评估

3.1 LLM辅助评估的概述

3.1.1 LLM辅助评估的优势

3.2 使用LLM进行答案评分

3.2.1 评估输出示例

3.3 LLM辅助评估的过程

3.3.1 问题分析

3.3.2 答案生成

3.3.3 评估标准应用

3.4 提高评估的准确性

3.5 LLM辅助评估的局限性

四、总结

评论记录：