推荐|玩转 LangChain：从文档加载到高效问答系统构建的全程实战

系列文章目录

基础篇

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！

实战篇

前言

在人工智能技术快速发展的背景下，大语言模型（LLM）的应用场景越来越广泛，例如自动化文本生成、智能问答系统、知识提取等。然而，如何高效地与这些大模型交互，成为开发者面临的一大挑战。LangChain正是为解决这一问题而生的。

LangChain 是一个开源框架，旨在帮助开发者更便捷地与大语言模型（如 OpenAI 的 GPT 系列、阿里云通义千问 Qwen）进行交互。通过 LangChain，开发者可以轻松整合模型调用、Prompt 模板管理、复杂任务链条设计以及输出解析等功能，大幅提升开发效率和应用的可靠性。

LangChain 的核心模块

LangChain 由以下核心模块组成，每个模块都有其特定的功能：

Model（模型）
- 提供与大语言模型交互的接口，例如 OpenAI、阿里云等的 LLM。
- 开发者可以轻松配置 API 调用和模型参数。
Prompt（提示词）
- 提供动态提示词模板管理功能，支持变量插值、Prompt 优化。
- 适用于创建灵活且高效的模型交互任务。
Chains（链条）
- 用于将多个任务步骤组合成一个链条，例如多次调用模型完成复杂的推理任务。
- 支持模块化设计，便于维护和扩展。
Memory（记忆）
- 提供上下文记忆功能，可以让模型在多轮对话中记住用户的输入和历史对话内容。
- 适合构建长时间、多轮交互的对话系统。
Output Parsers（输出解析器）
- 解析模型的返回结果，例如将文本解析为 JSON 结构，便于后续处理。
- 特别适用于信息提取、分类任务等。
Agents（代理）
- 集成多种工具（如 API、数据库、文件系统）与模型交互，使模型能够动态调用外部资源完成复杂任务。
- 适合构建更智能化的自动化工作流。

LangChain 的应用场景

LangChain 的灵活性和模块化设计使其广泛适用于以下场景：

文本生成与翻译：例如生成新闻稿、调整语气风格、翻译专业文档。
智能问答与知识库：构建基于文档、数据库的知识问答系统。
信息提取与分析：从非结构化文本中提取关键信息，例如用户评论分析、商业报告解析。
对话系统与聊天机器人：利用记忆模块支持上下文多轮对话，实现类似 ChatGPT 的应用。
自动化工作流：通过 Agents 模块集成外部工具，完成复杂的任务链，例如自动处理订单或执行 API 查询。

本文主题

本文将重点介绍如何使用 LangChain 实现 基于文档的问答系统。通过实际的代码示例，您将学习如何使用 LangChain 加载文档、构建查询系统、使用向量搜索进行文档检索、以及通过模型对查询进行总结和处理。

通过阅读本文，你将学会：

如何加载文档并准备好查询数据。
如何使用 向量存储（Vectorstore） 和 检索模型（Retriever） 进行高效的文档检索。
如何通过 LangChain 中的 QA Chain 和 LLM 模型 生成详细的响应。
如何格式化和展示查询结果，提升用户体验。

一、LangChain 环境搭建与初始配置

在开始构建 LangChain 应用之前，需要完成基础环境的搭建和配置。

1.1 安装依赖

在项目环境中安装必要的 Python 包：

pip install langchain langchain-community langchain_openai python-dotenv openai docarray langchain-huggingface

这些依赖包含了 LangChain 框架、环境变量管理工具 python-dotenv 和与 OpenAI 模型交互的接口。

1.2 环境变量加载

为了保护敏感信息（如 API Key 和 API URL），建议将这些信息存储在项目根目录下的一个名为 .env 的文件中。这样可以避免将敏感信息直接暴露在代码中，同时方便环境的统一配置。

1.2.1 具体步骤

创建 .env 文件
在项目根目录下创建一个名为 .env 的文件。注意，这个文件不需要任何扩展名。
如果使用版本控制（如 Git），记得将 .env 文件添加到 .gitignore 中，避免敏感信息被提交到代码仓库。
编写 .env 文件内容
.env 文件的内容采用键值对的形式，每行一个键值对，格式如下：

阿里云通义千问（Qwen）API 配置
ALIYUN_API_KEY=你的阿里云API密钥
ALIYUN_API_URL=你的阿里云API地址，例如：https://dashscope.aliyuncs.com/compatible-mode/v1

DeepSeek API 配置
DEEPSEEK_API_KEY=你的DeepSeek API密钥
DEEPSEEK_API_URL=你的DeepSeek API地址，例如：https://api.deepseek.com

OpenAI API 配置
OPENAI_API_KEY=你的OpenAI API密钥
OPENAI_API_URL=https://api.openai.com/v1

键名：ALIYUN_API_KEY 和 ALIYUN_API_URL 是阿里云 API 的密钥和访问地址；DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL 是DeepSeek API 的密钥和地址；OPENAI_API_KEY 和 OPENAI_API_URL 是OpenAI API 的密钥和地址。
值：具体的密钥和 URL 需要根据实际情况替换为你自己的值。

在代码中加载 .env 文件
使用 python-dotenv 模块加载 .env 文件中的内容到 Python 程序中。示例如下：

   import os
   from dotenv import load_dotenv

   # 加载 .env 文件中的环境变量
   load_dotenv()

   # 获取环境变量的值
   api_key = os.getenv("ALIYUN_API_KEY")
   base_url = os.getenv("ALIYUN_API_URL")

1.2.2 注意事项

.env 文件应放在项目根目录下，与主代码文件（如 main.py）处于同一级目录。这样 load_dotenv() 可以自动找到 .env 文件。
在使用其他环境变量（如 DEEPSEEK_API_KEY 和 DEEPSEEK_API_URL）时，直接通过 os.getenv("<变量名>") 访问即可。
确保 .env 文件已正确加载。如果程序中获取不到变量值，请检查文件路径和格式是否正确。

通过这种方式，可以在保护敏感信息的同时，方便多环境配置和管理。

1.3 初始化模型客户端

使用 LangChain 提供的 ChatOpenAI，连接阿里云通义千问模型（Qwen）：

from langchain_openai import ChatOpenAI # type: ignore

llm = ChatOpenAI(
    openai_api_key=api_key,
    model_name="qwen-plus",
    base_url=base_url
)

至此，环境已经完成初始化，可以开始与模型交互。

二、创建 Q&A 系统

在本节中，将展示如何使用 LangChain 创建一个基于文档的问答系统。通过此系统，用户可以输入查询，系统能够从预先加载的文档中提取相关信息，并根据需求生成回答。利用 LangChain 中的核心模块