后端|大模型探秘–AI 感知世界：从对话到掌控的交互革命

大模型探秘–AI 感知世界：从对话到掌控的交互革命

引言

在当今科技飞速发展的时代，AI大模型正以前所未有的速度改变着我们与世界交互的方式。这些模型不仅能够理解和生成自然语言，还能通过多种途径与外界进行深度融合，从训练数据集的构建到实际应用中的各种交互场景，AI大模型展现出了强大的能力和潜力。本文将深入探讨AI大模型与外界交互的几个重要方面，包括大模型训练数据集、ChatGPT等对话应用、知识库和长上下文、FunctionCall、ToolUse和MCP以及环境融合（AI操作操作系统、浏览器），揭示其背后的原理和应用价值。

一、大模型训练数据集

（一）数据准备的重要性

训练数据集的质量是大模型的主要生命线之一，直接影响到模型的性能和效果。训练一个高性能且表现较好的模型是由多种因素决定的，其中高质量的训练数据至关重要。然而在实际应用中，很多人会选择别人准备好的训练数据，或者忽视训练数据的准备。例如，作为AI领域的领头羊——OpenAI公司依然在为训练数据而头疼。

（二）数据准备的步骤

明确任务：准备数据集的第一步是明确需求，确定要训练的任务类型，如NLP自然语言处理任务或CV计算机视觉类型的图像处理任务等，以及不同种类的不同任务风格。
数据采集：数据来源包括公开数据集、自建数据集和领域数据。公开数据集可从一些网站获取；自建数据集可以通过爬虫、搜索引擎等获取；领域数据如医疗、金融、保险等非公开数据，可通过与这些领域的专家或机构合作获取。同时，要保证数据的多样性，防止过拟合或欠拟合现象出现，并且要注重数据质量，因为数据质量问题会直接影响模型训练结果。
数据清洗：这是数据准备中比较复杂的一个步骤，需要去除数据中的各种影响因素，如缺失值处理、异常值检测、噪声过滤等，最终把数据整理成统一格式，便于下一步处理。
数据预处理：数据预处理的作用是把数据处理成模型能够处理的格式，包括特征工程、样本平衡、维度缩减等。它与数据清洗不同，数据清洗是去除干扰数据，而预处理是将数据转换为适合模型处理的形式。
数据标注：在监督训练中数据标注必不可少，但在无监督学习中则可有可无。目前数据标注的主要方式有自动标注和人工标注，自动标注是训练一个标注模型来完成数据标注。
数据拆分：将收集到的数据拆分为训练数据集、验证数据集和测试数据集，用于模型的训练、验证和测试。

（三）数据格式

常见的训练数据集格式有Alpaca和ShareGPT。Alpaca格式是基于Meta开源的LLaMA模型构建的一种微调数据集格式，特别用于指令微调，其数据格式提供了明确的任务描述、输入和输出三部分，结构简单，易于理解，适合各种自然语言处理任务。ShareGPT格式来源于记录ChatGPT与用户对话的数据集，主要用于对话系统的训练，更侧重于多轮对话数据的收集和组织，模拟用户与AI之间的交互，结构适合对话场景，适用于构建和微调对话模型。

二、ChatGPT等对话应用

（一）对话式交互的特点和优势

对话式交互就像两个人对话一样，可以是文字的，也可以是语音的。它傍上了人工智能这个“大腿”，成为了人工智能时代颇具潜力的交互方式。其优点是降低用户的学习成本，用户不管用什么功能，只要用一套交互方式即可。例如，Operator是一个对话式的购物app，以对话的方式了解用户需求，向用户推荐合适的商品；Quartz是个对话式的新闻app，把“看新闻”变成了“聊新闻”。

（二）ChatGPT的交互方式和应用场景

ChatGPT是OpenAI开发的强大对话应用，其中文版是为国内用户优化的版本，具有更流畅的中文对话能力、免费直连、多功能应用等优势。用户可以通过官网或国内镜像网站使用ChatGPT，官网需翻墙且注册需海外手机号，而镜像网站无需翻墙，支持国内邮箱或手机扫码登录，部分站点还提供免费使用额度。ChatGPT支持多种模型，如GPT - 4、GPT - 3.5等，不同模型在账户类型、访问权限、附件支持和主要功能等方面存在差异。其应用场景广泛，包括翻译、写作、编程、问答等，还可以通过插件扩展功能，如Expedia可用于规划旅行，Instacart可用于订购杂货等。

（三）对话式交互的局限性

对话式交互也存在效率低的缺点，尤其是在处理复杂功能时。传统的交互方式会把内容都摆在用户面前，让用户一目了然，而对话式交互需要用户跟着机器的节奏，一点点获取内容，且没有区分重点，导致速度慢，用户还不能跳过，也不知道下一步是什么。目前，对话式交互适合点对点的沟通和简单的操作场景。

三、知识库和长上下文

（一）知识库的构建和作用

本地知识库是存储特定领域知识的数据集，能够提供更为精确的信息和上下文，对于提高系统的智能性和效率至关重要。构建本地知识库通常围绕检索增强生成（RAG）框架展开，涵盖前端交互、向量存储、嵌入模型、推理大模型等核心模块。RAG技术就像是大语言模型的“智能外挂”，通过检索增强的方式，帮助模型在有限的上下文窗口中找到最相关的知识片段，从而生成更精准、更有针对性的答案。其工作原理包括向量检索和提示词增强，能够有效减少无关信息的干扰，提升模型生成结果的质量。

（二）长上下文的需求和实现方法

随着大模型的发展，长上下文能力受到越来越多的关注。长上下文的需求源于工具化场景（如阅读论文、总结研报等）、个性化场景（如智能助手对用户偏好和设置的长期记忆）以及多轮对话场景。实现长上下文的方法包括直接训练、线性插值等。直接训练需要使用长文本数据，但会面临训练数据获取和资源消耗大的问题；线性插值方法可以将基础模型扩展到更长的上下文长度，并在较少的训练步骤下达到较好的效果。此外，在多轮对话中，为了克服上下文窗口的限制，还可以采用截断历史记录、摘要生成、记忆机制、外部存储与动态调用、基于主题的上下文聚焦等技术策略。

（三）上下文长度和上下文窗口的概念

上下文长度限制了模型一次性交互中能够处理的最大token数量，包括用户输入的所有内容和模型生成的输出。上下文窗口是模型在生成每个新token时实际参考的前面内容的范围，有助于模型生成连贯且相关的文本。理解这两个概念有助于更好地应用和优化模型在各种语言处理任务中的表现。

四、FunctionCall、ToolUse和MCP

（一）FunctionCall的定义和工作原理

FunctionCall是OpenAI在2023年6月13日推出的革命性功能，允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。其工作原理包括意图识别、函数匹配、参数生成、执行回调和结果整合。在传统AI应用中，存在数据时效性和输出不可控的痛点，FunctionCall通过结构化参数传递和动态函数匹配，完美解决了这些问题。例如，当用户询问“查最近的未读邮件”时，模型可以调用邮件系统API来响应。

（二）ToolUse的功能和应用场景

ToolUse是Claude的一个特定功能，允许它与外部客户端工具和函数进行交互。Claude能够通过结构化输出与外部工具进行交互，用户可以为Claude提供自定义工具集，使其能够执行更广泛的任务，如获取实时数据、执行计算和数据分析、内容创作与编辑、语言翻译、自动化工作流程等。使用ToolUse功能可以显著扩展AI的能力，提升其处理各种复杂任务的能力。

（三）MCP的概念和优势

MCP（Model Context Protocol，模型上下文协议）起源于2024年11月25日Anthropic发布的文章。它可以被比喻为“AI扩展坞”，作为一种AI模型的标准化接入协议，能够显著简化模型之间的集成。MCP采用客户端 - 服务器架构，主要由MCP主机、MCP客户端和MCP服务器组成，其核心构建块包括Roots、Sampling、Prompts、Resources和Tools。MCP的优势包括降低开发成本、增强模型能力、扩展应用范围和提升安全性，在智能开发助手、医疗诊断、金融分析、多模态应用等场景中有广泛的应用前景。

五、环境融合：AI操作操作系统、浏览器

（一）AI与操作系统的融合

随着AI技术的发展，操作系统正逐渐与AI深度融合，成为更加智能的平台。例如，Windows 11 AI PC具有“回顾”功能，能帮助用户快速找到此前浏览过的内容或处理过的任务，还具备实时翻译功能的实时字幕；谷歌即将推出的Android 15以AI为核心，Gemini将成为其基础部分，具备即圈即搜、文件内容总结、视频内容分析、AI诈骗电话检测等功能；苹果有望将一系列生成式AI功能加入即将推出的iOS 18中。大模型融入操作系统能够为用户带来全新的功能和服务，推动操作系统向AI原生的方向发展，实现智能化的文件搜索、语音助手功能和实时翻译等功能。

（二）AI与浏览器的融合

Browser - use：这是一个用于浏览器自动化的Python库，旨在简化与浏览器的交互，自动化执行浏览器中的任务。它支持多个常见的浏览器，提供简洁的API，可实现任务自动化，如自动化填充表单、点击按钮、导航到特定页面等，还能与其他工具结合使用，进行端到端的自动化测试。其应用场景包括在线订票、求职申请、数据收集与分析、自动化测试、信息监控等。
Browser Use Web UI：是一个创新的开源项目，建立在browser - use核心框架之上，通过Gradio构建了一个用户友好的Web界面，使得AI代理能够便捷地与浏览器进行交互。该项目支持多种主流大语言模型，支持用户使用自己的浏览器进行操作，解决了重复登录和认证等问题，还提供了浏览器会话持久化、Docker容器化部署、VNC远程查看等功能。
Puppeteer MCP：是一个基于Model Context Protocol的服务器，通过提供浏览器自动化功能，让开发人员能够轻松与网页交互。它将浏览器的操作能力封装成一组简单的接口，核心基于Puppeteer，通过MCP协议进一步扩展其功能，实现更智能的自动化操作，如浏览器导航与交互、表单填写与选择、屏幕截图与监控、JavaScript执行等。
Fellou：是中国95后团队发布的首个Agentic Browser，基于智能代理架构，整合了意图理解、任务规划与自动化执行能力。它突破了传统浏览器的限制，能够读懂用户的需求，自动完成复杂任务，实现从“被动响应指令”到“主动闭环交付”的认知跃迁，成为连接数字生态的“超级终端”，完全解放用户双手，让复杂任务在毫无干预下自动完成。

结论

AI大模型与外界的交互是一个多维度、多层次的过程，从训练数据集的构建到各种应用场景的实现，每一个环节都展现了AI大模型的强大能力和无限潜力。大模型训练数据集为模型提供了知识基础，ChatGPT等对话应用改变了人机交互的方式，知识库和长上下文提升了模型的理解和处理能力，FunctionCall、ToolUse和MCP实现了模型与外部系统的高效交互，环境融合（AI操作操作系统、浏览器）则进一步拓展了模型的应用范围。随着技术的不断发展，AI大模型与外界的交互将更加深入和广泛，为我们的生活和工作带来更多的便利和创新。我们有理由相信，在未来，AI大模型将在更多领域发挥重要作用，推动科技和社会的不断进步。

本文由博客一文多发平台 OpenWrite 发布！