机智体
如何为 AI 智能体编写高效工具
CATO Networks

如何为 AI 智能体编写高效工具
Ken Aizawa
/
Tyde

2025-09-13
#技术#Eval#方法
Anthropic 团队分享为智能体编写高质量工具并评估的原则与方法,探讨如何利用 AI 自身优化工具和适应新开发模式

[解读]

为 Agent 设计工具的过程,是定义角色(能做什么),提供工具(API),建立严格绩效评估体系,并持续追踪和提升绩效。这个认知组织设计与公司组织架构和信息流设计惊人相似:

全新的软件开发框架“智能体驱动开发”(Agent-Driven Development, ADD)正在超越测试驱动开发和行为驱动开发(BDD),将非确定性的 Agent 置于开发流程的核心。这个框架承认并拥抱系统的非确定性,将开发的重点从“编写代码”或代码逻辑正确转向“塑造行为”或行为行为有效。ADD 可以概括为:

  1. 假设 (Hypothesize):基于用户需求,构想对 Agent 有价值的工具。
  2. 原型 (Prototype):快速实现工具的最小可行版本。
  3. 评估 (Evaluate):构建反映真实世界复杂度的“行为测试集”,并系统评估 Agent 装备该工具后的任务解决能力。
  4. 协作 (Collaborate):将评估失败的日志和 Agent 的“思考链”作为输入,与 Agent 协作分析失败的根源,并让其辅助重构和优化工具。
  5. 迭代 (Iterate):重复上述过程,直到 Agent 的行为表现达到预期水平。

模型上下文协议(Model Context Protocol, MCP)能够让大型语言模型智能体拥有数百种工具来解决现实世界的任务。但如何才能让这些工具发挥最大效用呢?本文将介绍 Anthropic 在各种智能体系统中提升性能的有效技术。

文章将涵盖以下内容:

  • 构建和测试工具原型
  • 创建并运行智能体工具评估
  • 与 Claude 等协作自动提升工具性能

最后,文章总结了 Anthropic 在实践中发现的编写高质量工具的关键原则:

  • 选择要实现(和不实现)的正确工具
  • 对工具进行命名空间管理,以明确功能边界
  • 从工具向智能体返回有意义的上下文
  • 优化工具响应以提高 token 效率
  • 对工具描述和规范进行提示工程(prompt-engineering)
构建评估体系能让您系统地衡量工具的性能。借助Claude Code,您可以基于该评估自动优化您的工具。
构建评估体系能让您系统地衡量工具的性能。借助Claude Code,您可以基于该评估自动优化您的工具。

什么是工具?

在计算领域,确定性系统在给定相同输入时每次都会产生相同的输出,而非确定性系统(如智能体)即使在相同起始条件下也能生成不同的响应。

当我们编写传统软件时,我们是在确定性系统之间建立契约。例如,getWeather(“NYC”) 这样的函数每次被调用时,都会以完全相同的方式得到纽约天气情况。

工具是一种新型软件,它反映了确定性系统与非确定性智能体之间的契约。当用户询问“我今天应该带伞吗?”时,智能体可能会调用天气工具,从一般知识中回答,甚至可能首先询问位置信息。有时,智能体可能会产生幻觉,甚至无法理解如何使用工具。

这意味着在为智能体编写软件时,我们必须从根本上重新思考我们的方法:我们不应像为其他开发人员或系统编写函数和 API 那样编写工具和 MCP 服务器,而是需要为智能体设计它们。

我们的目标是通过使用工具来追求各种成功的策略,从而扩大智能体在解决各种任务中的有效范围。幸运的是,根据我们的经验,对智能体来说最“符合人体工程学”的工具,对人类来说也出奇地直观易懂。

如何编写工具

在本节中,我们将描述如何与智能体协作,既编写又改进你提供给它们的工具。首先,快速搭建工具原型并在本地进行测试。接下来,运行全面的评估以衡量后续的更改。与智能体一起工作,你可以重复评估和改进工具,直到你的智能体在现实世界任务中实现强大性能。

构建原型

如果不亲自动手,很难预测智能体认为哪些工具符合人体工程学,哪些不符合。快速搭建工具原型时,如果你使用 Claude Code 编写,为 Claude 提供工具依赖的任何软件库、API 或 SDK(包括可能的 MCP SDK)的文档会有所帮助。LLM友好的文档通常可以在官方文档网站的扁平 llms.txt 文件中找到。

注册用户专享

免费注册机智体,继续阅读文章

相关推荐

AI视频生成技术解析:从扩散模型到Transformer架构

AI视频生成技术解析:从扩散模型到Transformer架构

#技术#方法

你知道从文字生成视频的技术背景吗?本文以通俗语言带你了解扩散模型等高效、连贯视频创作的底层原理与未来趋势

Shopify如何构建生产就绪的智能体系统

Shopify如何构建生产就绪的智能体系统

#方法#Eval #智能体

将AI智能体从“能用”原型推向“好用”产品,关键在建立集分层架构、全面评估与用户信任于一体的系统化构建范式

如何让 Claude Code 成为领域特定编码专家

如何让 Claude Code 成为领域特定编码专家

#技术#方法

LangChain解析了将Claude Code变身领域编码专家的关键:提供精炼的“心智模型”以指导AI,而非仅让其访问海量文档

麦肯锡智能体项目实战关键与避坑指南

麦肯锡智能体项目实战关键与避坑指南

#方法 #智能体

基于一线实践项目,McKinsey总结了成功部署的六大要素,涵盖工作流设计、技术选型与组织协同。确保AI投资获得真实回报

从功能强大到深入人心:产品经理的 AI 智能体架构指南

从功能强大到深入人心:产品经理的 AI 智能体架构指南

#方法 #产品

本文为产品经理剖析AI智能体架构,揭示如何构建用户信任、驱动产品采纳,并最终超越技术能力的核心方法

机智体

机智体主要围绕人工智能、智能体和具身智能等深科技,观察技术发展趋势、商业应用和社会影响。精选各大英文媒体文章和有影响的意见领袖观点,主要基于机器翻译 + 人工审阅而成。

© 2026 机智体 观机于智 · 见体于行