AI智能体基础设施的崛起

生成式人工智能应用的爆发显而易见，这些应用涵盖了生产力、开发、云基础设施管理、媒体消费，甚至是医疗收入周期管理。过去24个月内，迅速改进的模型和我们行业构建的底层平台基础设施简化了托管、微调、数据加载和内存管理，使得开发应用变得更加容易。因此，许多创始人和投资者的目光转向了堆栈的顶层，我们终于可以开始为终端用户应用最先进的技术。

然而，生成式人工智能发展的飞速步伐意味着很少有假设能够长期成立。现在，应用程序正以一种新的方式构建，这将对底层基础设施提出新的要求。这些开发人员正在跨越一座尚未完工的桥梁。如果我们的行业不能在堆栈下层支持它们，并提供一套新的人工智能代理基础设施组件，那么它们的应用程序将无法发挥全部潜力。

智能体的崛起

一个关键的变化是人工智能代理（智能体）的兴起：这些是能够计划和执行多步骤任务的自主行为体。如今，智能体（而非直接对底层模型的提示）正成为终端用户常见的接口，甚至成为开发人员构建的核心抽象层。这进一步加快了新应用程序的构建速度，并在平台层创造了新的机会。

从2022年的MRKL项目和ReAct项目，到2023年的BabyAGI和AutoGPT项目，开发人员开始发现，提示和响应链可以将大任务分解为较小的任务（计划）并自主执行。像LangChain、LlamaIndex、Semantic Kernel、Griptape等框架显示，这些智能体可以通过代码与API交互，而像Toolformer和Gorilla的研究论文则表明，底层模型可以有效地学习使用API。来自微软、斯坦福和腾讯的研究表明，智能体一起工作时比单独工作更有效。

今天，智能体一词对不同的人意味着不同的东西。如果你与足够多的从业者交谈，会发现一个包含多种概念的谱系，这些概念都可以被称为智能体。BabyAGI的创建者Yohei Nakajima提出了一种很好的看法：

手工制作的智能体：提示链和API调用是自主的，但在狭窄的约束条件下操作。

专门智能体：在一部分任务类型和工具中动态决定做什么。虽然有约束，但比手工制作的代理少。

通用智能体：智能体的通用人工智能（AGI）——目前仍在视野的地平线上，而不是今天的实际情况。

我们最先进的前沿模型（GPT-4、Gemini 1.5 Pro、Claude 3 Opus等）的推理限制是我们构建、部署和依赖更高级智能体理（专门和通用）的关键约束。智能体使用前沿模型进行计划、优先级排序和自我验证——即将大任务分解为较小任务并确保输出正确。因此，适度的推理水平意味着代理也受到限制。随着时间的推移，具有更先进推理能力的新前沿模型（如GPT-5、Gemini 2等）将带来更先进的智能体。

应用智能体

今天，开发人员表示，表现最好的智能体都是非常手工制作的。开发人员通过在当前状态下找出哪些用例在正确的约束条件下有效来机智地应用这些技术。尽管存在局限性，智能体正在迅速普及。终端用户有时会意识到它们，例如在Slack上响应的编码智能体。越来越多的代理也被隐藏在其他用户体验抽象层下，如搜索框、电子表格或画布。

比如矩阵（Matrices），一家成立于2024年的电子表格应用公司。Matrices构建的电子表格可以代表用户自行完成，例如，根据行和列标题推断用户希望在A1:J100单元格中填入的信息，然后搜索网络并解析网页以找到每个数据点。Matrices的核心电子表格用户体验与1985年推出的Excel或1979年推出的Visicalc没有太大区别。但Matrices的开发人员可以使用1000多个智能体对每行、每列，甚至每个单元格进行独立的多步骤推理。

或者如Gradial，一家成立于2023年的营销自动化公司。Gradial帮助数字营销团队自动化其内容供应链，创建资产变体、执行内容更新，并在各渠道创建/迁移页面。Gradial提供一个聊天界面，但也可以通过响应JIRA或Workfront等跟踪系统中的工单，在现有工作流程中与营销人员会面。营销人员无需将高层次任务分解为个别行动。相反，Gradial智能体完成了这些任务，并在幕后为营销人员完成任务。

可以肯定的是，今天的代智能体有很多局限性。它们经常出错，需要被管理。运行过多智能体会对带宽、成本、延迟和用户体验产生影响。开发人员仍在学习如何有效地使用它们。但读者会注意到，这些局限性与对基础模型本身的抱怨相呼应。验证、投票和模型集成等技术加强了智能体，这些技术的近期历史表明，生成式人工智能整体上开发人员依赖快速的科学和工程改进并以未来状态为目标进行构建。他们正如我上面提到的那样，跨越了一座尚未完工的桥梁，假设它会迅速完工。

智能体支撑基础设施

这一切意味着我们的行业需要构建支持智能体和依赖它们的应用程序的基础设施。

今天，许多智能体几乎完全是垂直集成的，几乎没有托管基础设施。这意味着：为智能体自我管理云主机、用于存储和状态的数据库、用于从外部来源摄取上下文的连接器，以及所谓的函数调用、工具使用或工具调用以使用外部API。一些开发人员使用像LangChain（尤其是其评估产品Langsmith）等软件框架将这些拼接在一起。今天，这个堆栈工作得最好，因为开发人员快速迭代，并觉得需要端到端地控制他们的产品。

但随着用例的确定和设计模式的改进，未来几个月情况会发生变化。我们仍然处于手工制作和专门智能体的时代。因此，近期最有用的基础设施原语将是那些满足开发人员当前需求并让他们构建可控的手工代理网络的原语。该基础设施还可以具有前瞻性。随着推理逐步改进，前沿模型将掌控更多工作流程，开发人员将希望专注于产品和数据——这些是他们的差异化之处。他们希望底层平台在规模、性能和可靠性上“正常工作”。

诚然，从这个角度看，你可以看到一个丰富的生态系统已经开始形成，为人工智能体基础设施提供支持。以下是一些关键主题：

智能体专用开发工具

像Flowplay、Wordware和Rift这样的工具原生支持常见的设计模式（投票、集成、验证、“团队”），这将帮助更多开发人员理解这些模式并将其用于构建智能体。一个有用且有主见的开发工具可能是解锁基于这一强大智能体技术的下一波应用程序最重要的基础设施之一。

智能体即服务

用于特定任务的手工智能体开始作为基础设施发挥作用，开发人员可以选择购买而不是构建。这些智能体提供有主见的功能，如用户界面自动化（Tinyfish、Reworkd、Firecrawl、Superagent、Induced和Browse.ai）、工具选择（NPI、Imprompt）以及提示创建和工程。一些终端客户可能直接应用这些智能体，但开发人员也将通过API访问这些智能体并将其组合成更广泛的应用程序。

浏览基础设施

阅读网络并采取行动是一个关键优先事项。开发人员通过让智能体与API、SaaS应用程序和网络进行交互，使它们变得更加丰富。API接口相对简单，但网站和SaaS应用程序访问、导航、解析和抓取复杂。这样做可以像使用API一样使用任何网页或网络应用，访问其信息和功能的结构化形式。这需要管理连接、代理和验证码。Browserbase、Browserless、Apify、Bright Data、Platform.sh和Cloudflare Browser Rendering都是在这个领域有产品的公司。

个性化记忆

当智能体将任务分布在多个模型之间时，提供共享记忆并确保每个模型都能访问相关的历史数据和上下文变得重要。像Pinecone、Weaviate和Chroma这样的向量存储对此非常有用。但也有一类新公司具有互补的、有主见的功能，包括WhyHow和Cognee，LangChain的一项功能称为LangMem和一个名为MemGPT的流行开源项目。这些公司展示了如何为终端用户和该用户的当前上下文个性化智能体记忆。

智能体认证

这些智能体代表代理管理认证和授权，因为它们代表终端用户与外部系统交互。今天，开发人员使用OAuth令牌让代理冒充终端用户（敏感），在某些情况下甚至要求用户提供API密钥。但用户体验和安全影响是严重的，并不是所有网络都支持OAuth（这就是Plaid在金融服务中存在的原因）。 Anon.com 、Mindware和Statics.ai是三个例子，展示了开发人员在规模上需要什么：为智能体本身管理认证和授权。

智能体托管

无缝管理、编排和扩展智能体托管的分布式系统。如今，存在一套不同的基元用于托管（E2b.dev、Ollama、Langserve）、持久化（Inngest、Hatchet.run、Trigger.dev、 Temporal.io ），以及编排（DSPy、AutoGen、CrewAI、Sema4.ai、LangGraph）。一些平台（LangChain和Griptape）为这些东西的不同组合提供托管服务。一个统一的服务，可以提供可扩展的托管持久性和协调，将意味着开发人员不再需要在多个抽象层次（应用程序和智能体）思考，而是可以专注于他们希望解决的问题。

在智能体基础设施的发展早期，我们看到了一系列尚未商业化或集成到更广泛服务中的运营服务和开源工具。而且还远未清楚谁将成为赢家——在这个领域，最终的赢家可能今天还年轻，甚至可能尚未出现。所以，让我们开始工作吧。