
麦肯锡智能体项目实战关键与避坑指南 Lareina Yee, Michael Chui, Roger Roberts, Stephen Xu / Tyde
[解读]
部署智能体远非一次简单的技术集成,而是一次深刻的组织运营模式变革。其成功与否,取决于企业能否将其视为一个系统性工程,而非孤立的技术项目。
- 智能体的价值绝不在于它本身有多“智能”,而在于它是否被精准地嵌入到重构后的端到端工作流中,与人协同,消除冗余环节,提升整体效率。价值来源于工作流,由智能体实现。
- 企业领导者应像组建团队一样为工作流配备技术:何时用规则自动化(初级员工)、何时用预测分析(分析师)、何时用生成式AI(创意助手)、何时才需雇佣一名“智能体高管”(处理复杂决策)。
- 智能体迫使企业将顶尖员工的“模糊艺术”(如谈判、风险判断)解构为可量化、可迭代的标准化评估体系(Evals)。这个过程本身就是一次宝贵的组织自我审视,它能发现流程中的模糊地带和决策分歧,从而先于AI部署进行优化。
- 企业应成立由业务专家、流程OWNER和AI工程师组成的“知识编码小组”,其首要KPI不是开发出智能体,而是产出高质量、高共识的评估标准(Evals)。这是智能体可靠运行的“宪法”。
站在企业管理的最高视角,部署智能体是一个“三位一体”的系统工程:
- 流程层:以价值为导向,彻底重构工作流。
- 能力层:以平台为基石,沉淀可复用的核心AI能力。
- 组织层:以人为中心,重新定义角色,培育人机协同的新文化。
成功部署智能体AI并非易事,以下是我们关于如何正确实施的经验总结。在智能体AI革命开展一年后,一个明确的教训是:要想做好就需要付出艰苦努力。
企业推行智能体化转型有望获得无与伦比的生产力提升——虽然部分公司已在此类实践中取得初步成果,但更多企业发现难以从投资中获取价值,有些甚至出现业务收缩现象,即在智能体失败的地方重新招聘人力。
任何新技术的成熟过程都难免经历波折,这符合技术发展的自然规律,此前其他创新技术也经历过类似阶段。为了解早期经验教训,我们深入研究了麦肯锡主导的50多个智能体项目及市场上数十个案例,最终将分析结果提炼为六大要点,以助力企业领导者成功从中获取价值)。
1. 问题不在于智能体,而在于工作流程
借助智能体实现业务价值需要改变工作流程。然而,组织往往过于关注智能体或智能化工具本身。这必然导致开发出看似强大、却未能真正优化整体工作流程的智能体,最终产生的价值令人失望。
专注于彻底重构整个工作流程(即涉及人员、流程和技术的各个环节)的人工智能项目,更有可能取得积极成果。理解智能体如何在这些环节中发挥作用,是实现价值的关键路径。人类仍将是完成工作的核心力量,但如今将有不同智能体、工具和自动化技术为其提供支持。
重新设计工作流程的重要起点是绘制流程图并识别关键用户痛点。这一步骤对于设计能减少不必要工作、使智能体与人类高效协作达成业务目标的智能系统至关重要。通过建立学习循环和反馈机制,可形成自我强化的协同体系——智能体的使用频率越高,其智能化程度与适配度就越高。
设想一家致力于合同审核流程现代化的替代性法律服务提供商。该企业所处领域的法律推理处于持续演进中,新的判例法、司法管辖细节和政策解读层出不穷,使得专业知识体系化面临挑战。
为适应这种变化,团队设计了在工作流中自主学习的智能体系统。例如,文档编辑器中的每次用户修改都会被记录和分类,这为工程师和数据科学家提供了丰富的反馈流,用以训练智能体、调整提示逻辑并扩充知识库。随着时间的推移,这些智能体逐渐实现了新专业知识的系统化编码。
关注工作流而非智能体,使团队能够在合适的节点部署恰当的技术——这一优势在重构复杂的多步骤工作流时尤为重要(见图示)。以保险公司为例,其大型调查类工作流通常横跨多个环节(如理赔处理和核保),每个环节需要不同类型的活动与认知任务。企业可以通过精心部署规则系统、分析型AI、生成式AI及智能体的靶向组合来重新设计这类工作流,所有组件都基于统一的编排框架(例如AutoGen、CrewAI和LangGraph等开源框架)运行。在此模式下,智能体充当着协调者与集成者的角色:它们调用工具并将其他系统的输出整合到自身上下文中,如同粘合剂般将整个工作流无缝衔接,从而以更少的人工干预实现真正意义上的闭环交付。
2. 智能体并非万能答案
AI智能体能胜任诸多任务,但并不意味着所有工作都适合交给它们处理。领导者往往未能深入审视待完成的工作内容,也疏于考量采用智能体是否确为最佳解决方案。
为避免投资浪费或产生不必要的复杂性,企业领导者可以像评估高绩效团队成员那样审视智能体的角色。关键问题在于:"需要完成哪些工作?每位潜在团队成员(即智能体)具备哪些相对优势,能够协同实现这些目标?"许多商业问题其实可以通过更简单的自动化方案解决,例如基于规则的自动化系统、预测分析或大语言模型(LLM)提示工程——这些方案往往比未经调优的智能体更加可靠。
在匆忙采用智能体解决方案之前,企业领导者应当先全面评估任务需求。具体而言,需要明确流程所需的标准化程度、需应对的变化幅度,以及哪些环节最适合由智能体来完成。
从某种层面看,这些问题都很简单。例如,投资者开户或监管披露这类低变异、高标准化的工作流程通常受到严格管控,并遵循可预测的逻辑。在这种情况下,基于非确定性大语言模型的智能体可能带来的复杂性和不确定性会超过其价值。
相比之下,高变异、低标准化的工作流程则能显著受益于智能体。例如某金融服务公司部署了智能体来提取复杂的财务信息,既减少了所需的人工验证工作量,又优化了业务流程。这些任务需要信息整合、核验检查和合规分析——正是智能体能发挥效用的领域。
AI工具选择的高阶经验法则
面对不同任务决定采用何种AI工具时,可参考以下指导原则:
- 若任务基于规则且重复性强,输入结构规范(如数据录入),适用基于规则的自动化方案
- 当输入内容非结构化(例如长篇文档),但任务仍属信息提取或生成类需求时,可采用生成式AI、自然语言处理或预测分析技术
- 涉及历史数据分类或预测的任务,适合使用预测分析或生成式AI
- 当输出需融合综合判断或创造性解读时,应选用生成式AI
- 若任务包含多步骤决策过程,且存在长尾效应明显的高度可变输入及上下文场景,则适用AI智能体方案
关键要避免陷入“用或不用智能体”的二元思维。某些智能体能出色完成特定任务,另一些则能辅助人类提升工作效率,而在许多场景下,完全不同的技术方案可能更为合适。核心在于判断何种工具或智能体最适合当前任务,如何实现人机协作效能最大化,以及怎样将智能体与人力有机结合以创造最大产出。人、智能体与工具的协同效率,正是价值创造的核心秘诀。
3. 杜绝“AI垃圾”:投资评估体系,与用户建立信任
部署AI智能体时,团队最常遇到的陷阱之一是:智能系统在演示中表现惊艳,却让实际使用的一线员工倍感挫败。用户抱怨“AI垃圾”或低质量输出的情况屡见不鲜。用户会迅速对智能体失去信任,采纳率持续低迷——通过自动化实现的效率提升,很容易因信任流失或质量下降而付诸东流。
这一反复出现的问题带来的一个宝贵教训是,企业应当像重视员工发展那样,大力投入智能体的开发。正如一位企业领导者所言:"部署智能体更像招聘新员工,而非安装软件。"应为智能体设定清晰的职责描述,进行系统部署并持续提供反馈,使其不断提升效能、实现持续优化。
开发高效智能体是项艰巨任务,需要凝聚个人专业知识来创建评估体系(即"eval"),并以足够精细的粒度将最佳实践编码化。这种编码成果既是智能体的培训手册也是性能测试标准,确保其表现符合预期。
这些实践可能存在于标准操作流程中,或是作为隐性知识留存于人员头脑中。在进行实践编码时,重点应聚焦于顶尖执行者的差异化优势——对销售代表而言,这可能包括对话引导技巧、异议处理方式以及与客户风格的匹配能力。
评估类型 以下是用于评估智能体性能的典型方法:
- 任务完成率(端到端)。衡量无需人工干预或升级处理即能正确完成的工作流比例,反映实际应用效能。
- F1分数/精确率与召回率。该指标平衡误报和漏报情况,适用于分类、提取和决策准确性等具有明确可测量结果(即二值判断)的任务。
- 检索准确率。指相对于真实数据集检索出正确文档、事实或证据的百分比,对检索增强型工作流至关重要。
- 语义相似度。通过生成输出与参考输出之间的嵌入向量余弦相似度进行度量,捕捉超越字面匹配的含义对齐程度。
- LLM即评判器。使用大语言模型(LLM)作为评判器,根据黄金标准或人类偏好评估输出质量。该指标能高效扩展至主观判断领域,如清晰度、帮助性和推理合理性等。
- 偏差检测(通过混淆矩阵)。利用混淆矩阵测量不同用户群体结果的系统性差异,揭示偏差显现点(例如对某群体造成不成比例的漏报影响)。
- 幻觉发生率。追踪事实性错误或无依据声明的出现频率,确保智能体输出的可信度。
- 校准误差(置信度与准确度对比)。检验智能体置信分数与实际正确性是否一致,这对风险敏感型工作流具有重要意义。
关键是,专家必须持续参与以检验智能体随时间推移的表现——在这个领域绝不能"部署即放任"。这种评估承诺要求专家们亲自为给定输入写下或标注期望(及不期望)的输出结果,对于更复杂的智能体,这类标注有时可达数千条。通过这种方式,团队可以评估智能体的正确与错误率,并做出必要修正。
某全球银行在改造其客户身份验证和信用风险分析流程时深刻践行了这一方法:每当智能体对准入规范的合规建议与人工判断出现分歧时,团队就会找出逻辑漏洞、优化决策标准并重新测试。
例如有个案例中,智能体的初始分析过于笼统。团队不仅提供反馈意见,还开发部署了附加智能体,通过多层次追问"为什么"的方式,确保分析深度能提供具有合适颗粒度的有效见解。这种方法既保证了智能体的优异表现,也显著提升了人们对其输出结果的接受度。
4. 让每一步都易于追踪和验证
当仅与少数AI智能体协作时,审查其工作并发现错误通常较为简单。但随着企业部署数百甚至数千个智能体,这项任务就变得极具挑战性。更严重的是,许多企业只关注最终结果——因此当出现差错时(随着企业规模化部署智能体,差错必然会发生),很难精准定位问题根源。
在工作流程的每一步都应对智能体性能进行验证。将监测与评估机制嵌入工作流程,能使团队及早发现错误、优化逻辑,并在智能体部署后持续提升其表现。
例如在某文档审核流程中,一家替代性法律服务提供商的产品团队发现,当系统处理新型案例时准确率突然下降。但由于该团队在构建智能体工作流时已集成可观测性工具来追踪每个环节,他们迅速定位到问题根源:特定用户群体提交的数据质量较低,导致系统产生错误解读并给出劣质下游建议。基于这一洞察,团队改进了数据收集规范,向上游利益相关者提供了文档格式指南,并调整了系统的解析逻辑,智能体性能随之快速回升。
5. 最佳用例即复用案例
在急于推进智能体AI的过程中,企业常为每个特定任务创建独立代理,这可能导致严重冗余和浪费——因为相同代理往往能完成共享诸多共同操作(如数据摄取、提取、搜索和分析)的不同任务。
投资构建可复用代理(相对于执行单一任务的代理)的决策,类似于经典IT架构难题:企业需要在快速构建与避免限制未来功能的锁定选择之间取得平衡。这种平衡通常需要大量判断与分析。
识别重复性任务是良好起点。企业可开发能跨工作流轻松复用的代理及组件,并让开发者便捷调用它们。这包括建立集中化的经验证服务(如LLM可观测性或预审核提示词)与资产库(例如应用模式、可复用代码和培训材料),确保其易于查找使用。将这些能力整合至统一平台至关重要。根据我们的经验,这种做法几乎能消除30%到50%的非必要工作量。
6. 人类仍然至关重要,但其角色和数量将发生变化
随着AI智能体的持续激增,人类将扮演何种角色的问题引发了诸多焦虑:一方面是对工作保障的担忧,另一方面是对生产力提升的高期望。这导致人们对当今许多工作中人类角色的看法出现严重分歧。
需要明确的是:智能体将能够完成大量工作,但即使智能体和人类的工作类型随时间推移发生变化,人类仍将是劳动力构成中不可或缺的部分。例如,人们仍需监督模型准确性、确保合规性、运用判断力处理边缘案例。正如我们之前讨论的,智能体并非总是最优解,因此仍需人力配合机器学习模型等其他工具开展工作。不过特定工作流程所需的人力可能会发生变化——当工作流程通过智能体转型后,用人数量往往会减少。企业领导者关键要像管理任何变革项目那样掌控这些转变,并审慎分配用于训练和评估智能体的必要工作量。
我们从实践中汲取的另一重要教训是,企业应当以审慎态度重新设计工作流程,确保人类与智能体能够高效协同。若缺乏这种聚焦,即便最先进的智能体程序也可能遭遇无声故障、错误累积和用户抵触。
以前文提及的替代性法律服务提供商为例:该团队在设计法律分析流程时,细致规划了人类介入的环节、时机及方式。在某个具体场景中,智能体虽能高精度整理核心索赔项及金额数据,但由于这些索赔主张对案件全局至关重要,仍需律师进行复核确认方可生效。
同样,智能体能够为案件推荐工作方案,但鉴于决策的重要性,人类不仅需要审核还需调整这些建议至关重要。这些智能体还被设定能突出显示边缘案例和异常情况,协助律师形成更全面的观点。流程最终仍需有人签署文件,以个人执业资质为法律决策背书。
这种人机协作设计的关键在于开发简洁的可视化用户界面,使人们能轻松与智能体互动。例如某家财产意外保险公司开发了交互式可视化元素(如边界框、高亮显示和自动滚动功能),帮助审核人员快速验证AI生成的摘要。当用户点击某个洞察点时,应用程序会直接跳转到对应页面并高亮相关文本。这种对用户体验的关注节省了时间、减少了反复核查,并建立起对系统的信任,使用户接受度接近95%。
AI智能体正在飞速发展,我们必将收获更多经验教训。但除非公司在推进智能体项目时抱着学习心态并在实践中学习,否则它们很可能会重蹈覆辙,进而延缓发展进程。
喜欢这篇内容?
如果文章对你有帮助,可以请作者喝杯咖啡。感谢支持
由Stripe提供安全支付 • 支持支付宝和信用卡
相关推荐




