AI 代理是什么?｜ExplainThis

在 2024 年底，几乎全世界在 AI 领域最有影响力的人，都认为 AI 代理 (AI Agents) 是 2025 年最值得关注的 AI 议题。

举例来说，吴恩达教授在《AI, Agents and Applications》演讲最开头就提到，他认为如果他要选一个最重要、最值得关注的议题，那他会选 AI 代理。

他提到，虽然在社群中很多人都关注在底层的模型，但事实上 AI 代理带来的帮助来得更大。举例来说，他提到的一个研究指出，GPT-3.5 模型搭配 AI 代理的技术，在评测 (eval) 之下，表现比 GPT-4 来得更好。

又或者 LinkedIn 的创办人，同时是多家领先 AI 公司的投资人 Reid Hoffman 在他的 2025 年 AI 趋势预测中，基本上也是环绕着 AI 代理这个主题展开 (连结)。

因此，在这篇文章，我们会试着来谈什么是 AI 代理。在未来的内容，我们会更详细谈如何开发 AI 代理。

什么是 AI 代理 (AI Agent)?

AI 代理这个词早在 90 年代的人工智慧相关研究就出现了，而过去一年社群针对 AI 代理这个词，还没有一个收敛到很完整的定义。但大致上的定义都与 Google 在《Agents》白皮书所定义的，不会相差太远。

该白皮书对代理的定义如下，AI 代理是可以在不须用人类介入的状况下，根据指定目标，去完成相关任务 (原文是 Agents are autonomous and can act independently of human intervention, especially when provided with proper goals or objectives they are meant to achieve. Agents)。

这样讲起来很抽象，让我们举一个工程师会遇到的例子来具体说明。假如今天你被指派一个任务，在原本的程式码库当中，有很多很类似的重复程式码，这让整体维护性不佳，而你的任务是要解决这个问题。

在没有任何 AI 助手的状况下，你可能会这样做

先自己在程式码库中，把相似的程式码一条条找出来
接着根据这些共通性，分析可以如何进一步抽象化，把能重复用的地方抽成一个方法或函式
接着先写确保接下来要重构的程式码，都有测试覆盖，以免重构后出现预料外的问题
接着用这个被抽出来的函式，去一个个重构原本的程式码
最后执行测试，确保重构后的程式码都没有问题 (如果有问题就回到上面重构的阶段进行修改)

在有过去两年有 ChatGPT 与 GitHub Copilot 等工具的帮助下，可能会变成这样

先自己在程式码库中，把相似的程式码一条条找出来
丢到 ChatGPT 或 GitHub Copilot，请 AI 帮忙抽出可以重复使用的方法或函式
假如发现没有测试覆盖，请 ChatGPT 或 GitHub Copilot 先帮忙写测试补上
接着到不同档案，每个档案请 ChatGPT 或 GitHub Copilot 用被抽出的函式来重构
最后执行测试，确保重构后的程式码都没有问题 (如果有问题就回到上面重构的阶段进行修改)

那么在有 AI 代理的状况下，会有什么不同呢?

先找出一段要被重构的程式码，然后跟 AI 代理说「现在程式码库有很多相似但不完全一样的程式码，请重构避免大量的重复」
接着 AI 代理会扫过整个程式码，把相似的程式码都辨识出来
接着 AI 代理会根据相似的程式码，把重复的部分抽成共用的方法或函式
AI 代理自己先确保有测试，然后补上该补的测试
AI 代理根据重构的程式码以及相关测试，在终端机先跑测试
如果发现测试没有通过，就回到修正刚刚抽出的共用方法或函式
重复上述步骤到所有测试都跑过

可以看到，在 ChatGPT 与 GitHub Copilot 等工具的帮助下，工程师的开发速度能获得很大的加成；但是在过程当中的每个步骤，工程师都还是需要介入，然后在每个步骤跟 ChatGPT 或 GitHub Copilot 持续互动，最终才能完成任务。

而在 AI 代理的模式下，工程师只需用给任务的目标 (这边是完成重构)，AI 代理就会根据目标去完成任务，在过程中不需要工程师额外的介入。

OpenAI 的 AI 分级

在大致理解完 AI 代理后，让我们往后拉一个角度，从更宏观的视角来看 AI 代理是什么。从宏观的角度看，AI 代理是通往通用人工智慧 (AGI) 路上的一个阶段性里程碑。

大家可以试着想一想，理想中的通用人工智慧应该是什么样子? 而在 2022 年末起开始有的 ChatGPT、Claude 等 AI 聊天助手，与这个理想的样貌还存在什么差距?

事实上，OpenAI 的执行长 Sam Altman 在多个演讲中有谈到他们看待通用人工智慧的分类。这个分类有五个不同等级，每一个等级都会更接近通用人工智慧。

等级 1 对话型 AI (conversational AI)：是大家熟悉的 ChatGPT 或 Claude
等级 2 推理型 AI (reasoning AI)：在收到任务后，会先进行推理后才生成回答 (OpenAI 的 o1 与 o3 模型即是这种类型的 AI，比起等级 1，能够解决更复杂与困难的问题)
等级 3 自动型 AI (autonomous AI)：AI 代理即是这一个等级，比起前一个等级，能够少去人类在中间的介入
等级 4 创新型 AI (innovating AI)：虽然等级 3 的 AI 代理在执行任务时不需用人为介入，但仍需要来自人类给设定的目标。但到了等级 4 的创新型 AI，就不只是听命行事，而是能提出超越原本预期的创新
等级 5 组织型 AI (organizational AI)：等级 5 的 AI 则是能在组织层级运作，从策略制定到在负责系统中执，能够顺利完成横跨团队的任务。

可以看到 AI 代理是被归类在等级 3，对比起等级 1 与等级 2，不再需用人类在聊天对话框当中持续输入，而会在过程中自主思考如何完成任务，然后再根据思考出的规划，一步步执行，直到完成任务。

什么是 AI 代理 (AI Agent)?

OpenAI 的 AI 分级

阅读更多