AI 代理是什么?

2025年2月7日

ChatGPT 教學專書
不僅教你 ChatGPT 指令,更帶你實作出創新應用!前往了解

在 2024 年底,几乎全世界在 AI 领域最有影响力的人,都认为 AI 代理 (AI Agents) 是 2025 年最值得关注的 AI 议题。

举例来说,吴恩达教授在《AI, Agents and Applications》演讲最开头就提到,他认为如果他要选一个最重要、最值得关注的议题,那他会选 AI 代理。

他提到,虽然在社群中很多人都关注在底层的模型,但事实上 AI 代理带来的帮助来得更大。举例来说,他提到的一个研究指出,GPT-3.5 模型搭配 AI 代理的技术,在评测 (eval) 之下,表现比 GPT-4 来得更好。

又或者 LinkedIn 的创办人,同时是多家领先 AI 公司的投资人 Reid Hoffman 在他的 2025 年 AI 趋势预测中,基本上也是环绕着 AI 代理这个主题展开 (连结)。

因此,在这篇文章,我们会试着来谈什么是 AI 代理。在未来的内容,我们会更详细谈如何开发 AI 代理。

什么是 AI 代理 (AI Agent)?

AI 代理这个词早在 90 年代的人工智慧相关研究就出现了,而过去一年社群针对 AI 代理这个词,还没有一个收敛到很完整的定义。但大致上的定义都与 Google 在 《Agents》 白皮书所定义的,不会相差太远。

该白皮书对代理的定义如下,AI 代理是可以在不须用人类介入的状况下,根据指定目标,去完成相关任务 (原文是 Agents are autonomous and can act independently of human intervention, especially when provided with proper goals or objectives they are meant to achieve. Agents)。

这样讲起来很抽象,让我们举一个工程师会遇到的例子来具体说明。假如今天你被指派一个任务,在原本的程式码库当中,有很多很类似的重复程式码,这让整体维护性不佳,而你的任务是要解决这个问题。

在没有任何 AI 助手的状况下,你可能会这样做

  • 先自己在程式码库中,把相似的程式码一条条找出来
  • 接着根据这些共通性,分析可以如何进一步抽象化,把能重复用的地方抽成一个方法或函式
  • 接着先写确保接下来要重构的程式码,都有测试覆盖,以免重构后出现预料外的问题
  • 接着用这个被抽出来的函式,去一个个重构原本的程式码
  • 最后执行测试,确保重构后的程式码都没有问题 (如果有问题就回到上面重构的阶段进行修改)

在有过去两年有 ChatGPT 与 GitHub Copilot 等工具的帮助下,可能会变成这样

  • 先自己在程式码库中,把相似的程式码一条条找出来
  • 丢到 ChatGPT 或 GitHub Copilot,请 AI 帮忙抽出可以重复使用的方法或函式
  • 假如发现没有测试覆盖,请 ChatGPT 或 GitHub Copilot 先帮忙写测试补上
  • 接着到不同档案,每个档案请 ChatGPT 或 GitHub Copilot 用被抽出的函式来重构
  • 最后执行测试,确保重构后的程式码都没有问题 (如果有问题就回到上面重构的阶段进行修改)

那么在有 AI 代理的状况下,会有什么不同呢?

  • 先找出一段要被重构的程式码,然后跟 AI 代理说「现在程式码库有很多相似但不完全一样的程式码,请重构避免大量的重复」
  • 接着 AI 代理会扫过整个程式码,把相似的程式码都辨识出来
  • 接着 AI 代理会根据相似的程式码,把重复的部分抽成共用的方法或函式
  • AI 代理自己先确保有测试,然后补上该补的测试
  • AI 代理根据重构的程式码以及相关测试,在终端机先跑测试
  • 如果发现测试没有通过,就回到修正刚刚抽出的共用方法或函式
  • 重复上述步骤到所有测试都跑过

可以看到,在 ChatGPT 与 GitHub Copilot 等工具的帮助下,工程师的开发速度能获得很大的加成;但是在过程当中的每个步骤,工程师都还是需要介入,然后在每个步骤跟 ChatGPT 或 GitHub Copilot 持续互动,最终才能完成任务。

而在 AI 代理的模式下,工程师只需用给任务的目标 (这边是完成重构),AI 代理就会根据目标去完成任务,在过程中不需要工程师额外的介入。

OpenAI 的 AI 分级

在大致理解完 AI 代理后,让我们往后拉一个角度,从更宏观的视角来看 AI 代理是什么。从宏观的角度看,AI 代理是通往通用人工智慧 (AGI) 路上的一个阶段性里程碑。

大家可以试着想一想,理想中的通用人工智慧应该是什么样子? 而在 2022 年末起开始有的 ChatGPT、Claude 等 AI 聊天助手,与这个理想的样貌还存在什么差距?

事实上,OpenAI 的执行长 Sam Altman 在多个演讲中有谈到他们看待通用人工智慧的分类。这个分类有五个不同等级,每一个等级都会更接近通用人工智慧。

  • 等级 1 对话型 AI (conversational AI):是大家熟悉的 ChatGPT 或 Claude
  • 等级 2 推理型 AI (reasoning AI):在收到任务后,会先进行推理后才生成回答 (OpenAI 的 o1o3 模型即是这种类型的 AI,比起等级 1,能够解决更复杂与困难的问题)
  • 等级 3 自动型 AI (autonomous AI):AI 代理即是这一个等级,比起前一个等级,能够少去人类在中间的介入
  • 等级 4 创新型 AI (innovating AI):虽然等级 3 的 AI 代理在执行任务时不需用人为介入,但仍需要来自人类给设定的目标。但到了等级 4 的创新型 AI,就不只是听命行事,而是能提出超越原本预期的创新
  • 等级 5 组织型 AI (organizational AI):等级 5 的 AI 则是能在组织层级运作,从策略制定到在负责系统中执,能够顺利完成横跨团队的任务。

可以看到 AI 代理是被归类在等级 3,对比起等级 1 与 等级 2,不再需用人类在聊天对话框当中持续输入,而会在过程中自主思考如何完成任务,然后再根据思考出的规划,一步步执行,直到完成任务。

阅读更多

在初步理解完 AI 代理后,相信你可能还有很多问题,例如从从技术架构的角度,该如何理解 AI 代理? 以及软体工程师可以如何善用 AI 代理? 这些问题我们在 E+ 成长计划的主题文都有更详细谈到,推荐感兴趣的读者阅读

本文为 E+ 成长计划的深度内容,截取段落开放免费阅读。欢迎加入 E+ 成长计划阅读完整版本 (点此了解 E+ 的详细介绍)。

🧵 如果你想收到最即時的內容更新,可以在 FacebookInstagram 上追蹤我們