提示词工程 (Prompt Engineering) 基础

谈到开发生成式 AI 产品，相信多数人前几个会想到的名词中，多半会有提示词工程 (prompt engineering)。所谓的提示词 (prompt) 如其名，代表着对 AI 模型的一种提示，让人能借由提示来把模型最好的回应引出来。

给定同样的大型语言模型，高品质的提示词与一般的提示词，会有很不同的效果。对此，在这篇文章中，我们会来探讨可以如何透过提示词工程，协助开发出更好的生成式 AI 产品。

提示词也能是工程吗?

在往下深谈提示词工程前，相信有些读者会有「提示词也能被当做工程吗」的疑问。毕竟很多人对提示词的使用印象，就是按照一些常见的原则，然后下完提示词后得到来自 AI 模型的回答，这样为什么会被称为工程呢?

之所以提示词工程能加上工程这两个字，甚至许多公司会愿意花大钱找提示词工程师 (例如最有名的 Anthropic 提示词工程师的年薪超过千万台币)，是因为如同工程师在解决问题时，需要有系统且有方法，提示词工程师也会透过工具，以及试误 (trial and error) 与迭代 (iteration)，从过程中去找出最理想的提示词。

以 Anthropic 的提示词工程师职缺描述来看，可以看到其中一项要求是交付、测试，与纪录最佳实践 (Discover, test, and document best practices)。从抽象的角度来看，这与其他工程师在做的事情是很相似的。都是需要先针对需求深入理解，然后提出相对应的解决方案，最后从解决问题中创造价值，并且记录下最佳实践。

企业级提示词 (enterprise prompting) 的不同之处

进一步说，企业之所以愿意花钱聘请专门的提示词工程师，是因为企业级应用所需要的提示词，与一般使用者平常在用 ChatGPT 或 Claude 这类应用有所不同。假如是一般的 AI 聊天机器人使用者，多半可以在使用时，自行调整提示词。换句话说，假如今天某个输出的格式不符合预期，可以直接换成另一个提示词，然后再试一次。

但是企业级应用，或者说假如今天是要打造一个放上线的产品，就没办法这样。举例来说，目前市场上有许多 AI 履历修改工具，让使用者可以简单上传自己的履历后，得到 AI 的回馈；然而，这时如果解析完履历后给的回馈品质不好，使用者因为只能上传履历，不能像用 ChatGPT 一样自己进一步调整，因此当收到品质不好的成果，使用者只会觉得这个产品没帮助，然后就流失掉。

又或者现在有些 AI 履历修改工具，不仅会给回馈，还能做到直接帮忙输出一个新的版本的履历。想要这样做，可能需要 AI 在修改完后回传某个特定格式 (例如 JSON 格式)，然后再由伺服器根据该格式，套到某个履历模板后输出。在这种情况下，假如 AI 模型没有按照预期的格式输出，可能会导致伺服器无法处理，导致无法输出修改后的履历，那也会让使用者觉得产品不好，然后就流失掉。

对比起一般使用者，在用 AI 聊天机器人时，如果没按照预期输出，可能骂一声后换个提示词，然后继续用；企业级的应用不能这样，所以企业级的提示词需要试到非常稳定，各种输入都能处理才行，这也是提示词工程师的价值所在。

更进一步说来说，随着模型的演进、产品的演进，提示词也需要与时具进，这需要有专门的人来做 (如果是由软体工程师来做，那工程师本身也需要不断精进相关知识)，因此对企业来说，专门的提示词工程师有其存在之必要。

如何为 AI 产品下好提示词?

在了解完企业级产品的提示词，与一般自己在使用 AI 助手的区别后，接着我们来谈在打造 AI 产品时，可以如何下好提示词。

透过系统讯息设定角色

假如过去你已经有在使用 ChatGPT 或 Claude 这类 AI 助手，相信在读提示词相关的内容，可能有读过可以透过设定角色，来让 AI 模型的回应更加贴近某个角色的回答。举例来说，同样是做资料分析，从商业分析师的角度来分析，会跟产品经理的分析角度有所区别，所以预先设定好角色，会让模型的回答更贴近预期。

不过从开发产品的角度看，应该要尽可能做到，让使用者不用做这件事。换句话说，产品本身就要把这件事情给做掉。举例来说，假如现在使用 Cursor 或 Windsurf 等 AI 驱动的 IDE，在与 AI 对话时，不需用前面加上「请扮演一个资深软体工程师」这种角色设定，因为 Cursor 或 Windsurf 已经把这件事做掉。

不过，具体要怎么做呢? 可以透过系统讯息 (system message) 来做到。目前主流的模型，例如 ChatGPT、Claude 以及 Gemini 都有支援这个设定。

举例来说，在 Claude 的文件当中有以下的范例

client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=2048,
    system="You are a seasoned data scientist at a Fortune 500 company.", # <-- role prompt
    messages=[
        {"role": "user", "content": "Analyze this dataset for anomalies: <dataset>{{DATASET}}</dataset>"}
    ]
)

可以在这个范例看到，在系统讯息 (system) 当中，传入了 You are a seasoned data scientist at a Fortune 500 company，就先让模型进入财星五百大资料科学家的角色。这会让后面的回答角度，更往这个方向走。

清晰明确

除了设定角色外，清晰也是提示词能否达到预期效果的关键之一。甚至目前社群多数提示词工程师，普遍认为清晰是最重要的关键。先前 Anthropic 的提示词工程师就有在一场对谈讲到，比起让模型进入某个角色，在他的经验当中，能否给足够清晰的提示，更常是影响回覆品质的关键。

要做到清晰，首先得知道目标是什么，然后具体的描述出来。

除此之外，对于预期的输出结果，需要足够明确。举例来说，假如希望模型「简短回答」，可以在提示词中加上「请简短回答」；然而，简短回答是多短? 同样的回覆，有些人可能觉得太长，同时可能有另一些人觉得太短，因此只用「简短」这个词，可能也会不够明确，这时可以做的是给一个具体的数字。

当然，对于某些应用，具体的回覆数字该在什么范围，可能不是那么重要；但对于另一些应用来说，可能会相对重要。举例来说，假如要做 AI 履历产生器，为了确保履历的每个列点数字不会过长，精确要求 AI 的输出就会相对重要一些。在这种情境下，就不要只是说简短，而是要直接给数字，例如「每个列点使用少于 105 个字元」。

前史丹佛大学教授，同时为 DeepLearning.AI 的创办人吴恩达，先前就分享在 AI 时代的产品开发，核心关键是不能够模糊 (vague)。他提到假如要 AI 模型协助打造一个「可以回答跟使用者帐号资讯相关问题的聊天机器人」这样的描述就很模糊。当模糊、能够诠释的空间变大，就可能导致 AI 模型产出看似不错，但实际完全不符合预期的成果。

读到这边你可能会问「如何判断自己写的提示词够不够清晰明确?」，一个简单的做法，是当你写下提示词后，把提示词给一个对该领域不太熟的人看 (例如别的部门的人)，然后问对方假如要根据该提示词去完成任务，能不能做到? 如果没办法的话，是有哪些是不够清楚的? 透过这个做法，可以去补上那些可能你本来觉得很清楚，但其实仍有许多模糊不清的描述。

提示词也能是工程吗?

企业级提示词 (enterprise prompting) 的不同之处

如何为 AI 产品下好提示词?

透过系统讯息设定角色

清晰明确

阅读更多