1-4 如何搭配多模態 (multi-modal) 完成任務

在前面的單元中，我們分別談到了 Cursor 的基本設置，以及可以使用哪些常用的快捷鍵。在這個單元，我們將進一步探討如何搭配多模態（Multi-modal）來完成任務。

所謂的多模態，指的是模型能夠處理不同形態的資訊 (例如圖片、影片和文字)。因此可以理解，「多」代表多種不同，「模」是模型，「態」是形態，三個字合起來就是「多模態」，意指模型能處理多種不同的資訊形態。

假如你用過 2022 年底或 2023 年初推出的 ChatGPT，當時的 ChatGPT 只能接受文字輸入，並提供文字輸出。但現在，如果你使用 ChatGPT，會發現它不僅支援文字輸入，還可以上傳圖片，甚至接受語音輸入。而輸出的部分也不再侷限於文字，ChatGPT 現在還能生成圖片或用語音回覆。這種不再侷限於單一文字形態，而是涵蓋多種不同形態的能力，就是所謂的「多模態」。

在 Cursor 中，我們也可以利用多模態來協助完成任務。例如，Cursor 支援圖片上傳功能，這在解決特定前端 UI 問題時非常有用。很多時候，用文字描述一個元件 (例如要請 Cursor 完成某個元件) 可能很難清楚表達，但一張圖片勝過千言萬語。將圖片輸入到 Cursor 後，它就能根據圖片內容，幫你完成所需的 UI 製作。

如何在 Cursor 上傳圖片並使用

假設今天想讓 Cursor 根據圖片製作一個元件，可以這樣做：

先截取一張圖片，讓 Cursor 知道我們想要什麼樣的元件
進入 Cursor，將這張圖片貼上。這時介面會顯示一個「image」標籤，滑鼠移過去就能預覽剛剛截取的圖片，來確保是上傳正確的圖片。
接著輸入提示詞 (Prompt)，Cursor 會根據圖片和提示詞生成程式碼，點擊「Apply」後，就能看到新元件出現在程式中。

搭配語音輸入使用 Cursor

接下來，我們談談如何透過語音輸入來操作 Cursor。語音輸入需要搭配一個額外的應用程式，這裡推薦在 Addy Osmani 寫的文章《Speech-to-Code: Vibe Coding with Voice》中提到的工具superwhisper。實際使用後，我們發現 superwhisper 確實非常好用，讓人做到「用嘴巴寫程式」。

如何使用 superwhisper 搭配 Cursor

要搭配 superwhisper 來使用 Cursor，可以這樣做：

下載 superwhisper：前往 superwhisper 的官網 (https://superwhisper.com/)，點擊首頁的「Download Now」按鈕，下載並安裝。
搭配 Cursor 使用：安裝完成後，開啟 Cursor 和 superwhisper，準備語音輸入。

總結

透過這個單元，希望大家能感受到在 Cursor 中利用多模態的便利性：

圖片上傳：幫助快速生成 UI 元件。
語音輸入：搭配 superwhisper，用語音輸入來寫程式。

這些功能在日常任務中未必每次都用得上，但建議大家實際試玩幾次。

此系列文章為 《給工程師的 Cursor 工作流 — 透過 AI 代理全方位提升開發生產力》 搭配的教材。希望透過這系列文章，將過去協助導入 AI 工具及使用 Cursor 的經驗擴展並分享給想提升生產力的讀者。如果對課程感興趣的讀者，可以加入 E+ 成長計畫，觀看影片學習。