1-4 如何搭配多模態 (multi-modal) 完成任務
2025年4月19日
在前面的單元中,我們分別談到了 Cursor 的基本設置,以及可以使用哪些常用的快捷鍵。在這個單元,我們將進一步探討如何搭配多模態(Multi-modal)來完成任務。
所謂的多模態,指的是模型能夠處理不同形態的資訊 (例如圖片、影片和文字)。因此可以理解,「多」代表多種不同,「模」是模型,「態」是形態,三個字合起來就是「多模態」,意指模型能處理多種不同的資訊形態。

假如你用過 2022 年底或 2023 年初推出的 ChatGPT,當時的 ChatGPT 只能接受文字輸入,並提供文字輸出。但現在,如果你使用 ChatGPT,會發現它不僅支援文字輸入,還可以上傳圖片,甚至接受語音輸入。而輸出的部分也不再侷限於文字,ChatGPT 現在還能生成圖片或用語音回覆。這種不再侷限於單一文字形態,而是涵蓋多種不同形態的能力,就是所謂的「多模態」。
在 Cursor 中,我們也可以利用多模態來協助完成任務。例如,Cursor 支援圖片上傳功能,這在解決特定前端 UI 問題時非常有用。很多時候,用文字描述一個元件 (例如要請 Cursor 完成某個元件) 可能很難清楚表達,但一張圖片勝過千言萬語。將圖片輸入到 Cursor 後,它就能根據圖片內容,幫你完成所需的 UI 製作。
如何在 Cursor 上傳圖片並使用
假設今天想讓 Cursor 根據圖片製作一個元件,可以這樣做:
- 先截取一張圖片,讓 Cursor 知道我們想要什麼樣的元件
- 進入 Cursor,將這張圖片貼上。這時介面會顯示一個「image」標籤,滑鼠移過去就能預覽剛剛截取的圖片,來確保是上傳正確的圖片。
- 接著輸入提示詞 (Prompt),Cursor 會根據圖片和提示詞生成程式碼,點擊「Apply」後,就能看到新元件出現在程式中。

搭配語音輸入使用 Cursor
接下來,我們談談如何透過語音輸入來操作 Cursor。語音輸入需要搭配一個額外的應用程式,這裡推薦在 Addy Osmani 寫的文章《Speech-to-Code: Vibe Coding with Voice》中提到的工具superwhisper。實際使用後,我們發現 superwhisper 確實非常好用,讓人做到「用嘴巴寫程式」。

如何使用 superwhisper 搭配 Cursor
要搭配 superwhisper 來使用 Cursor,可以這樣做:
- 下載 superwhisper:前往 superwhisper 的官網 (https://superwhisper.com/),點擊首頁的「Download Now」按鈕,下載並安裝。
- 搭配 Cursor 使用:安裝完成後,開啟 Cursor 和 superwhisper,準備語音輸入。

總結
透過這個單元,希望大家能感受到在 Cursor 中利用多模態的便利性:
- 圖片上傳:幫助快速生成 UI 元件。
- 語音輸入:搭配 superwhisper,用語音輸入來寫程式。
這些功能在日常任務中未必每次都用得上,但建議大家實際試玩幾次。
此系列文章為 《給工程師的 Cursor 工作流 — 透過 AI 代理全方位提升開發生產力》 搭配的教材。希望透過這系列文章,將過去協助導入 AI 工具及使用 Cursor 的經驗擴展並分享給想提升生產力的讀者。如果對課程感興趣的讀者,可以加入 E+ 成長計畫,觀看影片學習。