1-4 如何搭配多模態 (multi-modal) 完成任務

2025年4月19日

持續學習最新的 AI 應用
更多深入的 AI 內容,都在 E+ 成長計畫 👉前往了解

在前面的單元中,我們分別談到了 Cursor 的基本設置,以及可以使用哪些常用的快捷鍵。在這個單元,我們將進一步探討如何搭配多模態(Multi-modal)來完成任務。

所謂的多模態,指的是模型能夠處理不同形態的資訊 (例如圖片、影片和文字)。因此可以理解,「多」代表多種不同,「模」是模型,「態」是形態,三個字合起來就是「多模態」,意指模型能處理多種不同的資訊形態。

多模態 (Multi-modal) 指的是模型能夠處理不同形態的資訊
多模態 (Multi-modal) 指的是模型能夠處理不同形態的資訊

假如你用過 2022 年底或 2023 年初推出的 ChatGPT,當時的 ChatGPT 只能接受文字輸入,並提供文字輸出。但現在,如果你使用 ChatGPT,會發現它不僅支援文字輸入,還可以上傳圖片,甚至接受語音輸入。而輸出的部分也不再侷限於文字,ChatGPT 現在還能生成圖片或用語音回覆。這種不再侷限於單一文字形態,而是涵蓋多種不同形態的能力,就是所謂的「多模態」。

在 Cursor 中,我們也可以利用多模態來協助完成任務。例如,Cursor 支援圖片上傳功能,這在解決特定前端 UI 問題時非常有用。很多時候,用文字描述一個元件 (例如要請 Cursor 完成某個元件) 可能很難清楚表達,但一張圖片勝過千言萬語。將圖片輸入到 Cursor 後,它就能根據圖片內容,幫你完成所需的 UI 製作。

如何在 Cursor 上傳圖片並使用

假設今天想讓 Cursor 根據圖片製作一個元件,可以這樣做:

  1. 先截取一張圖片,讓 Cursor 知道我們想要什麼樣的元件
  2. 進入 Cursor,將這張圖片貼上。這時介面會顯示一個「image」標籤,滑鼠移過去就能預覽剛剛截取的圖片,來確保是上傳正確的圖片。
  3. 接著輸入提示詞 (Prompt),Cursor 會根據圖片和提示詞生成程式碼,點擊「Apply」後,就能看到新元件出現在程式中。
在 Cursor 中,可以將圖片貼到對話框中
在 Cursor 中,可以將圖片貼到對話框中

搭配語音輸入使用 Cursor

接下來,我們談談如何透過語音輸入來操作 Cursor。語音輸入需要搭配一個額外的應用程式,這裡推薦在 Addy Osmani 寫的文章《Speech-to-Code: Vibe Coding with Voice》中提到的工具superwhisper。實際使用後,我們發現 superwhisper 確實非常好用,讓人做到「用嘴巴寫程式」。

Addy Osmani 推薦的 superwhisper
Addy Osmani 推薦的 superwhisper

如何使用 superwhisper 搭配 Cursor

要搭配 superwhisper 來使用 Cursor,可以這樣做:

  1. 下載 superwhisper:前往 superwhisper 的官網 (https://superwhisper.com/),點擊首頁的「Download Now」按鈕,下載並安裝。
  2. 搭配 Cursor 使用:安裝完成後,開啟 Cursor 和 superwhisper,準備語音輸入。
在使用 Cursor 時,能透過 superwhisper 來語音輸入
在使用 Cursor 時,能透過 superwhisper 來語音輸入

總結

透過這個單元,希望大家能感受到在 Cursor 中利用多模態的便利性:

  • 圖片上傳:幫助快速生成 UI 元件。
  • 語音輸入:搭配 superwhisper,用語音輸入來寫程式。

這些功能在日常任務中未必每次都用得上,但建議大家實際試玩幾次。

此系列文章為 《給工程師的 Cursor 工作流 — 透過 AI 代理全方位提升開發生產力》 搭配的教材。希望透過這系列文章,將過去協助導入 AI 工具及使用 Cursor 的經驗擴展並分享給想提升生產力的讀者。如果對課程感興趣的讀者,可以加入 E+ 成長計畫,觀看影片學習。

🧵 如果你想收到最即時的內容更新,可以在 FacebookInstagram 上追蹤我們