AI 代理人(AI Agent)是人工智慧和機器學習的應用,但究竟要如何建立呢?這個系列文章將分幾個部分,完整介紹打造 AI 代理人的步驟。
首先,什麼是 AI 代理人?AI 代理人是一個能感知環境、處理資訊、規劃、做決策,並採取行動來達成特定目標的軟體實體。AI 代理人的類型從簡單的規則導向軟體和固定工作流程,到完全自主的系統都有。
AI 代理人的主要特性:
- 感知能力 — 透過感測器、API、知識庫或輸入資料流來收集環境資料
- 處理與決策能力 — 運用邏輯、規則或 AI 模型來分析輸入並決定適當的回應
- 記憶功能 — 可以儲存和管理與使用者的互動記錄,協助未來的決策
- 行動能力 — 根據決策執行動作,可能包括產生回應、自動化任務或與其他系統互動
- 自主性 — 工作流程代理人可自動化複雜/重複性任務以提升生產力;自主代理人則可在較少人為介入的情況下執行複雜任務
- 適應能力 —某些 AI 代理人能從互動中學習並持續改進
我們的文件將說明如何打造一個最小可行產品(MVP)版本的 AI 代理人,任何人都能跟著做。這是第一部分:願景與規劃,我們會探討兩個有趣的 AI 代理人構想,並研究打造 MVP 所需的要素,最後決定要建立哪一個。
兩種 AI 代理人應用發想
成功來自三個關鍵因素:規劃完善的願景、可實現的方法,以及有效運用資源。— GMI 的座右銘
我們先來探討兩個構想的願景:
- 展會研究助手: 一個 AI 代理人,用於發掘產業活動並計算參與所需的成本和預期效益
- 穿搭搜尋器:一個 AI 代理人,能檢視照片或圖片,理解其風格和服裝,然後爬取網路上的服飾選項,產生可購買的相似風格建議
這兩個項目都是具有實體用例的項目,詳細說明如下:
展會研究助手
追蹤產業展會和研討會可能令人應接不暇。這個 AI 代理人旨在簡化這個過程:
- 透過網路爬蟲和資料彙整找出相關的產業展會
- 估算成本,包括交通、門票、住宿和其他支
- 根據觀眾、人脈機會和講者陣容等因素計算預期投資報酬率(ROI)
- 產生簡明的摘要,協助使用者快速做出明智決定
為什麼這是可行的 MVP
- 展會時程和細節通常以結構化格式公開在網路上
- 網路爬蟲和簡單的資料處理可以相對快速地實作
- 成本估算模型很直觀,仰賴公開的交通和票價資料
- ROI 估算可以從基本的評估方法開始,隨時間改進。我們認為這是 AI 代理人最困難的工作,因為我們可能需要教導代理人如何為每個展會評分預期價值
穿搭搜尋器
這個 AI 代理人會接收一張人物穿搭照片或圖片,嘗試找出可購買的相似服飾。主要功能包括:
- 圖像辨識和分類,依類型、顏色和風格分析服飾項目
- 使用電腦視覺和網路爬蟲在網路上搜尋相似服飾
- 處理光線、角度變化和符合商品供應等挑戰
為何這個較難打造?
這雖然是個有趣的構想,但卻是個技術複雜度高的好例子:
- 服飾項目的圖像辨識需要一個在大量資料集訓練過的複雜深度學習模型
- 在不同網路商店中找出完全相同或高度相似的商品是個複雜的問題,涉及多個 API 和客製化搜尋引擎
- 服飾商品經常缺貨或價格和供應狀況不一,使即時準確性成為一大挑戰
為避免讓 AI 代理人過於複雜,我們選擇不打造這個。不過這仍是我們未來想要嘗試的有趣專案。
定義 AI 代理人
一旦選擇了想法,必須清楚定義:
- 代理人要解決的具體問題
- 目標使用者和他們的需求
- 衡量效能的成功指標
這樣的明確性能確保開發過程聚焦且有可衡量的目標。在我們的案例中,可以輕易定義這些:
- 解決的問題: 自動化評估特定產業活動 ROI 的人工流程
- 使用者和需求:我們就是使用者!在這個案例中,我們需要讓團隊成員獲得一份 AI 代理人預先研究的展會和產業活動清單,包含期待價值與相關成本的分析摘要。最終決策由人類做出,AI 代理人的工作是提供精簡的資訊
- 成功指標:是否加速工作流程並提升生產力?也要考慮 AI 代理人提供錯誤/不正確/不精確資訊而增加工作量的失敗情況。也許我們可以比較傳統工作流程和 AI 輔助工作流程的差異。
以上就是我們的願景。現在是時候規劃如何執行了。
確定需求
打造功能完整的 AI 代理人需要:
- 資料來源 (如產業活動列表、服飾零售商 API、圖片資料庫)
- 核心 AI 模型和技術 (如用於摘要的自然語言處理、用於穿搭辨識的電腦視覺)
- 收集、處理和向使用者呈現資訊的基礎架構
為了讓事情更簡單,我們會使用一些開源工具::
- Dify.ai — 這是一個用於建立生成式 AI 應用的低程式碼平台
- DeepSeek-R1 — 這是一個輕量級的開源 LLM 模型。這可能對當前任務來說有點過度,但嘿,我們想玩玩這個新玩具。而且,GMI Cloud 現在有託管 DeepSeek-R1,所以我們也在實際測試自己的產品!
預期的挑戰與複雜性
每個 AI 專案都有其獨特的障礙。我們專案的一些關鍵挑戰包括:
- 資料可得性:某些資訊可能藏在付費牆後或需要進階的爬蟲技術
- 技術可行性: 展會助手相對簡單,但穿搭搜尋助手涉及複雜的 AI 和搜尋演算法
- 準確性和性能: 確保準確的活動 ROI 估算或精確的穿搭比對需要長期改進
- 現有 AI 模型的限制: 預訓練模型可能需要微調或額外資料才能有效運作
- 堅實的基礎設施: 我們可能只做基本的改進,但好的基礎架構對持續改進代理人來說很重要
透過預先考慮這些挑戰,AI 代理人開發者可以在可行性和開發策略上做出明智的決定。
第 2 部分:打造 MVP — 流程
敬請期待第二部分,我們將記錄打造展會研究 AI 助手 MVP 的步驟。


