「有時候語言模型不是不夠聰明,只是沒有人類好好引導。」

— 李宏毅

如果你走過馬群, 就看過每個模型化身為一匹馬——體型代表參數、頭部代表上下文、品種代表能力。 一匹馬是模型本身的樣貌;但故事還有另一半:人類如何駕馭harness它。這就是馬具harness

模型訓練決定了它的上限。你能走多接近那個上限,幾乎完全取決於你替它配備的馬具—— 系統提示、工具、範例、約束、評估機制。當你讀完這篇,你早已熟悉的那些技巧, 都會顯現為同一門技藝的不同部位:駕馭工程Harness Engineering

值得一看的課程

駕馭工程(Harness Engineering)這個說法,來自 李宏毅 教授近期的一場課程。李宏毅是國立臺灣大學電機系教授,他的中文機器學習課程 影響了一整個世代的學生。這段課程的前提樸實而誠實:我們讀到的「模型失敗」, 多半其實是「人類沒有好好引導」。看完這場,你會最快地進入這個視角。

駕馭技藝簡史

你聽過的每一項提示技巧,都是因為上一項撞到了自己的極限而出現的。 模型變大,馬具也跟著長大。

  1. 原生提示Raw prompts(GPT-3 時代)。 只有一個輸入框與一絲希望。實務工作者發現措辭改變結果, 半開玩笑地稱之為 prompt engineering——後來發現那不是玩笑。 Reynolds & McDonell,2021 ↗
  2. 系統訊息System messages(ChatGPT,2022)。 一個在對話開始前設定模型立場的正式位置。模型從此有了角色,不只是問題。 OpenAI API 文件 ↗
  3. 少樣本Few-shot情境內學習In-context learning 給模型兩三個範例。它會模仿那個模式,而不是用猜的。 Brown 等,2020 ↗
  4. 思維鏈Chain of thought(Jason Wei 等,2022)。 讓模型一步一步想。提示塑造的是過程,而不只是目標。 arXiv 2201.11903 ↗
  5. 工具使用Tool use(2023–2024 函式呼叫)。 模型不再憑空猜答案——它可以呼叫計算機、搜尋、資料庫,把真答案讀回來。 OpenAI,2023 年 6 月 ↗
  6. 結構化輸出Structured output JSON schema 與 response format 讓下游系統真的能消化模型產生的內容。 OpenAI,2024 年 8 月 ↗
  7. 代理迴圈Agent loops 行動、觀察、再行動。一個馬具框架,讓每一步的輸出成為下一步的輸入。 Yao 等,2022(ReAct)↗
  8. 評估機制作為回饋Evals as feedback 測試不再只是檢查表,而是教馬具本身的訊號。 OpenAI Evals ↗

每個階段都解決了前一階段的極限。它們都沒有讓模型變得更聰明; 它們讓模型變得更有用。

馬具解剖

四個馬具部件,對應四種技巧——每個部件在馬的世界所做的, 正是那項技巧在提示世界所做的事。

馬鞍 Saddle
系統提示 System prompt

其他一切都坐在它上面。始終在場,在對話開始前就已經定好立場。

範例:「你是一位謹慎的技術審查者,在建議前先說明取捨。」

馬銜 Bit
結構化輸出 Structured output

含在嘴裡,塑造從口中出來的東西。schema 以同樣的方式限定輸出形狀。

範例:一個 JSON schema 或 response_format,輸出必須符合。

眼罩 Blinkers
護欄 Guardrails

縮窄視野。眼罩縮窄的是視覺,護欄縮窄的是動作範圍——都只讓它看得見、做得到該做的。

範例:「不要捏造沒出現在 API 文件裡的函式名稱。」

鞍囊 Saddlebags
上下文與記憶 Context & memory

馬帶著走的東西。檢索到的文件、先前對話、使用者偏好。

範例:知識庫的 RAG;對話歷史;每次會話載入的使用者檔案。

還有三項技巧一樣重要,但不太能對應到任何一個馬具部件:

  • 少樣本提示Few-shot prompting——不是在限制形式,而是透過模式教導:給兩三個範例,模型自己跟上那個樣子。
  • 工具使用Tool use——不是轉向,而是擴展。模型取得了原本沒有的感官與觸手:搜尋、計算機、對真實系統的 API 呼叫。
  • 評估機制Evals——根本不是馬具。評估機制是繞在馬具外面的回饋迴圈:跑模型、打分、迭代。

為什麼駕馭工程重要

這裡有一個會改變你讀所有 AI 新聞方式的重構視角:當你聽到「AI 在 X 上失敗了」, 真正失敗的通常是馬具,不是模型。同一個 GPT-4,在某個產品裡看起來聰明, 在另一個產品裡看起來笨——因為前者替那個任務打造了馬具,後者沒有。

能力是上限,由訓練決定,而不是使用決定。實際效能是馬具允許你觸及的高度。 一個驚豔的 demo 和一個真正上線的產品之間的距離,幾乎全是馬具工作: 反覆調整了幾週的系統提示、五個可呼叫的工具、讓輸出可解析的 schema、 抓住回歸錯誤的評估機制。

關於範圍的一點說明:這篇文章把駕馭工程當作一種框架視角來使用—— 模型 / 馬具的分割。在更廣的業界用法中,駕馭工程是 上下文工程 底下的一個子集——後者涵蓋了管理「模型所知一切」的整門技藝。 這個視角仍然值得它的位置:它是看清「我們到底能修什麼」最銳利的工具。

馬群與馬具的相遇

這篇入門文只是一半。另一半——一個互動體驗,讓你從馬群裡挑一匹馬、 替牠穿上馬具、開跑——正在路上。

挑一匹馬,替牠配馬具,出發。

即將推出

重點摘要

  • 能力決定上限。駕馭工程決定你能多接近那個上限。
  • 提示、工具、評估機制是同一門技藝。你已經在用的每項技巧,都是同一副馬具的一部分。
  • 上線的 AI,大多是駕馭工程。產品裡看起來像智慧的那些部分,通常是引導,不是生成。

延伸閱讀

Theme
Language
Support
© funclosure 2025