OpenAI 的 Bill Chen 與 Brian Fioca 在 AI Engineer Code Summit 分享了如何打造經得起模型迭代考驗的 Coding Agent。他們深入解析了 Coding Agent 的三大組成要素——使用者介面、模型與 Harness(執行框架),並以自家的 Codex 為例,說明模型的「智慧」與「習慣」如何影響 Agent 的表現。演講也介紹了 Codex 作為 SDK 的多種整合模式,以及未來 AI 程式代理的發展方向。
原影片連結:https://www.youtube.com/watch?v=wVl6ZjELpBk
影片重點
- Coding Agent 由三個部分組成:使用者介面(UI)、模型(Model)和 Harness(執行框架)
- Harness 是 Coding Agent 中最關鍵且最複雜的部分,負責與模型的互動介面
- 模型具有「智慧(Intelligence)」和「習慣(Habit)」兩個面向,理解習慣是成為好的 Prompt 工程師的關鍵
- 不要過度提示(overprompt)模型,讓模型使用它熟悉的行為模式反而表現更好
- Codex 不只是 Coding Agent,本質上是一個終端機的電腦使用代理(Computer Use Agent)
- Harness 正在成為新的抽象層,讓開發者可以專注於產品差異化
- Codex SDK 支援 TypeScript、Python、GitHub Action 等多種整合方式
- 未來模型將能處理更長期的無人監督任務,信任上限將持續提高
詳細內容
[00:21] 開場:為什麼要談 Coding Agent
Bill Chen 和 Brian Fioca 來自 OpenAI 的 Applied AI Startups 團隊,專門協助新創公司打造 Coding Agent。他們指出 Coding Agent 在過去一年爆發式成長,這個趨勢之所以重要,是因為它反映了我們距離 AGI 有多近——軟體工程可以被視為一種通用的問題解決媒介。
然而,由於底層模型不斷更新,開發者必須持續在新模型上重建 Agent,這是一個很大的痛點。這次演講的目標就是分享如何解決這個問題。
[01:44] Coding Agent 的三大組成要素
一個 Coding Agent 的架構其實很簡單,由三個部分組成:
- 使用者介面(User Interface):可以是 CLI 工具、IDE 整合,或是雲端背景 Agent
- 模型(Model):如 GPT-5.1、Codex Max 等最新模型
- Harness(執行框架):這是最核心的部分,直接與模型互動。可以簡化理解為一組 Prompt 和工具的集合,組成一個核心的 Agent 迴圈,負責處理模型的輸入和輸出
其中 Harness 是今天的重點。由於模型持續更新,開發者必須不斷調整 Agent 以適應新模型,Harness 的設計至關重要。
[03:22] Harness 的挑戰
打造一個好的 Harness 面臨多重挑戰:
- 工具適配(Tool Adaptation):自訂工具可能不在模型的訓練分佈內,模型可能從未見過你設計的工具
- Prompt 調校:每個模型都有不同的偏好,需要花時間調校 Prompt
- 延遲管理(Latency):思考型模型的等待時間如何處理?是否讓模型在思考時與使用者溝通?
- Context Window 管理與壓縮(Compaction):這是一個極其困難的工程問題
- API 變更:從 Completions 到 Responses API,介面不斷演進
[05:44] 模型的智慧與習慣
Brian 提出了一個重要觀點:模型訓練會產生副作用,可以用「智慧 + 習慣(Intelligence + Habit)」來理解。
智慧(Intelligence)是指模型擅長什麼語言、什麼框架。習慣(Habit)是指模型被訓練出的解題方式——例如先規劃方案、環顧上下文、蒐集資訊,然後才動手寫程式碼,最後測試成果。
培養對模型習慣的直覺,就是成為好的 Prompt 工程師的方法。如果你用模型不熟悉的方式去指示它,就會出問題。
[07:02] GPT-5 的實際教訓:不要過度提示
Brian 分享了 GPT-5 發布時的一個有趣故事:許多從其他模型遷移過來的使用者,把原本為其他模型設計的 Prompt 套用到 GPT-5 上,要求模型在每次修改前仔細檢查所有檔案。但 OpenAI 已經訓練模型具備這種能力,所以模型會非常徹底地執行這些指令,導致速度極慢。
Brian 直接問模型:「我喜歡你的解法,但花了太長時間,我的指令要怎麼改才能讓你更快?」模型回答:「你要我去看所有東西,但我其實不需要這樣做,這才是花時間的原因。」
這個故事說明了同時打造模型和 Harness 的優勢——你對模型的習慣瞭若指掌,這也是為什麼 Codex 同時包含模型和 Harness。
[08:28] Codex 的功能概覽
Codex 被設計為一個無處不在的程式代理:VS Code 外掛、CLI 工具、雲端服務(可從 VS Code 或手機上的 ChatGPT 呼叫)。它能將規格轉為可執行程式碼、導覽程式碼庫編輯檔案、執行命令和任務、從 Slack 呼叫、以及在 GitHub 上審查 PR。
Codex 的 Harness 需要處理非常複雜的工作:平行工具呼叫與執行緒合併、沙箱安全性、Prompt 轉發與權限管理、Compaction 觸發時機與快取最佳化、MCP 支援,以及圖片壓縮解析度等。這些都是從零打造並持續維護的龐大工程。
[10:22] Codex 不只是 Coding Agent
Bill 提出一個有趣的觀點:Codex 本質上是一個終端機的電腦使用代理(Computer Use Agent for the Terminal)。在瀏覽器和圖形介面出現之前,人類就是透過寫程式和串接命令列來操作電腦的。因此,只要你的任務可以用命令列和檔案來表達,Codex 都能處理。
例如,Bill 用 Codex 整理桌面上的照片到資料夾,也可以分析大量 CSV 檔案做資料分析——這些並不是傳統意義上的「程式開發」任務。
[11:27] 用 Codex 打造你自己的 Agent
這一段介紹了如何將 Codex 作為 Agent 嵌入你自己的 Agent 中。Brian 分享了與 Cursor、VS Code 等頂級客戶合作的經驗,歸納出一個關鍵模式:Harness 正在成為新的抽象層。
這種模式的好處是,你不再需要每次模型升級時都重新最佳化 Prompt 和工具。有人可能會說這只是在做「Wrapper」,但 Brian 不同意——將精力集中在產品差異化上才是真正的價值所在。
[12:52] Codex SDK 的整合模式
Codex 提供了多種 SDK 整合方式:
- TypeScript Library:程式化呼叫
- Python exec:程式化執行
- GitHub Action:自動處理 PR 合併衝突
- Agents SDK + MCP:將 Codex 作為工具嵌入其他 Agent
Brian 描述了 Agent 的演進歷程:從聊天機器人 → 給聊天機器人工具 → 給工具一個能製造新工具的能力。現在你可以打造企業軟體,讓它為每個客戶即時寫出 API 連接器——這原本需要專業服務團隊才能完成。
實際案例包括:Zed 編輯器將 Codex 包裝成 IDE 內的代理介面,讓他們專注於打造最好的程式碼編輯器;GitHub 也直接透過 SDK 整合了 Codex。
[14:56] Cursor 的客製化案例
對於想要完全客製化 Agent 層的團隊,Cursor 是一個很好的範例。他們與 OpenAI 密切合作,將工具對齊到模型訓練時的分佈(in-distribution),並參考 Codex CLI 的開源實作來調整自己的 Harness。所有原始碼都是公開的,任何人都可以 fork 使用。
[15:34] Codex 的未來展望
Codex 推出不到一年,發展非常迅速。隨著 Codex Max 的推出,它已成為用量成長最快的模型,每週處理數十兆的 Token,自 Dev Day 以來已翻倍。
Bill 的建議是:朝著模型發展的方向去建構(Build where the models are going)。可以安全地假設模型會持續變好,未來將能處理更長期的無人監督任務。新模型會提高信任上限——現在他能信任模型完成比六個月前困難得多的工作。
未來的重點方向包括:處理大型程式碼庫、非標準函式庫、閉源環境、以及匹配現有的模板和實踐。SDK 會持續演進,讓模型在工作中學習、不重複犯錯,並提供更多介面讓 Agent 透過寫程式和使用終端機來解決各種問題。
[16:56] 總結
Harness 非常複雜且需要大量維護工作,尤其是面對不斷推出的新模型。OpenAI 已經在 Codex 中為開發者打造好了這一切——你可以直接使用,也可以查看原始碼。你可以用它來打造程式開發以外的新應用,讓 OpenAI 負責確保你擁有最強大的電腦代理。
我的想法
這場演講最有啟發性的觀點是「不要過度提示(Don’t Overprompt)」。很多開發者(包括我自己)在使用新模型時,往往習慣性地在 Prompt 中加入大量指令,要求模型做各種檢查和驗證。但 Brian 的經驗告訴我們,新一代模型已經內建了很多好的「習慣」——過多的指令反而會拖慢速度,甚至影響品質。這很像是管理一個有經驗的工程師:你不需要告訴他們每一步該怎麼做,只需要說清楚目標。
Harness 作為新抽象層的概念也很值得關注。這基本上是在說:未來的 AI 開發工具競爭不會只是在模型層面,而是在誰能提供最好的「Agent 基礎設施」。Codex SDK 的定位就像是給 Coding Agent 的 AWS——你不需要自己管理底層的複雜性。
不過要注意的是,這畢竟是 OpenAI 員工在 AI Engineer Code Summit 的演講,整體論述帶有明顯的產品推廣立場。將 Harness 完全交給平台方也意味著對其產生依賴。對於需要深度客製化的場景,理解 Harness 的內部運作仍然很重要,Codex CLI 的開源碼是很好的學習資源。
進階測驗:Future-Proof Coding Agents
共 5 題,包含情境題與錯誤診斷題。



