Anthropic 即將發布 Claude Sonnet 5，這款代號「Fennec」的新模型號稱擁有 100 萬 Token 上下文窗口，定價僅為 Opus 4.5 的一半，且在編碼與代理能力上有顯著提升。本影片透過多個實測案例展示 Sonnet 5 在 WebOS 生成、遊戲開發、Landing Page 設計、3D 解剖互動等場景的表現，同時透露 Claude Code 即將推出多代理團隊協作功能。

原影片連結：https://www.youtube.com/watch?v=_87CirMQ1FM

影片重點

Anthropic 的 Claude Sonnet 5（代號 Fennec）即將發布，擁有 100 萬 Token 超大上下文窗口
定價約為 Opus 4.5 的一半，性價比大幅提升
早期測試顯示在數學上可與頂級模型匹敵，部分編碼任務甚至超越 Opus 4.5
單次生成即可產出 4,768 行 HTML 的完整 Windows WebOS 克隆
遊戲開發能力突出：可一次性生成瑪利歐賽車風格遊戲及 Celeste 克隆版
Landing Page 生成品質接近人工製作水準
3D 人體解剖互動檢視器展示強大的程式碼生成能力
SVG 生成能力較 Sonnet 4.5 有明顯提升
Claude 平台即將支援原生圖像生成功能（代號 Sonata）
Claude Code 即將推出 Teammate Tool 多代理團隊協作功能

詳細內容

[00:00] Sonnet 5 發布消息與背景

影片作者透露，他從 Anthropic 內部消息來源得知 Claude Sonnet 5 將於當天發布。Anthropic 團隊曾短暫上線部落格文章和相關頁面，但幾乎立刻被刪除。由於基礎設施準備工作，API 服務甚至一度暫停，有使用者回報在帳戶中看到了 Sonnet 5 的選項。

因內部上傳問題，發布推遲了一天。生態系統中多個消息來源都指向這次發布，Vercel、Bolt 等平台也將同步參與。Sonnet 5 的關鍵規格包括：100 萬 Token 上下文窗口、Opus 4.5 一半的定價，以及代理編碼領域的頂尖表現。

[01:30] WebOS 生成實測：Windows 作業系統克隆

影片展示了 Sonnet 5 一次性生成完整 Web 版 Windows 作業系統的能力。同一個提示（Prompt）也被發送給 Gemini 3 Pro，後者同樣表現出色。Sonnet 5 產出了 4,768 行 HTML 程式碼，這是作者見過最好的 WebOS 成果。

這個 WebOS 的亮點在於功能性：每個應用程式元件都能實際運作，包含檔案管理器、終端機、計算機、繪圖應用、程式碼編輯器（迷你版 VS Code）、記事本、2048 遊戲，以及可正常使用的網頁瀏覽器。所有過渡動畫都流暢自然，完美模仿了 Windows 作業系統的操作體驗。唯一的不足在於前端 UI/UX 的視覺設計品質還有提升空間。

[04:15] 早期基準測試與編碼能力

早期實測結果顯示，這是 Sonnet 5 的非思考（non-thinking）版本，在數學任務上已可與頂級模型匹敵。更值得注意的是，在某些編碼工作流程中，它甚至擊敗了 Claude Opus 4.5。

測試人員特別強調了以下幾個領域的強勁表現：

UI 生成與渲染
結構化視覺生成（例如高度詳細的 ASCII 地圖）
複雜介面的一次性生成

[05:00] 圖像生成功能與 Opus 4.6 消息

影片透露了兩個重要消息。首先，圖像生成功能即將登陸 Claude 平台——一個代號為「Sonata」的模型已在 Alamarina 中出現，且 Claude 的系統配置中已有對它的直接引用，證實 Anthropic 正準備推出原生圖像生成功能。

其次，內部報告顯示 Opus 4.6 可能很快就會發布，在 Google Cloud Vertex AI 平台上已出現對 Opus 6 的引用，即使該模型尚未公開發布。

[05:45] 遊戲開發：超級卡丁車與 Celeste 克隆

Sonnet 5 展示了出色的遊戲開發能力。它一次性生成了一款類似瑪利歐賽車的超級卡丁車競速遊戲，所有遊戲元件和技能動畫都能正常運作。考慮到大多數模型無法一次性生成功能完整的遊戲，這個成果尤為突出。

另一個案例是 Celeste 克隆版的生成。Celeste 是 2018 年發布的知名平台跳躍遊戲，Sonnet 5 以約 2,000 行程式碼再現了其核心玩法，包括聲音效果、彈跳功能和各種動畫。作者特別強調，以 Opus 4.5 一半的價格就能達到這樣的效果，性價比非常高。

[07:15] Landing Page 與 SVG 生成

Landing Page 方面，Sonnet 5 生成的著陸頁品質令人印象深刻，難以分辨是 AI 生成還是人工編寫。頁面結構完整，包含價值主張、可信任公司目錄、動態元件和行動號召等要素，整體流程引導設計優秀。作者透過內部 API 測試的結果同樣出色，生成的頁面採用極簡主義風格，動畫效果精良，給出了 7/10 的評分。

SVG 生成方面，Sonnet 5 較前代 Sonnet 4.5 有明顯提升。測試案例包括 Xbox 控制器和騎腳踏車的鵜鶘，雖然 Gemini 在 SVG 生成方面仍略勝一籌，但 Sonnet 5 的進步有目共睹。

[08:30] 3D 人體解剖互動檢視器

有人要求 Sonnet 5 在單一 HTML 檔案中建立 Three.js 3D 人體解剖檢視器，且不匯入任何外部模型。結果展示了程序化生成的人體結構、器官說明和互動功能，包含光照效果和跳動的心臟動畫，甚至能顯示血管功能。

作為對比，同一個提示分別發送給 Gemini 3 Pro 和 Opus 4.5：Opus 4.5 未能成功部署專案，而 Gemini 3 Pro 僅在軀幹和肋骨部分表現尚可，但未能生成完整的人體結構。Sonnet 5 在肺部、肋骨、骨骼系統等各組成部分的呈現和動畫上都表現出色。

[10:15] Claude Code 多代理團隊協作功能

影片最後透露了 Claude Code 即將推出的重大更新：全新的 Teammate Tool，支援完整的多代理團隊協作功能。這意味著使用者可以：

在專案中建立由多個 AI 代理組成的完整團隊
列出可用團隊並管理成員資格（請求、批准、拒絕）
跨代理分配任務並協調工作
完成後自動清理資源

Claude 將扮演 AI 代理團隊經理的角色，負責生成隊友、分配任務並追蹤進度，所有操作都在同一介面中完成。這是一個全新的多代理編排（multi-agent orchestration）更新，有望改變協作式 AI 工作流程的面貌。

我的想法

Claude Sonnet 5 最值得關注的不是單一能力的突破，而是「性價比天花板」的重新定義。以 Opus 4.5 一半的價格提供接近甚至超越的編碼能力，這對 AI 編碼工具的市場格局會產生深遠影響——開發者不再需要為頂級編碼能力支付頂級價格。

100 萬 Token 的上下文窗口也是一個關鍵升級。對於大型程式碼庫的理解和重構任務，這意味著模型可以一次性「看到」更多程式碼上下文，減少因上下文不足導致的錯誤。

Claude Code 的 Teammate Tool 則代表了 AI 輔助開發的下一個方向：從單一代理的「問答式」協助，走向多代理的「團隊式」協作。這種模式下，不同的代理可以專注於不同的任務（例如一個負責前端、一個負責測試），大幅提升複雜專案的開發效率。

不過，影片中的實測案例大多是「一次性生成」的展示，實際的軟體開發涉及迭代修改、除錯和維護等更複雜的場景，這些方面的表現仍有待觀察。此外，自動生成字幕中的專有名詞翻譯（如把 Anthropic 翻成「Enthropic」）也提醒我們，目前的 AI 工具在處理特定領域術語時仍有改善空間。

進階測驗：Claude Sonnet 5 早期實測

測驗目標：驗證你是否能在實際情境中應用所學。
共 5 題，包含情境題與錯誤診斷題。

1. 你正在為公司開發一個需要處理大型程式碼庫的 AI 輔助工具，專案包含約 80 萬 Token 的程式碼上下文。你需要選擇一個既能處理完整上下文又具備成本效益的模型。根據影片中的資訊，最佳選擇是什麼？情境題

需求：
– 上下文窗口需容納 80 萬 Token 的程式碼
– 需要強大的編碼能力
– 預算有限，需控制 API 呼叫成本

A. 使用 Claude Opus 4.5，因為它是 Anthropic 最頂級的模型
B. 使用 Claude Sonnet 5，因為它有 100 萬 Token 上下文且定價為 Opus 4.5 的一半
C. 使用 Gemini 3 Pro，因為它在 WebOS 生成測試中也表現出色
D. 將程式碼分割成多段，使用任何模型分批處理

2. 你的團隊計畫使用 Claude Code 來管理一個複雜的全端專案，需要同時處理前端開發、後端 API 和自動化測試。根據影片中提到的 Claude Code 更新，最適合的工作方式是什麼？情境題

專案結構：
├── frontend/    （React 前端）
├── backend/     （API 服務）
└── tests/       （自動化測試）

需求：三個部分需要同時推進開發

A. 讓一個 AI 代理按順序處理每個部分
B. 分別開三個 Claude Code 視窗，各自獨立處理
C. 使用 Teammate Tool 建立多代理團隊，分配不同代理負責前端、後端和測試
D. 先用 AI 生成所有程式碼，再手動整合

3. 客戶要求你用 AI 模型一次性生成一個包含互動式 3D 視覺化的單一 HTML 檔案，不能使用外部模型檔案。根據影片中的對比測試結果，以下哪個判斷最為準確？情境題

任務：在單一 HTML 檔案中建立 Three.js 3D 互動檢視器
限制：不可匯入外部 3D 模型檔案
需求：程序化生成所有幾何形狀與動畫

A. Opus 4.5 是最佳選擇，因為它是最高階的模型
B. Gemini 3 Pro 最適合，因為它在 WebOS 測試中表現優秀
C. 三個模型表現差不多，選最便宜的即可
D. Sonnet 5 最適合，因為在人體解剖檢視器測試中，Opus 4.5 部署失敗，Gemini 3 Pro 只生成了部分結構

4. 一位開發者看完影片後，在社群中發表了以下總結。請找出其中的錯誤描述。錯誤診斷

“Claude Sonnet 5 太強了！重點整理：
上下文窗口有 100 萬 Token
定價和 Opus 4.5 差不多
WebOS 測試中產出了 4,768 行 HTML
在所有編碼任務上都超越了 Opus 4.5”

A. 第 1 點和第 3 點有誤：上下文窗口沒有那麼大，HTML 行數也不對
B. 第 2 點和第 4 點有誤：定價是 Opus 4.5 的一半，且只是在「某些」編碼任務上超越
C. 第 3 點和第 4 點有誤：HTML 行數被誇大，且完全沒有超越 Opus 4.5
D. 只有第 4 點有誤：其他資訊都正確，但 Sonnet 5 從未超越 Opus 4.5

5. 你的同事在討論 Claude 生態系統的未來發展時，做了以下陳述。哪一項與影片中透露的資訊不符？錯誤診斷

同事的陳述：
A) “Claude Code 的 Teammate Tool 可以讓多個 AI 代理組成團隊協作”
B) “Claude 即將推出原生圖像生成功能，代號叫 Sonata”
C) “Sonnet 5 的代號是 Fennec，是一個思考模型（thinking model）”
D) “Google Cloud Vertex 上已出現對尚未公開的 Opus 新版本的引用”

A. 陳述 A 不正確：Teammate Tool 只是管理任務，不能組團隊
B. 陳述 B 不正確：圖像生成功能的代號不是 Sonata
C. 陳述 C 不正確：影片明確指出早期測試的是 Sonnet 5 的「非思考」版本
D. 陳述 D 不正確：Vertex 上沒有出現任何新模型的引用

Claude Sonnet 5：史上最強 AI 編碼模型！百萬 Token 上下文、超低定價與早期實測

影片重點

詳細內容

[00:00] Sonnet 5 發布消息與背景

[01:30] WebOS 生成實測：Windows 作業系統克隆

[04:15] 早期基準測試與編碼能力

[05:00] 圖像生成功能與 Opus 4.6 消息

[05:45] 遊戲開發：超級卡丁車與 Celeste 克隆

[07:15] Landing Page 與 SVG 生成

[08:30] 3D 人體解剖互動檢視器

[10:15] Claude Code 多代理團隊協作功能

我的想法

進階測驗：Claude Sonnet 5 早期實測

1. 你正在為公司開發一個需要處理大型程式碼庫的 AI 輔助工具，專案包含約 80 萬 Token 的程式碼上下文。你需要選擇一個既能處理完整上下文又具備成本效益的模型。根據影片中的資訊，最佳選擇是什麼？情境題

2. 你的團隊計畫使用 Claude Code 來管理一個複雜的全端專案，需要同時處理前端開發、後端 API 和自動化測試。根據影片中提到的 Claude Code 更新，最適合的工作方式是什麼？情境題

3. 客戶要求你用 AI 模型一次性生成一個包含互動式 3D 視覺化的單一 HTML 檔案，不能使用外部模型檔案。根據影片中的對比測試結果，以下哪個判斷最為準確？情境題

4. 一位開發者看完影片後，在社群中發表了以下總結。請找出其中的錯誤描述。錯誤診斷

5. 你的同事在討論 Claude 生態系統的未來發展時，做了以下陳述。哪一項與影片中透露的資訊不符？錯誤診斷

發佈留言取消回覆

影片重點

詳細內容

[00:00] Sonnet 5 發布消息與背景

[01:30] WebOS 生成實測：Windows 作業系統克隆

[04:15] 早期基準測試與編碼能力

[05:00] 圖像生成功能與 Opus 4.6 消息

[05:45] 遊戲開發：超級卡丁車與 Celeste 克隆

[07:15] Landing Page 與 SVG 生成

[08:30] 3D 人體解剖互動檢視器

[10:15] Claude Code 多代理團隊協作功能

我的想法

進階測驗：Claude Sonnet 5 早期實測

1. 你正在為公司開發一個需要處理大型程式碼庫的 AI 輔助工具，專案包含約 80 萬 Token 的程式碼上下文。你需要選擇一個既能處理完整上下文又具備成本效益的模型。根據影片中的資訊，最佳選擇是什麼？ 情境題

2. 你的團隊計畫使用 Claude Code 來管理一個複雜的全端專案，需要同時處理前端開發、後端 API 和自動化測試。根據影片中提到的 Claude Code 更新，最適合的工作方式是什麼？ 情境題

3. 客戶要求你用 AI 模型一次性生成一個包含互動式 3D 視覺化的單一 HTML 檔案，不能使用外部模型檔案。根據影片中的對比測試結果，以下哪個判斷最為準確？ 情境題

4. 一位開發者看完影片後，在社群中發表了以下總結。請找出其中的錯誤描述。 錯誤診斷

5. 你的同事在討論 Claude 生態系統的未來發展時，做了以下陳述。哪一項與影片中透露的資訊不符？ 錯誤診斷

相關文章

OpenAI is Winning… (Opus 4.6 + Codex 5.3)｜OpenAI 正在勝出⋯（Opus 4.6 + Codex 5.3 實測對比）

Shipping AI That Works: An Evaluation Framework for PMs｜打造可靠 AI 產品：產品經理的評估框架

Coding Evals: From Code Snippets to Codebases｜程式碼評估：從片段到完整程式庫

發佈留言取消回覆

1. 你正在為公司開發一個需要處理大型程式碼庫的 AI 輔助工具，專案包含約 80 萬 Token 的程式碼上下文。你需要選擇一個既能處理完整上下文又具備成本效益的模型。根據影片中的資訊，最佳選擇是什麼？情境題

2. 你的團隊計畫使用 Claude Code 來管理一個複雜的全端專案，需要同時處理前端開發、後端 API 和自動化測試。根據影片中提到的 Claude Code 更新，最適合的工作方式是什麼？情境題

3. 客戶要求你用 AI 模型一次性生成一個包含互動式 3D 視覺化的單一 HTML 檔案，不能使用外部模型檔案。根據影片中的對比測試結果，以下哪個判斷最為準確？情境題

4. 一位開發者看完影片後，在社群中發表了以下總結。請找出其中的錯誤描述。錯誤診斷

5. 你的同事在討論 Claude 生態系統的未來發展時，做了以下陳述。哪一項與影片中透露的資訊不符？錯誤診斷