Claude Sonnet 5:史上最強 AI 編碼模型!百萬 Token 上下文、超低定價與早期實測

Anthropic 即將發布 Claude Sonnet 5,這款代號「Fennec」的新模型號稱擁有 100 萬 Token 上下文窗口,定價僅為 Opus 4.5 的一半,且在編碼與代理能力上有顯著提升。本影片透過多個實測案例展示 Sonnet 5 在 WebOS 生成、遊戲開發、Landing Page 設計、3D 解剖互動等場景的表現,同時透露 Claude Code 即將推出多代理團隊協作功能。


原影片連結:https://www.youtube.com/watch?v=_87CirMQ1FM

影片重點

  • Anthropic 的 Claude Sonnet 5(代號 Fennec)即將發布,擁有 100 萬 Token 超大上下文窗口
  • 定價約為 Opus 4.5 的一半,性價比大幅提升
  • 早期測試顯示在數學上可與頂級模型匹敵,部分編碼任務甚至超越 Opus 4.5
  • 單次生成即可產出 4,768 行 HTML 的完整 Windows WebOS 克隆
  • 遊戲開發能力突出:可一次性生成瑪利歐賽車風格遊戲及 Celeste 克隆版
  • Landing Page 生成品質接近人工製作水準
  • 3D 人體解剖互動檢視器展示強大的程式碼生成能力
  • SVG 生成能力較 Sonnet 4.5 有明顯提升
  • Claude 平台即將支援原生圖像生成功能(代號 Sonata)
  • Claude Code 即將推出 Teammate Tool 多代理團隊協作功能

詳細內容

[00:00] Sonnet 5 發布消息與背景

影片作者透露,他從 Anthropic 內部消息來源得知 Claude Sonnet 5 將於當天發布。Anthropic 團隊曾短暫上線部落格文章和相關頁面,但幾乎立刻被刪除。由於基礎設施準備工作,API 服務甚至一度暫停,有使用者回報在帳戶中看到了 Sonnet 5 的選項。

因內部上傳問題,發布推遲了一天。生態系統中多個消息來源都指向這次發布,Vercel、Bolt 等平台也將同步參與。Sonnet 5 的關鍵規格包括:100 萬 Token 上下文窗口、Opus 4.5 一半的定價,以及代理編碼領域的頂尖表現。

[01:30] WebOS 生成實測:Windows 作業系統克隆

影片展示了 Sonnet 5 一次性生成完整 Web 版 Windows 作業系統的能力。同一個提示(Prompt)也被發送給 Gemini 3 Pro,後者同樣表現出色。Sonnet 5 產出了 4,768 行 HTML 程式碼,這是作者見過最好的 WebOS 成果。

這個 WebOS 的亮點在於功能性:每個應用程式元件都能實際運作,包含檔案管理器、終端機、計算機、繪圖應用、程式碼編輯器(迷你版 VS Code)、記事本、2048 遊戲,以及可正常使用的網頁瀏覽器。所有過渡動畫都流暢自然,完美模仿了 Windows 作業系統的操作體驗。唯一的不足在於前端 UI/UX 的視覺設計品質還有提升空間。

[04:15] 早期基準測試與編碼能力

早期實測結果顯示,這是 Sonnet 5 的非思考(non-thinking)版本,在數學任務上已可與頂級模型匹敵。更值得注意的是,在某些編碼工作流程中,它甚至擊敗了 Claude Opus 4.5。

測試人員特別強調了以下幾個領域的強勁表現:

  • UI 生成與渲染
  • 結構化視覺生成(例如高度詳細的 ASCII 地圖)
  • 複雜介面的一次性生成

[05:00] 圖像生成功能與 Opus 4.6 消息

影片透露了兩個重要消息。首先,圖像生成功能即將登陸 Claude 平台——一個代號為「Sonata」的模型已在 Alamarina 中出現,且 Claude 的系統配置中已有對它的直接引用,證實 Anthropic 正準備推出原生圖像生成功能。

其次,內部報告顯示 Opus 4.6 可能很快就會發布,在 Google Cloud Vertex AI 平台上已出現對 Opus 6 的引用,即使該模型尚未公開發布。

[05:45] 遊戲開發:超級卡丁車與 Celeste 克隆

Sonnet 5 展示了出色的遊戲開發能力。它一次性生成了一款類似瑪利歐賽車的超級卡丁車競速遊戲,所有遊戲元件和技能動畫都能正常運作。考慮到大多數模型無法一次性生成功能完整的遊戲,這個成果尤為突出。

另一個案例是 Celeste 克隆版的生成。Celeste 是 2018 年發布的知名平台跳躍遊戲,Sonnet 5 以約 2,000 行程式碼再現了其核心玩法,包括聲音效果、彈跳功能和各種動畫。作者特別強調,以 Opus 4.5 一半的價格就能達到這樣的效果,性價比非常高。

[07:15] Landing Page 與 SVG 生成

Landing Page 方面,Sonnet 5 生成的著陸頁品質令人印象深刻,難以分辨是 AI 生成還是人工編寫。頁面結構完整,包含價值主張、可信任公司目錄、動態元件和行動號召等要素,整體流程引導設計優秀。作者透過內部 API 測試的結果同樣出色,生成的頁面採用極簡主義風格,動畫效果精良,給出了 7/10 的評分。

SVG 生成方面,Sonnet 5 較前代 Sonnet 4.5 有明顯提升。測試案例包括 Xbox 控制器和騎腳踏車的鵜鶘,雖然 Gemini 在 SVG 生成方面仍略勝一籌,但 Sonnet 5 的進步有目共睹。

[08:30] 3D 人體解剖互動檢視器

有人要求 Sonnet 5 在單一 HTML 檔案中建立 Three.js 3D 人體解剖檢視器,且不匯入任何外部模型。結果展示了程序化生成的人體結構、器官說明和互動功能,包含光照效果和跳動的心臟動畫,甚至能顯示血管功能。

作為對比,同一個提示分別發送給 Gemini 3 Pro 和 Opus 4.5:Opus 4.5 未能成功部署專案,而 Gemini 3 Pro 僅在軀幹和肋骨部分表現尚可,但未能生成完整的人體結構。Sonnet 5 在肺部、肋骨、骨骼系統等各組成部分的呈現和動畫上都表現出色。

[10:15] Claude Code 多代理團隊協作功能

影片最後透露了 Claude Code 即將推出的重大更新:全新的 Teammate Tool,支援完整的多代理團隊協作功能。這意味著使用者可以:

  • 在專案中建立由多個 AI 代理組成的完整團隊
  • 列出可用團隊並管理成員資格(請求、批准、拒絕)
  • 跨代理分配任務並協調工作
  • 完成後自動清理資源

Claude 將扮演 AI 代理團隊經理的角色,負責生成隊友、分配任務並追蹤進度,所有操作都在同一介面中完成。這是一個全新的多代理編排(multi-agent orchestration)更新,有望改變協作式 AI 工作流程的面貌。

我的想法

Claude Sonnet 5 最值得關注的不是單一能力的突破,而是「性價比天花板」的重新定義。以 Opus 4.5 一半的價格提供接近甚至超越的編碼能力,這對 AI 編碼工具的市場格局會產生深遠影響——開發者不再需要為頂級編碼能力支付頂級價格。

100 萬 Token 的上下文窗口也是一個關鍵升級。對於大型程式碼庫的理解和重構任務,這意味著模型可以一次性「看到」更多程式碼上下文,減少因上下文不足導致的錯誤。

Claude Code 的 Teammate Tool 則代表了 AI 輔助開發的下一個方向:從單一代理的「問答式」協助,走向多代理的「團隊式」協作。這種模式下,不同的代理可以專注於不同的任務(例如一個負責前端、一個負責測試),大幅提升複雜專案的開發效率。

不過,影片中的實測案例大多是「一次性生成」的展示,實際的軟體開發涉及迭代修改、除錯和維護等更複雜的場景,這些方面的表現仍有待觀察。此外,自動生成字幕中的專有名詞翻譯(如把 Anthropic 翻成「Enthropic」)也提醒我們,目前的 AI 工具在處理特定領域術語時仍有改善空間。

進階測驗:Claude Sonnet 5 早期實測

測驗目標:驗證你是否能在實際情境中應用所學。
共 5 題,包含情境題與錯誤診斷題。

1. 你正在為公司開發一個需要處理大型程式碼庫的 AI 輔助工具,專案包含約 80 萬 Token 的程式碼上下文。你需要選擇一個既能處理完整上下文又具備成本效益的模型。根據影片中的資訊,最佳選擇是什麼? 情境題

需求: – 上下文窗口需容納 80 萬 Token 的程式碼 – 需要強大的編碼能力 – 預算有限,需控制 API 呼叫成本
  • A. 使用 Claude Opus 4.5,因為它是 Anthropic 最頂級的模型
  • B. 使用 Claude Sonnet 5,因為它有 100 萬 Token 上下文且定價為 Opus 4.5 的一半
  • C. 使用 Gemini 3 Pro,因為它在 WebOS 生成測試中也表現出色
  • D. 將程式碼分割成多段,使用任何模型分批處理

2. 你的團隊計畫使用 Claude Code 來管理一個複雜的全端專案,需要同時處理前端開發、後端 API 和自動化測試。根據影片中提到的 Claude Code 更新,最適合的工作方式是什麼? 情境題

專案結構: ├── frontend/ (React 前端) ├── backend/ (API 服務) └── tests/ (自動化測試) 需求:三個部分需要同時推進開發
  • A. 讓一個 AI 代理按順序處理每個部分
  • B. 分別開三個 Claude Code 視窗,各自獨立處理
  • C. 使用 Teammate Tool 建立多代理團隊,分配不同代理負責前端、後端和測試
  • D. 先用 AI 生成所有程式碼,再手動整合

3. 客戶要求你用 AI 模型一次性生成一個包含互動式 3D 視覺化的單一 HTML 檔案,不能使用外部模型檔案。根據影片中的對比測試結果,以下哪個判斷最為準確? 情境題

任務:在單一 HTML 檔案中建立 Three.js 3D 互動檢視器 限制:不可匯入外部 3D 模型檔案 需求:程序化生成所有幾何形狀與動畫
  • A. Opus 4.5 是最佳選擇,因為它是最高階的模型
  • B. Gemini 3 Pro 最適合,因為它在 WebOS 測試中表現優秀
  • C. 三個模型表現差不多,選最便宜的即可
  • D. Sonnet 5 最適合,因為在人體解剖檢視器測試中,Opus 4.5 部署失敗,Gemini 3 Pro 只生成了部分結構

4. 一位開發者看完影片後,在社群中發表了以下總結。請找出其中的錯誤描述。 錯誤診斷

“Claude Sonnet 5 太強了!重點整理: 1. 上下文窗口有 100 萬 Token 2. 定價和 Opus 4.5 差不多 3. WebOS 測試中產出了 4,768 行 HTML 4. 在所有編碼任務上都超越了 Opus 4.5”
  • A. 第 1 點和第 3 點有誤:上下文窗口沒有那麼大,HTML 行數也不對
  • B. 第 2 點和第 4 點有誤:定價是 Opus 4.5 的一半,且只是在「某些」編碼任務上超越
  • C. 第 3 點和第 4 點有誤:HTML 行數被誇大,且完全沒有超越 Opus 4.5
  • D. 只有第 4 點有誤:其他資訊都正確,但 Sonnet 5 從未超越 Opus 4.5

5. 你的同事在討論 Claude 生態系統的未來發展時,做了以下陳述。哪一項與影片中透露的資訊不符? 錯誤診斷

同事的陳述: A) “Claude Code 的 Teammate Tool 可以讓多個 AI 代理組成團隊協作” B) “Claude 即將推出原生圖像生成功能,代號叫 Sonata” C) “Sonnet 5 的代號是 Fennec,是一個思考模型(thinking model)” D) “Google Cloud Vertex 上已出現對尚未公開的 Opus 新版本的引用”
  • A. 陳述 A 不正確:Teammate Tool 只是管理任務,不能組團隊
  • B. 陳述 B 不正確:圖像生成功能的代號不是 Sonata
  • C. 陳述 C 不正確:影片明確指出早期測試的是 Sonnet 5 的「非思考」版本
  • D. 陳述 D 不正確:Vertex 上沒有出現任何新模型的引用
0

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *