Stanford 研究員 Yegor Denisov-Blanch 分享了一項為期兩年、橫跨 12 萬名開發者的研究成果，探討 AI 工具對軟體工程生產力的真實影響。研究發現使用 AI 的團隊中位數生產力提升約 10%，但頂尖團隊與落後團隊之間的差距正在擴大。關鍵發現是：AI 使用品質遠比使用量重要，程式碼庫的整潔度與 AI 帶來的生產力提升高度相關，而單純衡量 PR 數量等表面指標可能嚴重誤判 AI 的真實效益。

原影片連結：https://www.youtube.com/watch?v=JvosMkuNxF8

影片重點

使用 AI 的團隊中位數生產力提升約 10%，但團隊間差異極大
AI 使用品質比使用量更重要，token 消耗量與生產力提升的相關性很低
程式碼庫整潔度（Environment Cleanliness Index）與 AI 生產力增益有 0.40 的 R² 相關性
乾淨的程式碼能放大 AI 的效益，而不受控的 AI 使用會加速技術債累積
AI 工程實踐基準（AI Engineering Practices Benchmark）可偵測團隊如何使用 AI
衡量 AI ROI 應聚焦工程產出而非商業成果，需搭配主要指標與護欄指標
案例研究顯示：PR 數量增加 14%，但程式碼品質下降 9%，返工增加 2.5 倍
表面指標可能誤導決策，全面衡量才能看清 AI 採用的真實效果

詳細內容

[00:00] 研究背景與方法論

企業花費數百萬美元購買 AI 軟體工程工具，但這些工具在企業環境中究竟效果如何？為了回答這個問題，Stanford 團隊進行了一項為期兩年的研究，採用時間序列與橫斷面分析方法，透過 Git 歷史資料回溯分析多家企業的數據。

研究核心是一個機器學習模型，用來複製人類專家小組的評估結果。具體做法是：讓軟體工程師提交程式碼 commit，由 10 到 15 位獨立專家從實作時間、可維護性和複雜度等維度進行評估。團隊利用數百萬筆專家評估標籤訓練模型，使其能夠大規模部署，並且在對模型輸出有疑慮時，可隨時組建專家小組進行驗證。

[01:40] AI 生產力提升的差異與趨勢

研究團隊將 46 個使用 AI 的團隊與 46 個未使用 AI 的相似團隊進行配對，每季度測量淨生產力增益。截至當年七月，中位數生產力提升約為 10%。

然而值得注意的是，頂尖團隊與落後團隊之間的差距正在擴大。如果將這個趨勢投射到未來，可能出現「強者恆強」的馬太效應：成功的早期 AI 採用者持續累積優勢，而掙扎的團隊則進一步落後。這意味著企業領導者必須了解自己所屬的團隊位於哪個分群，才能及時調整策略。

[03:10] AI 使用品質比使用量更重要

研究團隊首先調查了什麼因素驅動頂尖團隊表現更好。第一個發現是 AI 使用量（以 token 消耗量衡量）與生產力提升的相關性相當鬆散，線性 R² 僅約 0.20。此外還出現了一個「死亡谷」效應：在每月約 1000 萬 token 的使用量附近，團隊的表現反而比使用較少 token 的團隊更差。結論是：AI 使用品質比使用量更為重要。

[04:05] 程式碼庫整潔度是關鍵因子

研究團隊進一步提出了「環境整潔度指數」（Environment Cleanliness Index），這是一個綜合評分，涵蓋測試、型別定義、文件、模組化程度和程式碼品質。該指數與 AI 帶來的生產力提升呈現 0.40 的 R² 相關性，這是相當不錯的結果。

研究用三種顏色來說明程式碼庫整潔度與 AI 效益的關係：綠色代表 AI 可以完成大部分工作，黃色代表 AI 可以輔助，紅色代表 AI 幾乎無用。乾淨的程式碼能放大 AI 的效益，這帶出三個重要啟示：

第一，乾淨的程式碼會放大 AI 的增益。第二，需要管理程式碼庫的熵（技術債），因為不受控地使用 AI 會加速熵的增長，降低整潔度。第三，工程師需要知道何時該用 AI、何時不該用——當 AI 產出被拒絕或需要大量改寫時，工程師會對 AI 失去信任，進而完全停止使用，形成惡性循環。

[06:50] AI 工程實踐基準

團隊開發了一個 AI 工程實踐基準（AI Engineering Practices Benchmark），可以掃描程式碼庫偵測 AI 使用的痕跡與模式，並基於每月 Git 歷史數據進行追蹤。

基準將 AI 使用分為五個等級：Level 0 是完全人工撰寫程式碼；Level 1 是個人使用，工程師未在團隊間分享 prompt；Level 2 是團隊使用，prompt 和規則在團隊間共享；Level 3 是 AI 自主執行特定任務但非完整工作流程；Level 4 則是 Agentic 編排，AI 運行整個流程。該工具將作為開源專案發布，可透過 SWEPR（Software Engineering Productivity Research）研究入口網站取得。

一個有趣的案例是：同一家公司的兩個業務單位擁有完全相同的 AI 工具存取權，但採用率和使用方式截然不同。左側的業務單位約有 40% 的工作使用 AI，而右側的單位則明顯落後。這說明光有 AI 工具的存取權並不足夠，領導者需要了解工程師「如何」使用 AI，而不僅是「是否」在使用。

[09:45] 衡量 AI 投資回報率的框架

理想情況下，我們應該直接衡量商業成果（營收、淨收入留存率等），但從「給予 AI 工具」到「商業成果」之間有太多雜訊和混淆變數（銷售執行、總體環境、產品策略等），因此研究建議聚焦於工程產出指標。

這個方法有幾個前提假設需要注意：首先，假設產品團隊能將增加的產能導向有價值的方向；其次，假設工程是價值創造的有意義瓶頸；最後，雖然 AI 仍然很新，代理指標不完美，但有衡量總比沒有好——在 AI 競賽中會有贏家和輸家，進步比完美更重要。

[11:40] 使用量衡量：存取導向 vs. 使用量導向

衡量 AI ROI 需要兩部分：使用量測量和工程產出測量。使用量的衡量方式分為兩種：存取導向（Access-based）是看何時給予工具存取權，可設立先導組與對照組比較，但這種方式雜訊較大；使用量導向（Usage-based）是透過 AI 編碼助手的 API 遙測數據來精確了解誰在使用、在哪裡使用，這是黃金標準。

需要注意的是，不同廠商的 API 粒度不同——像 GitHub Copilot 會聚合數據，而 Cursor 提供更細緻的資料。一個重要的要點是：可以利用 Git 歷史回溯性地衡量 AI 的影響，不需要現在才設置實驗等待六個月。

[13:15] 工程產出指標框架

研究提出的框架使用主要指標（Primary Metric）和護欄指標（Guardrail Metrics）。主要指標是工程產出——不是程式碼行數、不是 PR 數量、也不是 DORA 指標，而是基於複製專家小組的機器學習模型。護欄指標分為三類：返工與重構、品質技術與風險、人員與 DevOps。

重要的是，護欄指標本身不是生產力指標，不應被最大化，而應維持在健康水準。目標是在維持護欄指標健康的同時，盡可能提升主要指標。

[15:00] 案例研究：表面指標的陷阱

研究團隊與一家大型企業合作，選取一個 350 人的團隊，測量其在五月份採用 AI 前後各四個月的表現。

PR 數量：增加了 14%。表面上看起來很棒。

程式碼品質：品質（以可維護性衡量，0-10 分）在採用 AI 前相當穩定一致，但採用後出現兩個問題——品質下降了 9%，且波動變得更加劇烈。

工程產出：使用團隊自研的工程產出指標（分為返工、重構、新增和移除四類），AI 的使用帶來兩個效果——返工增加了 2.5 倍（非常糟糕），而有效產出幾乎沒有變化。

[18:00] 結論與行動建議

案例研究的總結令人警醒：PR 增加 14%（無法定論，更多 PR 不等於更好）、程式碼品質下降 9%（有問題）、有效產出沒有顯著增加、返工大幅增加。這個 AI 採用的 ROI 可能是負數。

如果這家公司只看 PR 數量，他們會以為自己做得很好，宣稱生產力提升了 14%，計算出節省了數百萬美元的成本，並認為這足以抵銷 AI 授權費用。但事實可能恰恰相反。

不過，這並不意味著應該放棄 AI。AI 是一個將改變工程師工作方式的工具，企業應該利用這些數據來理解自己做錯了什麼、如何改進。如果您對類似的洞察感興趣，可以透過 softwareengineeringproductivity.stanford.edu 加入他們的研究計畫。

我的想法

這項研究最令人震撼的發現是「返工增加 2.5 倍」——這意味著 AI 生成的程式碼雖然快速，但可能在後續需要大量修改，抵消了原本的效率提升。這與許多開發者的直覺體驗一致：AI 工具讓你寫程式碼的速度更快了，但 debug 和修正的時間也相應增加。

「環境整潔度指數」的概念特別有價值。它暗示了一個反直覺的策略：在全面導入 AI 工具之前，或許應該先投資整理現有程式碼庫——提高測試覆蓋率、完善型別定義、改善模組化。這可能比直接購買更多 AI 授權能帶來更好的回報。

對於正在評估 AI 工具的工程團隊領導者，這項研究提供了一個實用的提醒：不要僅用 PR 數量或 token 消耗量來衡量 AI 的價值。建立一套包含品質、返工率和有效產出的綜合指標體系，才能避免自欺欺人式的「虛假繁榮」。同時也要注意，AI 的使用方式是可以教育和引導的——Level 1（個人使用）和 Level 2（團隊共享）之間的差異，可能就是你的團隊是否能真正受益於 AI 的關鍵。

進階測驗：AI 在軟體工程中的投資回報率

測驗目標：驗證你是否能在實際情境中應用 Stanford 12 萬開發者研究的洞察。
共 5 題，包含情境題與錯誤診斷題。

1. 你是一家中型企業的工程副總裁，剛導入 AI 編碼助手三個月。團隊回報 AI 工具很好用，PR 數量也增加了。你想評估 AI 投資是否值得，應該優先採取哪個做法？情境題

目前掌握的資料：
– AI 授權費用：每月 $50,000
– PR 數量比導入前增加 18%
– 開發者滿意度調查：85% 正面回饋
– 尚未建立其他衡量機制

A. 直接用 PR 增加量換算為工程師薪資節省，計算 ROI 並向董事會報告
B. 增加 AI 授權數量讓更多團隊使用，因為 85% 的正面回饋說明工具有效
C. 建立包含程式碼品質、返工率和有效工程產出的綜合指標體系，搭配護欄指標全面評估
D. 衡量每位工程師的 token 消耗量，推動使用量低的團隊增加 AI 使用頻率

2. 你負責一個遺留系統的現代化專案，程式碼庫有大量技術債、缺少型別定義且測試覆蓋率很低。管理層要求你全面導入 AI 工具來加速開發。根據 Stanford 研究的發現，你的最佳策略是什麼？情境題

程式碼庫現狀：
– 測試覆蓋率：12%
– 無 TypeScript 型別定義
– 模組間高度耦合
– 幾乎沒有文件
– Environment Cleanliness Index 預估：約 0.15（滿分 1.0）

A. 先全面導入 AI 工具，利用 AI 來快速補齊測試和文件，一石二鳥
B. 先投資改善程式碼庫整潔度（測試、型別、模組化），再逐步導入 AI 工具以獲得更好的效益
C. 直接導入 AI 並增加 token 使用預算，研究顯示更多 AI 使用量會帶來更高生產力
D. 放棄導入 AI，因為研究顯示 AI 可能導致程式碼品質下降和返工增加

3. 你的公司有兩個業務單位，都已獲得相同的 AI 工具授權。A 單位的 AI 採用率達 40%，B 單位僅 15%。管理層想了解差異原因並改善 B 單位的情況。根據 AI 工程實踐基準的分級，最可能的問題和解法是什麼？情境題

AI 工程實踐等級：
Level 0 – 完全人工撰寫
Level 1 – 個人使用，不分享 prompt
Level 2 – 團隊共享 prompt 和規則
Level 3 – AI 自主執行特定任務
Level 4 – Agentic 編排，AI 運行整個流程

A 單位：主要在 Level 2-3
B 單位：主要在 Level 0-1

A. 購買更多 AI 授權並強制 B 單位的工程師使用，提高存取率就能提高採用率
B. 設定 token 使用量 KPI，達不到最低使用量的工程師會影響績效考核
C. 將 A 單位的工程師調到 B 單位，透過人事調動強制改變文化
D. 推動 B 單位從 Level 1 升級到 Level 2，建立團隊共享 prompt 和規則的機制，改善使用方式而非單純增加使用量

4. 一位工程經理在季度會議上展示了以下 AI 導入成效報告，獲得了管理層的肯定。但根據 Stanford 研究的方法論，這份報告存在什麼關鍵問題？錯誤診斷

Q3 AI 導入成效報告
===================
指標              | 導入前  | 導入後  | 變化
PR 數量/月        | 320     | 378     | +18%
程式碼行數/月     | 45,000  | 62,000  | +38%
AI Token 消耗/月  | 0       | 8.5M   | –
DORA 部署頻率     | 2次/週  | 3次/週  | +50%

結論：AI 投資帶來顯著的生產力提升，
建議擴大到全公司。
估算年化節省：$2.4M

A. Token 消耗量太低，應該鼓勵工程師使用更多 AI 來進一步提升效率
B. 報告只使用了表面指標（PR 數量、程式碼行數、DORA），完全缺少程式碼品質、返工率和有效工程產出等護欄指標
C. 部署頻率提升太快，可能導致系統不穩定，應該降低部署頻率
D. 報告沒有問題，PR 增加和程式碼行數增加都是生產力提升的可靠指標

5. 一個 350 人的工程團隊在導入 AI 後收到了以下季度報告。團隊主管認為「效果不錯，繼續保持」。根據 Stanford 案例研究的分析方法，這個判斷忽略了什麼關鍵訊號？錯誤診斷

AI 導入季度報告
===================
PR 數量：+14%（看起來不錯！）
程式碼品質（可維護性）：從 7.2 降至 6.5
  → 主管評論：「微幅波動，正常範圍」
返工比例：從 8% 升至 20%
  → 主管評論：「可能是因為新功能較多」
有效工程產出：基本持平
  → 主管評論：「AI 還在導入期，需要時間」

結論：整體正面，建議繼續觀察一季。

A. PR 增加 14% 的幅度太小，應該投入更多 AI 預算來提高這個數字
B. 程式碼品質下降是 AI 工具的正常代價，長期會自然恢復，主管的判斷是合理的
C. 返工比例從 8% 升至 20%（增加 2.5 倍）是嚴重的警訊，加上品質下降和有效產出持平，這些護欄指標顯示 AI 的 ROI 很可能是負的
D. 問題在於沒有使用存取導向（Access-based）方法設置對照組實驗

Can You Prove AI ROI in Software Eng? (Stanford 120k Devs Study) — 你能證明 AI 在軟體工程中的投資回報率嗎？（Stanford 12 萬開發者研究）

影片重點

詳細內容

[00:00] 研究背景與方法論

[01:40] AI 生產力提升的差異與趨勢

[03:10] AI 使用品質比使用量更重要

[04:05] 程式碼庫整潔度是關鍵因子

[06:50] AI 工程實踐基準

[09:45] 衡量 AI 投資回報率的框架

[11:40] 使用量衡量：存取導向 vs. 使用量導向

[13:15] 工程產出指標框架

[15:00] 案例研究：表面指標的陷阱

[18:00] 結論與行動建議

我的想法

進階測驗：AI 在軟體工程中的投資回報率

1. 你是一家中型企業的工程副總裁，剛導入 AI 編碼助手三個月。團隊回報 AI 工具很好用，PR 數量也增加了。你想評估 AI 投資是否值得，應該優先採取哪個做法？情境題

2. 你負責一個遺留系統的現代化專案，程式碼庫有大量技術債、缺少型別定義且測試覆蓋率很低。管理層要求你全面導入 AI 工具來加速開發。根據 Stanford 研究的發現，你的最佳策略是什麼？情境題

3. 你的公司有兩個業務單位，都已獲得相同的 AI 工具授權。A 單位的 AI 採用率達 40%，B 單位僅 15%。管理層想了解差異原因並改善 B 單位的情況。根據 AI 工程實踐基準的分級，最可能的問題和解法是什麼？情境題

4. 一位工程經理在季度會議上展示了以下 AI 導入成效報告，獲得了管理層的肯定。但根據 Stanford 研究的方法論，這份報告存在什麼關鍵問題？錯誤診斷

5. 一個 350 人的工程團隊在導入 AI 後收到了以下季度報告。團隊主管認為「效果不錯，繼續保持」。根據 Stanford 案例研究的分析方法，這個判斷忽略了什麼關鍵訊號？錯誤診斷

發佈留言取消回覆

影片重點

詳細內容

[00:00] 研究背景與方法論

[01:40] AI 生產力提升的差異與趨勢

[03:10] AI 使用品質比使用量更重要

[04:05] 程式碼庫整潔度是關鍵因子

[06:50] AI 工程實踐基準

[09:45] 衡量 AI 投資回報率的框架

[11:40] 使用量衡量：存取導向 vs. 使用量導向

[13:15] 工程產出指標框架

[15:00] 案例研究：表面指標的陷阱

[18:00] 結論與行動建議

我的想法

進階測驗：AI 在軟體工程中的投資回報率

1. 你是一家中型企業的工程副總裁，剛導入 AI 編碼助手三個月。團隊回報 AI 工具很好用，PR 數量也增加了。你想評估 AI 投資是否值得，應該優先採取哪個做法？ 情境題

2. 你負責一個遺留系統的現代化專案，程式碼庫有大量技術債、缺少型別定義且測試覆蓋率很低。管理層要求你全面導入 AI 工具來加速開發。根據 Stanford 研究的發現，你的最佳策略是什麼？ 情境題

3. 你的公司有兩個業務單位，都已獲得相同的 AI 工具授權。A 單位的 AI 採用率達 40%，B 單位僅 15%。管理層想了解差異原因並改善 B 單位的情況。根據 AI 工程實踐基準的分級，最可能的問題和解法是什麼？ 情境題

4. 一位工程經理在季度會議上展示了以下 AI 導入成效報告，獲得了管理層的肯定。但根據 Stanford 研究的方法論，這份報告存在什麼關鍵問題？ 錯誤診斷

5. 一個 350 人的工程團隊在導入 AI 後收到了以下季度報告。團隊主管認為「效果不錯，繼續保持」。根據 Stanford 案例研究的分析方法，這個判斷忽略了什麼關鍵訊號？ 錯誤診斷

發佈留言取消回覆

1. 你是一家中型企業的工程副總裁，剛導入 AI 編碼助手三個月。團隊回報 AI 工具很好用，PR 數量也增加了。你想評估 AI 投資是否值得，應該優先採取哪個做法？情境題

2. 你負責一個遺留系統的現代化專案，程式碼庫有大量技術債、缺少型別定義且測試覆蓋率很低。管理層要求你全面導入 AI 工具來加速開發。根據 Stanford 研究的發現，你的最佳策略是什麼？情境題

3. 你的公司有兩個業務單位，都已獲得相同的 AI 工具授權。A 單位的 AI 採用率達 40%，B 單位僅 15%。管理層想了解差異原因並改善 B 單位的情況。根據 AI 工程實踐基準的分級，最可能的問題和解法是什麼？情境題

4. 一位工程經理在季度會議上展示了以下 AI 導入成效報告，獲得了管理層的肯定。但根據 Stanford 研究的方法論，這份報告存在什麼關鍵問題？錯誤診斷

5. 一個 350 人的工程團隊在導入 AI 後收到了以下季度報告。團隊主管認為「效果不錯，繼續保持」。根據 Stanford 案例研究的分析方法，這個判斷忽略了什麼關鍵訊號？錯誤診斷