翁家翌:從開源少年到 OpenAI 核心工程師的長期主義之路

本集 WhynotTV Podcast 邀請到 OpenAI 核心工程師翁家翌,深度回顧他從清華大學到 CMU、再到加入 OpenAI 的完整成長歷程。翁家翌自 2022 年加入 OpenAI 後,深度參與了 GPT-3.5、GPT-4 到 GPT-5 的核心模型開發,他的三大貢獻領域——強化學習、Post-training(後訓練)與 Infra(基礎設施)——正是推動大型語言模型關鍵躍遷的幕後力量。


原影片連結:https://www.youtube.com/watch?v=I0DrcsDf3Os

影片重點

  • 翁家翌從小就具備「投資未來」的超前學習意識,初中便開始自學高中數學
  • 在清華大學開源所有課程作業,致力於打破資訊差,視開源為一種「慈善」
  • 開發「天授」(Tianshou)強化學習框架,僅用兩週完成第一版,性能碾壓主流平台
  • 建立 tuixue online 簽證查詢系統,累積破千萬點擊,服務廣大留學生群體
  • 在 OpenAI 搭建的 Post-training RL 基礎設施,成為支撐 GPT 系列模型的核心系統
  • 認為工程能力比純研究能力更重要,Infra 是當前 AI 發展最大瓶頸
  • 對 AGI 的判斷:實現取決於 Infra 迭代速度,未來組織將由 AI Agent 管理
  • 採用「假裝自由意志存在」的實用主義哲學面對確定性世界觀

詳細內容

[02:33] 童年與「投資未來」的思維方式

翁家翌從小就展現出與眾不同的學習策略。他在小學一年級就開始接觸數學奧林匹克訓練,但最關鍵的不是他有多聰明,而是他很早就建立了「投資未來」的意識——初中時便開始超前學習高中數學,透過建立知識樹的方式快速連結不同知識點,實現高效解題。這種超前投資的思維模式貫穿了他此後的整個成長歷程。

[08:10] 高中計算機競賽與升學抉擇

翁家翌在高中時期投入了資訊學競賽(OI),在福建省信息學競賽中表現突出,以最小二分覆蓋題獲得省隊唯一的銅牌。這個成績為他爭取到了清華大學「降 60 分」錄取的資格。面對清華降分錄取和上海交大全額錄取的選擇,他最終選擇了清華。

[16:02] 在清華開源作業與打破資訊差

進入清華後,翁家翌做了一件讓他「火遍校園」的事:他將所有課程作業和資料開源。這不是為了炫耀,而是出於一個樸素的信念——打破資訊差。他認為「資訊平權」比捐樓更具社會價值。在他的價值觀裡,開源不是履歷裝飾,而是一種對世界的投入方式,追求的不是掌聲,而是 impact(影響力)。他甚至修復了清華校園網的漏洞。

[19:23] 本科與強化學習結緣

在本科期間,翁家翌開始接觸強化學習(Reinforcement Learning),這成為他日後職業生涯的核心方向。強化學習是一種透過環境互動來優化策略的機器學習方法,與監督學習不同的是,RL 需要 agent 在環境中不斷嘗試、獲取回饋、調整策略。

[28:00] 在 Yoshua Bengio 組暑研做 NLP

翁家翌曾在深度學習先驅 Yoshua Bengio 的實驗室進行暑期研究,嘗試了 Mixture of Experts(MOE)架構的 NLP 研究。雖然最終沒有取得突破性成果,但這段經歷讓他對 NLP 和強化學習兩個領域都有了更深入的理解。

[30:38] 對前 ChatGPT 時代 NLP 和 RL 的反思

回顧 ChatGPT 出現之前的學術環境,翁家翌認為當時學術界的 RL 研究存在根本性問題:過度關注 toy benchmark 的調參,而忽略了真正的工業級應用。學術界追求的目標與工業界需要解決的真實問題之間存在巨大鴻溝。

[32:47] 留學申請季的挫折與成長

翁家翌在留學申請季經歷了不小的挫折——PhD 申請並不順利,最終接受了碩士項目的錄取。但這段經歷讓他重新思考了什麼才是真正重要的。他開始掙脫固有評價體系的束縛,不再執著於學術頭銜,而是專注於實際的影響力和價值創造。

[41:08] 天授(Tianshou)強化學習框架

「天授」框架的誕生源自一個真實的痛點:翁家翌不想再浪費時間「煉丹」。2019 年底,他意識到 RL 領域的問題不在算法本身,而在實驗平台。他看了當時最主流的 RLlib 源代碼,發現其抽象極度複雜,幾十萬行代碼幾乎無法下手。

於是他在 2020 年春節假期推倒重來,兩週內完成了第一版——整個平台只用 1500 行左右的代碼,卻在已有的 toy scenarios 上完勝所有其他平台。「天授」追求極致的一致性和簡潔性,迅速成為強化學習社群的標杆。

[48:07] tuixue online 簽證查詢系統

另一個開源項目 tuixue online 源自翁家翌的親身需求——他急需一個實時爬蟲工具來查詢美國簽證預約狀態。這個項目一上線就爆發,初期便有超過一百萬點擊,累積至今已破千萬。雖然後來因美領館系統升級而失效,但它完成了其社會價值。他把天授和 tuixue 都稱作「做慈善」——「完全 nonprofit(非營利),這種慈善項目讓我感覺非常滿足。」

[49:54] 追求 Impact 的底層邏輯

翁家翌的核心驅動力是 impact(影響力),但不是那種追求掌聲的影響力。他認為「創造實用工具即慈善」,把做工具視為一種對世界的投入方式。這種價值觀驅動著他的每一個選擇——從開源作業到開發天授,再到後來加入 OpenAI。

[56:21] CMU 讀研與加入 OpenAI

翁家翌在 CMU 完成碩士學業後,面臨多個職業選擇。2020 年他獲得了多家科技公司的 offer,包括幻方量化(DeepSeek 前身)、NVIDIA、TikTok 和 Facebook AI Research(FAIR)。但他最終選擇了 OpenAI,原因很簡單:「當時 OpenAI 和 DeepMind 是強化學習做得最好的兩個 lab。」

[59:46] 與 John Schulman 的面試故事

翁家翌由 OpenAI 聯合創始人 John Schulman 親自面試錄用。John Schulman 本身就是強化學習領域的重要人物,是 PPO(Proximal Policy Optimization)算法的主要作者。這次面試不僅改變了翁家翌的職業軌跡,也讓他進入了 AI 風暴的正中心。

[01:01:54] 為什麼沒有讀 PhD、研究 vs. 工程能力

翁家翌解釋了為什麼沒有選擇繼續讀 PhD——他認為在當前的 AI 時代,工程能力的重要性已經超越了純研究能力。他的觀點直截了當:「教一個 researcher 如何做好 engineering,比教一個 engineer 如何做好 research 難得多。」這並非否定研究的價值,而是強調在工業界,快速迭代和執行力才是制勝關鍵。

[01:06:31] Infra 的重要性

翁家翌特別強調了基礎設施(Infra)在 AI 發展中的核心地位。當模型的參數量和並發規模達到一定程度時,GPU 協同、分散式通信與可複現的實驗迭代成為決定性因素。他認為 Infra 是當前 AI 發展的最大瓶頸——不是演算法不夠好,而是基礎設施跟不上。「修 bug 數量決定模型品質」,這句話深刻反映了工業級 AI 開發的現實。

[01:09:28] 還會鼓勵學生讀 AI PhD 嗎?

面對這個敏感問題,翁家翌的回答頗為務實。他認為傳統的 AI PhD 路徑正在面臨挑戰,因為研究員可能是最先被 AI 取代的群體之一。他並非全盤否定 PhD 的價值,而是建議學生們要更加務實地思考自己的職業規劃。

[01:13:13] 什麼是強化學習與 Post-training

翁家翌用通俗的方式解釋了強化學習和 Post-training 的概念。Post-training(後訓練)是指在模型完成初始的預訓練(Pre-training)之後,透過強化學習、人類回饋(RLHF)等方式進一步精煉模型的過程。這個階段對模型最終的表現品質至關重要——它決定了模型能否真正理解人類意圖、提供有用的回應。

[01:14:22] 加入 OpenAI 時 ChatGPT 並非主線

一個有趣的事實是:翁家翌 2022 年加入 OpenAI 時,ChatGPT 並不是公司的主線項目。ChatGPT 最初只是一個實驗性的回饋收集產品,團隊並沒有預料到它會引發如此大規模的成功。加入之初,翁家翌參與的是 WebGPT 的後續項目,透過強化學習讓模型更好地與使用者互動。

[01:19:18] 2022 年加入 OpenAI 的初印象

翁家翌描述了他 2022 年初次踏入 OpenAI 的感受。最讓他印象深刻的是公司的人才密度——每個人都極其優秀,資訊流動效率非常高。在 OpenAI,你遇到的每個同事都可能是某個領域的頂尖人物。他自嘲是「賣鏟子裡最面向客戶的那位」,因為強化學習模組處於基礎設施棧的頂端。

[01:24:09] GPT 後訓練的前世今生與 RLHF 突破

翁家翌深入介紹了 GPT 系列模型 Post-training 的發展歷程。2022 年做 RLHF 時面臨許多關鍵挑戰:從技術結構上看,這套 Post-training 系統的難度遠高於他曾開發的天授框架。Toy task 的瓶頸在環境(計算只要幾微秒),而大模型的瓶頸在模型本身(訓練和採樣需要幾百甚至上千秒)。他負責構建的 RL 訓練系統在 ChatGPT 爆發式上線之前,已成為公司內部主力使用的 Infra 之一。

[01:27:01] 工業級 RL Infra 的挑戰

工業級的 RL Infra 與學術界的實驗平台有著天壤之別。翁家翌面對的是真實的分散式系統挑戰:數千張 GPU 的協同訓練、模型的高效採樣、訓練過程的可複現性等。他正是那個站在強化學習、系統工程與大語言模型交叉點的人——不僅要懂 RL 的邏輯,也要理解分散式系統、語言模型的推理方式以及底層架構。

[01:32:08] 未來 5-10 年大語言模型的挑戰

翁家翌認為未來大語言模型面臨的核心挑戰包括:基礎設施的迭代速度能否跟上需求、如何避免 reward hacking(獎勵作弊)、以及如何有效衡量模型的真實能力。Infra 的吞吐效率才是模型競爭的核心指標。

[01:36:30] 現在的路徑能達到 AGI 嗎?

關於 AGI 的定義,翁家翌表示 OpenAI 內部並沒有統一標準。他個人的看法很務實:「如果它能完成 80%、90% 我認為有意義的任務,那它可能就是 AGI 了。」他認為 AGI 的實現取決於 Infra 迭代速度,並預測未來組織將由擁有無限 context 的 AI Agent 來管理,以解決人類協作的瓶頸。

[01:38:34] OpenAI 還 Open 嗎?

面對這個尖銳的問題,翁家翌澄清了 OpenAI 的「Open」含義:並非對所有同行開放所有技術細節,而是「盡可能以低門檻的方式讓普通人用上強大工具」。這是一種產品層面的開放,而非源代碼層面的開放。

[01:43:30] OpenAI 實現 AGI 使命的最大挑戰

翁家翌認為 OpenAI 實現 AGI 使命面臨的最大挑戰在於:如何在快速發展的競爭環境中保持技術領先,同時確保安全性。被問到 OpenAI 為何能做出如此爆款產品,他歸結於兩個因素:一是單位時間迭代效率足夠高,二是領導層真正懂技術。

[01:44:02] 內部視角看 Sam Altman 被開除事件

翁家翌以 OpenAI 內部人員的視角回顧了 2023 年的 Sam Altman 開除事件。他提到 Ilya Sutskever 把 Sam 和 Greg 分別叫進會議通知解職,這場風波的根源在於技術安全與快速部署之間的理念分歧。

[01:46:37] 如何看待人才流失與 AI 競賽

關於 OpenAI 的人才流失問題,翁家翌並沒有過度擔憂。他認為在 AI 領域,人才的流動是正常的。對於 DeepSeek 等競爭對手,他認為真正引發警覺的不是榜單成績,而是其迭代速度——「idea 是廉價的,關鍵是快速驗證」。

[01:52:48] 未來與宿命論

節目尾聲,對話轉向了更深層的哲學議題。翁家翌持有一種確定性的世界觀,但他的應對方式很實用主義:「假裝自由意志存在」,將精力聚焦於可驗證的技術問題,而非陷入哲學困境。他不考慮創業,而是希望十年後的自己仍然在做有意義的技術工作,最大化在 OpenAI Blog 上出現的次數。

我的想法

這期兩小時的深度訪談,最打動我的不是翁家翌的技術成就,而是他那套一以貫之的價值體系——「投資未來」和「追求 impact」。

從開源清華作業到開發天授框架、再到建設 OpenAI 的 RL Infra,翁家翌的每一步都不是為了短期回報,而是在構建長期的影響力。這讓我想到一個有趣的對比:在當前 AI 領域「搶發論文、追求 benchmark」的浮躁氛圍中,翁家翌代表了另一種路徑——做基礎設施、做工具、做那些別人不願意做但又不可或缺的事情。

他關於「工程能力比研究能力更重要」的觀點雖然爭議性強,但確實切中了當前 AI 產業的痛點。在大模型時代,真正的競爭壁壘不是一篇論文裡的新演算法,而是能否高效、穩定地把這個演算法跑在數千張 GPU 上。翁家翌用他的職業軌跡證明了這一點。

另一個值得深思的觀點是他對 AGI 的務實定義。比起學術界對 AGI 的抽象定義,「能完成 80%-90% 有意義的任務」這個標準更具可操作性。或許我們不需要等待一個「完美的 AGI」——一個足夠好的系統,配合高效的 Infra,就能改變世界。

最後,他「假裝自由意志存在」的生活哲學也令人深思。在一個可能是確定性的宇宙中,選擇「如同自己有自由意志般行動」,這本身就是一種很有力量的生活態度。

進階測驗:翁家翌——從開源少年到 OpenAI 核心工程師

測驗目標:驗證你是否能在實際情境中應用所學,深入理解翁家翌的技術觀點與 AI 產業邏輯。
共 5 題,包含情境題與錯誤診斷題。

1. AI 團隊的技術決策 情境題

你是一家 AI 新創公司的技術主管,團隊正在開發大型語言模型。 目前團隊有兩位頂尖的 ML 研究員,但模型訓練經常因為分散式系統的 bug 而中斷, GPU 利用率只有 40%,實驗迭代週期長達兩週。 根據翁家翌在 OpenAI 的經驗,你應該優先採取什麼行動?
  • A. 招聘更多 ML 研究員來加速演算法創新,用更好的演算法彌補基礎設施的不足
  • B. 優先招聘系統工程師來改善 Infra,提升 GPU 利用率和實驗迭代速度
  • C. 購買更多 GPU 來解決算力瓶頸,用硬體數量彌補利用率的問題
  • D. 先發表幾篇論文提升團隊學術聲譽,再用聲譽吸引更多人才加入

2. 開源項目的價值判斷 情境題

你開發了一個強化學習框架,在學術基準測試上表現優異。 現在你面臨選擇:繼續在學術界維護這個框架並發表更多論文, 還是放棄學術維護,轉向工業界去解決真正的大規模問題。 你發現學術界的 RL 研究大多停留在 toy benchmark 調參, 與工業界真實需求之間存在巨大鴻溝。 根據翁家翌從「天授」到 OpenAI 的經歷,最合理的決策邏輯是什麼?
  • A. 堅持維護學術框架,論文引用數是衡量 impact 最客觀的標準
  • B. 同時維護學術框架和工業項目,兩邊都不放棄才能最大化影響力
  • C. 轉向工業界,因為真正的 impact 來自解決真實問題而非 toy benchmark
  • D. 將框架商業化成立公司,用商業成功來證明技術價值

3. 面對 AI 競爭對手的策略 情境題

你所在的 AI 公司發現競爭對手在某個公開排行榜上超過了你們的模型。 團隊內部產生恐慌,有人建議立即投入資源針對該排行榜進行優化, 也有人建議先分析對手的技術路線。 根據翁家翌對 DeepSeek 競爭的看法,團隊最應該關注的核心指標是什麼?
  • A. 排行榜成績,因為排名直接影響用戶信任和市場份額
  • B. 模型參數量,更大的模型通常意味著更強的能力
  • C. 論文發表數量,學術影響力是技術領先的最佳證明
  • D. 對手的迭代速度和基礎設施吞吐效率,因為這才是長期競爭力的核心

4. Post-training 系統的效能瓶頸 錯誤診斷

一位工程師正在為大型語言模型搭建 Post-training RL 系統。 他直接套用了學術界 RL 框架(類似天授)的架構設計: – 環境模擬:使用 Prompt 作為環境(計算只需幾微秒) – 模型採樣:每次採樣需要幾百到上千秒 – 訓練流程:按照 toy task 的方式串行處理 結果系統效能極差,GPU 利用率不到 10%。 這位工程師的核心錯誤在哪裡?
  • A. 不應該用 Prompt 作為環境,應該用更複雜的模擬器
  • B. 忽略了大模型的瓶頸在模型本身而非環境,需要重新設計分散式訓練和採樣架構
  • C. 使用的 RL 演算法過時了,應該換成最新的演算法
  • D. GPU 數量不夠,只需要增加硬體就能解決問題

5. 對「Open」的誤解 錯誤診斷

一位科技記者寫了以下評論: 「OpenAI 的名字裡有 Open,但它既不公開模型權重,也不分享訓練數據。 它背叛了自己的創立使命,已經變成了一家純粹的閉源商業公司。 真正的 ‘Open’ 應該像 DeepSeek 那樣公開一切。」 根據翁家翌對 OpenAI「Open」含義的解釋,這段評論的核心認知錯誤是什麼?
  • A. DeepSeek 其實也沒有完全開源,記者的對比不成立
  • B. OpenAI 其實有公開部分模型權重,記者的事實陳述有誤
  • C. 記者誤解了 OpenAI 的「Open」含義——它指的是「以低門檻讓普通人用上強大工具」的產品層面開放,而非源代碼層面的開放
  • D. OpenAI 從一開始就是閉源公司,名字裡的 Open 只是品牌命名

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *