本集 WhynotTV Podcast 邀請到 OpenAI 核心工程師翁家翌,深度回顧他從清華大學到 CMU、再到加入 OpenAI 的完整成長歷程。翁家翌自 2022 年加入 OpenAI 後,深度參與了 GPT-3.5、GPT-4 到 GPT-5 的核心模型開發,他的三大貢獻領域——強化學習、Post-training(後訓練)與 Infra(基礎設施)——正是推動大型語言模型關鍵躍遷的幕後力量。
原影片連結:https://www.youtube.com/watch?v=I0DrcsDf3Os
影片重點
- 翁家翌從小就具備「投資未來」的超前學習意識,初中便開始自學高中數學
- 在清華大學開源所有課程作業,致力於打破資訊差,視開源為一種「慈善」
- 開發「天授」(Tianshou)強化學習框架,僅用兩週完成第一版,性能碾壓主流平台
- 建立 tuixue online 簽證查詢系統,累積破千萬點擊,服務廣大留學生群體
- 在 OpenAI 搭建的 Post-training RL 基礎設施,成為支撐 GPT 系列模型的核心系統
- 認為工程能力比純研究能力更重要,Infra 是當前 AI 發展最大瓶頸
- 對 AGI 的判斷:實現取決於 Infra 迭代速度,未來組織將由 AI Agent 管理
- 採用「假裝自由意志存在」的實用主義哲學面對確定性世界觀
詳細內容
[02:33] 童年與「投資未來」的思維方式
翁家翌從小就展現出與眾不同的學習策略。他在小學一年級就開始接觸數學奧林匹克訓練,但最關鍵的不是他有多聰明,而是他很早就建立了「投資未來」的意識——初中時便開始超前學習高中數學,透過建立知識樹的方式快速連結不同知識點,實現高效解題。這種超前投資的思維模式貫穿了他此後的整個成長歷程。
[08:10] 高中計算機競賽與升學抉擇
翁家翌在高中時期投入了資訊學競賽(OI),在福建省信息學競賽中表現突出,以最小二分覆蓋題獲得省隊唯一的銅牌。這個成績為他爭取到了清華大學「降 60 分」錄取的資格。面對清華降分錄取和上海交大全額錄取的選擇,他最終選擇了清華。
[16:02] 在清華開源作業與打破資訊差
進入清華後,翁家翌做了一件讓他「火遍校園」的事:他將所有課程作業和資料開源。這不是為了炫耀,而是出於一個樸素的信念——打破資訊差。他認為「資訊平權」比捐樓更具社會價值。在他的價值觀裡,開源不是履歷裝飾,而是一種對世界的投入方式,追求的不是掌聲,而是 impact(影響力)。他甚至修復了清華校園網的漏洞。
[19:23] 本科與強化學習結緣
在本科期間,翁家翌開始接觸強化學習(Reinforcement Learning),這成為他日後職業生涯的核心方向。強化學習是一種透過環境互動來優化策略的機器學習方法,與監督學習不同的是,RL 需要 agent 在環境中不斷嘗試、獲取回饋、調整策略。
[28:00] 在 Yoshua Bengio 組暑研做 NLP
翁家翌曾在深度學習先驅 Yoshua Bengio 的實驗室進行暑期研究,嘗試了 Mixture of Experts(MOE)架構的 NLP 研究。雖然最終沒有取得突破性成果,但這段經歷讓他對 NLP 和強化學習兩個領域都有了更深入的理解。
[30:38] 對前 ChatGPT 時代 NLP 和 RL 的反思
回顧 ChatGPT 出現之前的學術環境,翁家翌認為當時學術界的 RL 研究存在根本性問題:過度關注 toy benchmark 的調參,而忽略了真正的工業級應用。學術界追求的目標與工業界需要解決的真實問題之間存在巨大鴻溝。
[32:47] 留學申請季的挫折與成長
翁家翌在留學申請季經歷了不小的挫折——PhD 申請並不順利,最終接受了碩士項目的錄取。但這段經歷讓他重新思考了什麼才是真正重要的。他開始掙脫固有評價體系的束縛,不再執著於學術頭銜,而是專注於實際的影響力和價值創造。
[41:08] 天授(Tianshou)強化學習框架
「天授」框架的誕生源自一個真實的痛點:翁家翌不想再浪費時間「煉丹」。2019 年底,他意識到 RL 領域的問題不在算法本身,而在實驗平台。他看了當時最主流的 RLlib 源代碼,發現其抽象極度複雜,幾十萬行代碼幾乎無法下手。
於是他在 2020 年春節假期推倒重來,兩週內完成了第一版——整個平台只用 1500 行左右的代碼,卻在已有的 toy scenarios 上完勝所有其他平台。「天授」追求極致的一致性和簡潔性,迅速成為強化學習社群的標杆。
[48:07] tuixue online 簽證查詢系統
另一個開源項目 tuixue online 源自翁家翌的親身需求——他急需一個實時爬蟲工具來查詢美國簽證預約狀態。這個項目一上線就爆發,初期便有超過一百萬點擊,累積至今已破千萬。雖然後來因美領館系統升級而失效,但它完成了其社會價值。他把天授和 tuixue 都稱作「做慈善」——「完全 nonprofit(非營利),這種慈善項目讓我感覺非常滿足。」
[49:54] 追求 Impact 的底層邏輯
翁家翌的核心驅動力是 impact(影響力),但不是那種追求掌聲的影響力。他認為「創造實用工具即慈善」,把做工具視為一種對世界的投入方式。這種價值觀驅動著他的每一個選擇——從開源作業到開發天授,再到後來加入 OpenAI。
[56:21] CMU 讀研與加入 OpenAI
翁家翌在 CMU 完成碩士學業後,面臨多個職業選擇。2020 年他獲得了多家科技公司的 offer,包括幻方量化(DeepSeek 前身)、NVIDIA、TikTok 和 Facebook AI Research(FAIR)。但他最終選擇了 OpenAI,原因很簡單:「當時 OpenAI 和 DeepMind 是強化學習做得最好的兩個 lab。」
[59:46] 與 John Schulman 的面試故事
翁家翌由 OpenAI 聯合創始人 John Schulman 親自面試錄用。John Schulman 本身就是強化學習領域的重要人物,是 PPO(Proximal Policy Optimization)算法的主要作者。這次面試不僅改變了翁家翌的職業軌跡,也讓他進入了 AI 風暴的正中心。
[01:01:54] 為什麼沒有讀 PhD、研究 vs. 工程能力
翁家翌解釋了為什麼沒有選擇繼續讀 PhD——他認為在當前的 AI 時代,工程能力的重要性已經超越了純研究能力。他的觀點直截了當:「教一個 researcher 如何做好 engineering,比教一個 engineer 如何做好 research 難得多。」這並非否定研究的價值,而是強調在工業界,快速迭代和執行力才是制勝關鍵。
[01:06:31] Infra 的重要性
翁家翌特別強調了基礎設施(Infra)在 AI 發展中的核心地位。當模型的參數量和並發規模達到一定程度時,GPU 協同、分散式通信與可複現的實驗迭代成為決定性因素。他認為 Infra 是當前 AI 發展的最大瓶頸——不是演算法不夠好,而是基礎設施跟不上。「修 bug 數量決定模型品質」,這句話深刻反映了工業級 AI 開發的現實。
[01:09:28] 還會鼓勵學生讀 AI PhD 嗎?
面對這個敏感問題,翁家翌的回答頗為務實。他認為傳統的 AI PhD 路徑正在面臨挑戰,因為研究員可能是最先被 AI 取代的群體之一。他並非全盤否定 PhD 的價值,而是建議學生們要更加務實地思考自己的職業規劃。
[01:13:13] 什麼是強化學習與 Post-training
翁家翌用通俗的方式解釋了強化學習和 Post-training 的概念。Post-training(後訓練)是指在模型完成初始的預訓練(Pre-training)之後,透過強化學習、人類回饋(RLHF)等方式進一步精煉模型的過程。這個階段對模型最終的表現品質至關重要——它決定了模型能否真正理解人類意圖、提供有用的回應。
[01:14:22] 加入 OpenAI 時 ChatGPT 並非主線
一個有趣的事實是:翁家翌 2022 年加入 OpenAI 時,ChatGPT 並不是公司的主線項目。ChatGPT 最初只是一個實驗性的回饋收集產品,團隊並沒有預料到它會引發如此大規模的成功。加入之初,翁家翌參與的是 WebGPT 的後續項目,透過強化學習讓模型更好地與使用者互動。
[01:19:18] 2022 年加入 OpenAI 的初印象
翁家翌描述了他 2022 年初次踏入 OpenAI 的感受。最讓他印象深刻的是公司的人才密度——每個人都極其優秀,資訊流動效率非常高。在 OpenAI,你遇到的每個同事都可能是某個領域的頂尖人物。他自嘲是「賣鏟子裡最面向客戶的那位」,因為強化學習模組處於基礎設施棧的頂端。
[01:24:09] GPT 後訓練的前世今生與 RLHF 突破
翁家翌深入介紹了 GPT 系列模型 Post-training 的發展歷程。2022 年做 RLHF 時面臨許多關鍵挑戰:從技術結構上看,這套 Post-training 系統的難度遠高於他曾開發的天授框架。Toy task 的瓶頸在環境(計算只要幾微秒),而大模型的瓶頸在模型本身(訓練和採樣需要幾百甚至上千秒)。他負責構建的 RL 訓練系統在 ChatGPT 爆發式上線之前,已成為公司內部主力使用的 Infra 之一。
[01:27:01] 工業級 RL Infra 的挑戰
工業級的 RL Infra 與學術界的實驗平台有著天壤之別。翁家翌面對的是真實的分散式系統挑戰:數千張 GPU 的協同訓練、模型的高效採樣、訓練過程的可複現性等。他正是那個站在強化學習、系統工程與大語言模型交叉點的人——不僅要懂 RL 的邏輯,也要理解分散式系統、語言模型的推理方式以及底層架構。
[01:32:08] 未來 5-10 年大語言模型的挑戰
翁家翌認為未來大語言模型面臨的核心挑戰包括:基礎設施的迭代速度能否跟上需求、如何避免 reward hacking(獎勵作弊)、以及如何有效衡量模型的真實能力。Infra 的吞吐效率才是模型競爭的核心指標。
[01:36:30] 現在的路徑能達到 AGI 嗎?
關於 AGI 的定義,翁家翌表示 OpenAI 內部並沒有統一標準。他個人的看法很務實:「如果它能完成 80%、90% 我認為有意義的任務,那它可能就是 AGI 了。」他認為 AGI 的實現取決於 Infra 迭代速度,並預測未來組織將由擁有無限 context 的 AI Agent 來管理,以解決人類協作的瓶頸。
[01:38:34] OpenAI 還 Open 嗎?
面對這個尖銳的問題,翁家翌澄清了 OpenAI 的「Open」含義:並非對所有同行開放所有技術細節,而是「盡可能以低門檻的方式讓普通人用上強大工具」。這是一種產品層面的開放,而非源代碼層面的開放。
[01:43:30] OpenAI 實現 AGI 使命的最大挑戰
翁家翌認為 OpenAI 實現 AGI 使命面臨的最大挑戰在於:如何在快速發展的競爭環境中保持技術領先,同時確保安全性。被問到 OpenAI 為何能做出如此爆款產品,他歸結於兩個因素:一是單位時間迭代效率足夠高,二是領導層真正懂技術。
[01:44:02] 內部視角看 Sam Altman 被開除事件
翁家翌以 OpenAI 內部人員的視角回顧了 2023 年的 Sam Altman 開除事件。他提到 Ilya Sutskever 把 Sam 和 Greg 分別叫進會議通知解職,這場風波的根源在於技術安全與快速部署之間的理念分歧。
[01:46:37] 如何看待人才流失與 AI 競賽
關於 OpenAI 的人才流失問題,翁家翌並沒有過度擔憂。他認為在 AI 領域,人才的流動是正常的。對於 DeepSeek 等競爭對手,他認為真正引發警覺的不是榜單成績,而是其迭代速度——「idea 是廉價的,關鍵是快速驗證」。
[01:52:48] 未來與宿命論
節目尾聲,對話轉向了更深層的哲學議題。翁家翌持有一種確定性的世界觀,但他的應對方式很實用主義:「假裝自由意志存在」,將精力聚焦於可驗證的技術問題,而非陷入哲學困境。他不考慮創業,而是希望十年後的自己仍然在做有意義的技術工作,最大化在 OpenAI Blog 上出現的次數。
我的想法
這期兩小時的深度訪談,最打動我的不是翁家翌的技術成就,而是他那套一以貫之的價值體系——「投資未來」和「追求 impact」。
從開源清華作業到開發天授框架、再到建設 OpenAI 的 RL Infra,翁家翌的每一步都不是為了短期回報,而是在構建長期的影響力。這讓我想到一個有趣的對比:在當前 AI 領域「搶發論文、追求 benchmark」的浮躁氛圍中,翁家翌代表了另一種路徑——做基礎設施、做工具、做那些別人不願意做但又不可或缺的事情。
他關於「工程能力比研究能力更重要」的觀點雖然爭議性強,但確實切中了當前 AI 產業的痛點。在大模型時代,真正的競爭壁壘不是一篇論文裡的新演算法,而是能否高效、穩定地把這個演算法跑在數千張 GPU 上。翁家翌用他的職業軌跡證明了這一點。
另一個值得深思的觀點是他對 AGI 的務實定義。比起學術界對 AGI 的抽象定義,「能完成 80%-90% 有意義的任務」這個標準更具可操作性。或許我們不需要等待一個「完美的 AGI」——一個足夠好的系統,配合高效的 Infra,就能改變世界。
最後,他「假裝自由意志存在」的生活哲學也令人深思。在一個可能是確定性的宇宙中,選擇「如同自己有自由意志般行動」,這本身就是一種很有力量的生活態度。
進階測驗:翁家翌——從開源少年到 OpenAI 核心工程師
共 5 題,包含情境題與錯誤診斷題。

