誕生
LLM 如何誕生
創建 LLM 是人類歷史上資源最密集的努力之一。 它需要比送人類登月更多的運算能力,代表人類知識相當大部分的訓練資料, 以及數百名研究人員和工程師的團隊。
以下是這些非凡系統如何誕生的。
從資料到 AI 的旅程
-
階段 1:資料收集
從書籍、網站、程式碼、科學論文等收集數萬億個 Token。 這些資料的品質和多樣性決定了後續的一切。
-
階段 2:Pre-training
訓練基礎模型來預測下一個 Token。這需要數千個 GPU 運行數月, 花費數千萬美元。
-
階段 3:Fine-tuning
在高品質的有幫助、無害對話範例上訓練。將原始預測引擎轉變為有用的助手。
-
階段 4:RLHF
人類評估者比較輸出,模型從他們的偏好中學習。 這是讓 AI 助手真正有用和安全的關鍵。
階段 1:資料
一切從訓練資料開始。 現代 LLM 在互聯網上存在的相當大部分文本上訓練, 加上數位化的書籍、學術論文和程式碼庫。
訓練資料的規模
~15 萬億
Token(GPT-4 估計)
~3000 億
詞的等值
~150 萬
本書的文本量
10+ 年
以人類速度閱讀
組成和大小一樣重要:
- 網頁爬取(經品質過濾)
- 數位化書籍和出版物
- 程式碼庫(GitHub 等)
- 科學論文和資料庫
- 論壇、討論、問答網站
階段 2:Pre-training
Pre-training 是模型學習預測下一個 Token 的地方。這個過程概念上很簡單: 向模型展示文本,讓它預測下一個是什麼,並調整它的 參數 使預測稍微更好一些。
重複這個過程數萬億次。
Pre-training 需求
Pre-training 之後,你有了一個「基礎模型」——可以流暢地完成文本, 但還不能作為助手使用。它可能會繼續你的提示,但不會有幫助地參與對話。
階段 3:Fine-tuning
Fine-tuning 教基礎模型如何成為一個有幫助的助手。這涉及在精心策劃的良好對話範例上訓練。
訓練對範例
這些範例展示了期望的行為:有幫助、準確、清晰、適當謹慎。 模型學習模仿這些模式。
階段 4:RLHF
人類反饋強化學習 通常是區分令人印象深刻的演示和真正有用的 AI 助手的秘密武器。
RLHF 如何運作
- 生成:模型對同一提示產生幾個不同的答案
- 比較:經過訓練的評估者將回應從最好到最差排序
- 學習:一個單獨的獎勵模型學習預測人類偏好
- 優化:主模型被訓練來產生獎勵模型評價高的回應
驚人的規模
創建前沿 LLM 是人類有史以來最昂貴和資源密集的專案之一:
財務成本
- • Pre-training:5000 萬-1 億美元以上
- • 研究和迭代:類似
- • 基礎設施:數十億美元的 GPU
能源
- • 訓練:~10 GWh
- • 相當於 ~1,000 個美國家庭/年
- • 主要環境考量
人力
- • 數百名研究人員
- • 數千名資料標註員
- • 多年積累的工作
時間
- • 研究:1-2 年
- • 資料準備:持續進行
- • 訓練運行:3-6 個月
重點摘要
- LLM 創建有四個主要階段:資料收集、Pre-training、Fine-tuning 和 RLHF
- 訓練資料的品質和多樣性從根本上塑造模型能力
- Pre-training 教授語言模式;Fine-tuning 和 RLHF 塑造行為
- 規模是驚人的:數十億美元、大量能源使用、多年工作
- 目前只有少數組織可以創建前沿模型