核心洞見 - 學習

每個現代語言模型背後的秘密可以用一句話概括：預測下一個詞是什麼。就這樣。其他一切——理解、推理、創造力——都從這個簡單的任務中湧現，只是規模大到難以理解。

看似簡單的想法

考慮這個句子："The cat sat on the ___"（貓坐在___上）

下一個詞是什麼？你可能想到了 "mat"（墊子）或 "floor"（地板）或 "couch"（沙發）。你不會想到 "elephant"（大象）或 "syntax"（語法）或 "tomorrow"（明天）。為什麼？因為你已經吸收了周圍語言的規律。你知道哪些詞往往會跟在其他詞之後。

這正是 LLM 所做的——但規模大到難以理解。在訓練期間，模型看到數萬億個這樣的例子，從人類寫過的幾乎所有類型的文本中學習語言的統計規律。

實際上，LLM 預測的是 Token，比整個詞更小的單位。一個 Token 可能是一個詞、詞的一部分，甚至是標點符號。

"Hello" → Hello

"incredible" → incredible

"don't" → don't

常見的詞通常是單個 Token。罕見或複雜的詞會被拆分成碎片。這讓模型可以處理任何文本，即使是從未見過的詞，通過組合熟悉的碎片。

這裡變得有趣了。訓練一個小模型來預測下一個 Token，你會得到一個可以完成句子的東西——但僅此而已。輸出通常是無意義或重複的。

但增加模型大小（更多參數），在更多資料上訓練，令人驚奇的事情發生了：模型開始展現出沒有明確訓練過的能力。

使現代 LLM 成為可能的突破來自 2017 年的 Transformer 架構及其關鍵創新：注意力機制。

之前的模型按順序處理文本——一個詞接一個詞。這使得捕捉長距離連接變得困難。如果段落開頭的一個詞與理解結尾的一個詞相關，模型可能會失去這種連接。

注意力通過讓輸入中的每個位置直接「關注」其他每個位置來解決這個問題。在預測下一個詞時，模型可以回顧任何之前的詞並衡量它的相關性。

"The cat, which had been sleeping in the warm sunlight all afternoon, finally _____"

為了預測下一個詞，模型最強烈地關注 "cat" 和 "sleeping"——而不是附近的 "afternoon" 或 "finally"。它理解句子結構，知道動詞應該與貓的行為相關（如 "woke" 或 "stretched"）。

每個 LLM 都有一個 Context Window—— 它一次可以考慮的最大文本量。這以 Token 來衡量。

早期的 GPT 模型 Context Window 約為 2,000 個 Token（大約 1,500 個英文單詞）。像 Claude 3 這樣的現代模型可以處理 200,000 個 Token——相當於一本長篇小說。

更大的 Context Window 意味著模型可以維持更長的對話，分析更大的文件，並在生成回應時追蹤更多資訊。但這也需要更多運算，這就是為什麼 Context Window 大小仍然是一個活躍的研究領域。