每個現代語言模型背後的秘密可以用一句話概括:預測下一個詞是什麼。 就這樣。其他一切——理解、推理、創造力——都從這個簡單的任務中湧現, 只是規模大到難以理解。

看似簡單的想法

考慮這個句子:"The cat sat on the ___"(貓坐在___上)

下一個詞是什麼?你可能想到了 "mat"(墊子)或 "floor"(地板)或 "couch"(沙發)。 你不會想到 "elephant"(大象)或 "syntax"(語法)或 "tomorrow"(明天)。為什麼? 因為你已經吸收了周圍語言的規律。你知道哪些詞往往會跟在其他詞之後。

這正是 LLM 所做的——但規模大到難以理解。 在訓練期間,模型看到數萬億個這樣的例子,從人類寫過的幾乎所有類型的文本中學習語言的統計規律。

運作原理

  1. 輸入:"The weather is" — 模型看到這段文字
  2. 預測:計算下一個詞的機率 — "nice"(40%)、"cold"(25%)、"hot"(15%)...
  3. 取樣:選擇一個詞(例如 "nice")— 輸入變成 "The weather is nice"
  4. 重複:每個新詞都成為下一次預測的上下文

Token:基礎元素

實際上,LLM 預測的是 Token, 比整個詞更小的單位。一個 Token 可能是一個詞、詞的一部分,甚至是標點符號。

Token 範例

"Hello"Hello

"incredible"incredible

"don't"don't

常見的詞通常是單個 Token。罕見或複雜的詞會被拆分成碎片。 這讓模型可以處理任何文本,即使是從未見過的詞,通過組合熟悉的碎片。

規模為何改變一切

這裡變得有趣了。訓練一個小模型來預測下一個 Token, 你會得到一個可以完成句子的東西——但僅此而已。輸出通常是無意義或重複的。

但增加模型大小(更多參數), 在更多資料上訓練,令人驚奇的事情發生了:模型開始展現出沒有明確訓練過的能力。

小模型

  • • 完成簡單句子
  • • 基本語法
  • • 有限的連貫性

大模型

  • • 多步驟推理
  • • 程式碼生成
  • • 翻譯、分析
  • • 創意寫作

注意力革命

使現代 LLM 成為可能的突破來自 2017 年的 Transformer 架構及其關鍵創新:注意力機制

之前的模型按順序處理文本——一個詞接一個詞。這使得捕捉長距離連接變得困難。 如果段落開頭的一個詞與理解結尾的一個詞相關,模型可能會失去這種連接。

注意力通過讓輸入中的每個位置直接「關注」其他每個位置來解決這個問題。 在預測下一個詞時,模型可以回顧任何之前的詞並衡量它的相關性。

範例:注意力的作用

"The cat, which had been sleeping in the warm sunlight all afternoon, finally _____"

為了預測下一個詞,模型最強烈地關注 "cat" 和 "sleeping"——而不是附近的 "afternoon" 或 "finally"。它理解句子結構,知道動詞應該與貓的行為相關 (如 "woke" 或 "stretched")。

Context Window

每個 LLM 都有一個 Context Window—— 它一次可以考慮的最大文本量。這以 Token 來衡量。

早期的 GPT 模型 Context Window 約為 2,000 個 Token(大約 1,500 個英文單詞)。 像 Claude 3 這樣的現代模型可以處理 200,000 個 Token——相當於一本長篇小說。

更大的 Context Window 意味著模型可以維持更長的對話,分析更大的文件, 並在生成回應時追蹤更多資訊。但這也需要更多運算,這就是為什麼 Context Window 大小仍然是一個活躍的研究領域。

重點摘要

  • LLM 透過一次預測一個 Token 來運作
  • Token 是文本的片段——詞、子詞或標點符號
  • 規模很重要:更大的模型展現湧現能力
  • 注意力機制讓模型捕捉長距離關係
  • Context Window 決定模型一次可以考慮多少文本

相關概念

Theme
Language
Support
© funclosure 2025