核心架構

Transformer

現代 LLM 底層的神經網路架構,由 Google 的 Vaswani 等人在 2017 年論文「Attention Is All You Need」中提出。與早期逐字處理文本的循環神經網路 (RNN) 不同,Transformer 使用注意力機制平行處理整個序列。這種平行化使訓練速度大幅提升,並更好地處理文本中的長距離依賴關係。

關鍵創新:Transformer 用自注意力機制取代了循環結構,讓序列中的每個位置都能同時關注其他所有位置。這種架構現在驅動著 GPT、Claude、Gemini、LLaMA 等幾乎所有前沿語言模型。

🔗 比喻:RNN 就像一個字一個字地閱讀一本書,同時試圖記住所有內容。Transformer 則像是把整本書攤開在桌上,讓你能立即看到任意兩段之間的聯繫。

Attention Mechanism(注意力機制)

一種讓模型在生成每個輸出時能動態關注輸入中最相關部分的技術。自注意力通過將每個輸入轉換為三個向量來計算序列中所有 token 之間的關係:

  • Query(查詢)— 我在找什麼?
  • Key(鍵)— 我包含什麼?
  • Value(值)— 我提供什麼資訊?

注意力分數決定了每個 token 應該對其他 token 產生多大影響。

Multi-head attention:現代 Transformer 使用多個平行的注意力「頭」,每個頭學習不同的關係模式。一個頭可能追蹤句法結構,而另一個頭捕捉語義意義。例如,GPT-2 每層使用 12 個注意力頭。


Parameters(參數)

定義 LLM 所學內容的數值權重。每個參數代表網路連接中的一個可調值,在訓練過程中調整以最小化預測錯誤。更多參數通常意味著更大的學習複雜模式的能力,但通過更好的架構或訓練資料,效率提升可以用更少的參數達到類似結果。

規模參考:

ModelParameters
GPT-2 (2019)1.5B
GPT-4 (估計)~1.7T
Mixtral 8x7B47B 總計,每個 token 13B 活躍

資料處理

Tokens

LLM 處理的基本文本單位——在詞彙量大小和序列長度之間取得平衡的子詞塊。現代分詞器不使用完整的詞或單個字元,而是將文本分割成有意義的子單位。這種方法通過將罕見詞拆分成熟悉的片段來處理,同時保持常見詞完整。

🔗 範例:"unhappiness" 可能被分詞為 ["un", "happi", "ness"]。"Hello, world!" 通常變成 4 個 token:["Hello", ",", " world", "!"]。GPT-4 使用約 100,000 個 token 的詞彙表;在英文中大約 1 個 token ≈ 0.75 個詞。

Context Window(上下文視窗)

LLM 可以同時考慮的最大文本量(以 token 計)。這定義了模型在單次互動中擁有多少「記憶」。更大的視窗能夠處理整本書、整個程式碼庫或長對話,但隨著注意力機制的平方增長而增加計算成本。

Context Window 的演進:

Model年份Context Window
GPT-320204K tokens
GPT-4 Turbo2023128K tokens
Gemini 1.5 Pro20241M tokens
Claude Sonnet 420251M tokens
Llama 42025最高 10M tokens

訓練流程

Pre-training(預訓練)

LLM 通過在大規模文本語料庫上預測下一個 token 來學習語言模式的基礎訓練階段——包括書籍、網站、程式碼庫和學術論文,共計數千億到數萬億個 token。這種自監督學習(不需要人工標籤)讓模型能夠隱式地獲得語法、事實、推理模式和世界知識。

🔗 核心洞察:Next-token prediction 看似簡單卻非常強大。為了準確預測下一個是什麼,模型必須隱式地學習語法、語義、事實、邏輯關係,甚至近似推理——這些都從這個簡單的目標中湧現出來。

RLHF(人類回饋強化學習)

一種通過訓練人類判斷而非預定義獎勵來使 LLM 與人類偏好對齊的技術。

過程:

  1. 收集人類對模型輸出的比較(哪個回應更好?)
  2. 訓練一個獎勵模型來預測人類偏好
  3. 使用強化學習(通常是 PPO)針對這個獎勵模型優化 LLM

為什麼重要:RLHF 將原始語言模型轉變為有用的助手。InstructGPT、ChatGPT 和 Claude 都使用 RLHF 的變體。它解決了「對齊」問題——讓 AI 系統做人類真正想要的事情,而不是字面上指定的事情。


能力與現象

Emergent Capabilities(湧現能力)

在較大模型中突然出現但在較小模型中不存在的能力——這些能力無法通過從較小規模的外推來預測。例子包括思維鏈推理、上下文學習和多步驟問題解決。

🔗 比喻:就像物理學中的相變——水不會「逐漸有點結冰」。同樣,模型可能通過內部表示的突然重組獲得能力,而不是平滑積累。

Hallucination(幻覺)

當 LLM 生成流暢且聽起來合理但實際上事實錯誤、沒有證據支持或完全捏造的內容時。

類型:

  • 內在幻覺:與提供的上下文中的資訊相矛盾
  • 外在幻覺:編造任何來源中都沒有的無法驗證的資訊

根本原因(2025 研究):幻覺現在被理解為系統性激勵問題——訓練目標獎勵自信的回應而非校準過的不確定性。模型學會「虛張聲勢」而不是承認無知,因為基準測試會懲罰「我不知道」的回應。


生成控制

Temperature(溫度)

控制輸出生成隨機性的參數。Temperature 在採樣前縮放可能的下一個 token 的機率分布。

Temperature行為使用場景
0.0確定性,最可能的 token事實問答、程式碼生成、結構化輸出
0.3-0.5平衡一般用途任務
0.7-1.0創意、多樣創意寫作、腦力激盪、多樣化選項
>1.0高度隨機實驗性,可能變得不連貫

架構與模型

Diffusion Models(擴散模型)

一種通過學習逐漸添加雜訊的逆過程來生成圖像(以及越來越多的影片)的技術。

訓練:模型學習逐步去噪圖像
生成:從純雜訊開始,在文字提示的引導下迭代細化成連貫的圖像

關鍵模型:

  • DALL-E 3 (OpenAI):文字轉圖像,與 ChatGPT 整合
  • Midjourney:以藝術風格化輸出聞名
  • Stable Diffusion 3 (2024):開源,使用 Transformer
  • Sora (2024):將擴散擴展到影片生成
🔗 比喻:就像雕塑家從一塊粗糙的大理石(雜訊)開始,逐漸雕刻以揭示雕像(圖像),文字提示則作為藍圖。

快速參考: Model Context Windows (2025)

ModelContext Window備註
GPT-5400K 輸入, 128K 輸出大輸出視窗用於長格式生成
GPT-4.11MAPI 存取
Claude Opus 4200K針對精確度優化
Claude Sonnet 41M從 200K 升級
Gemini 2.5 Pro1M (即將 2M)原生多模態
Llama 4 Maverick1M開放權重,MoE 架構
DeepSeek R1/V3128K強推理能力,開源

最後更新:2025 年 1 月

研究資料來源包括 arXiv 調查、同行評審出版物和行業文獻,包括:「大型語言模型中的湧現能力:調查」(2025)、「大型語言模型幻覺:綜合調查」(2025)、Hugging Face 文檔和模型技術報告。

探索學習之旅 →
Theme
Language
Support
© funclosure 2025