AI 概念 - LLM Bento

核心架構

Transformer

現代 LLM 底層的神經網路架構，由 Google 的 Vaswani 等人在 2017 年論文「Attention Is All You Need」中提出。與早期逐字處理文本的循環神經網路 (RNN) 不同，Transformer 使用注意力機制平行處理整個序列。這種平行化使訓練速度大幅提升，並更好地處理文本中的長距離依賴關係。

關鍵創新：Transformer 用自注意力機制取代了循環結構，讓序列中的每個位置都能同時關注其他所有位置。這種架構現在驅動著 GPT、Claude、Gemini、LLaMA 等幾乎所有前沿語言模型。

🔗 比喻：RNN 就像一個字一個字地閱讀一本書，同時試圖記住所有內容。Transformer 則像是把整本書攤開在桌上，讓你能立即看到任意兩段之間的聯繫。

Attention Mechanism（注意力機制）

核心洞見

一種讓模型在生成每個輸出時能動態關注輸入中最相關部分的技術。自注意力通過將每個輸入轉換為三個向量來計算序列中所有 token 之間的關係：

Query（查詢）— 我在找什麼？
Key（鍵）— 我包含什麼？
Value（值）— 我提供什麼資訊？

注意力分數決定了每個 token 應該對其他 token 產生多大影響。

Multi-head attention：現代 Transformer 使用多個平行的注意力「頭」，每個頭學習不同的關係模式。一個頭可能追蹤句法結構，而另一個頭捕捉語義意義。例如，GPT-2 每層使用 12 個注意力頭。

Parameters（參數）

驚奇誕生

定義 LLM 所學內容的數值權重。每個參數代表網路連接中的一個可調值，在訓練過程中調整以最小化預測錯誤。更多參數通常意味著更大的學習複雜模式的能力，但通過更好的架構或訓練資料，效率提升可以用更少的參數達到類似結果。

規模參考：

Model	Parameters
GPT-2 (2019)	1.5B
GPT-4 (估計)	~1.7T
Mixtral 8x7B	47B 總計，每個 token 13B 活躍

資料處理

Tokens

核心洞見

LLM 處理的基本文本單位——在詞彙量大小和序列長度之間取得平衡的子詞塊。現代分詞器不使用完整的詞或單個字元，而是將文本分割成有意義的子單位。這種方法通過將罕見詞拆分成熟悉的片段來處理，同時保持常見詞完整。

🔗 範例："unhappiness" 可能被分詞為 ["un", "happi", "ness"]。"Hello, world!" 通常變成 4 個 token：["Hello", ",", " world", "!"]。GPT-4 使用約 100,000 個 token 的詞彙表；在英文中大約 1 個 token ≈ 0.75 個詞。

Context Window（上下文視窗）

核心洞見

LLM 可以同時考慮的最大文本量（以 token 計）。這定義了模型在單次互動中擁有多少「記憶」。更大的視窗能夠處理整本書、整個程式碼庫或長對話，但隨著注意力機制的平方增長而增加計算成本。

Context Window 的演進：

Model	年份	Context Window
GPT-3	2020	4K tokens
GPT-4 Turbo	2023	128K tokens
Gemini 1.5 Pro	2024	1M tokens
Claude Sonnet 4	2025	1M tokens
Llama 4	2025	最高 10M tokens

訓練流程

Pre-training（預訓練）

誕生

LLM 通過在大規模文本語料庫上預測下一個 token 來學習語言模式的基礎訓練階段——包括書籍、網站、程式碼庫和學術論文，共計數千億到數萬億個 token。這種自監督學習（不需要人工標籤）讓模型能夠隱式地獲得語法、事實、推理模式和世界知識。

🔗 核心洞察：Next-token prediction 看似簡單卻非常強大。為了準確預測下一個是什麼，模型必須隱式地學習語法、語義、事實、邏輯關係，甚至近似推理——這些都從這個簡單的目標中湧現出來。

RLHF（人類回饋強化學習）

誕生

一種通過訓練人類判斷而非預定義獎勵來使 LLM 與人類偏好對齊的技術。

過程：

收集人類對模型輸出的比較（哪個回應更好？）
訓練一個獎勵模型來預測人類偏好
使用強化學習（通常是 PPO）針對這個獎勵模型優化 LLM

為什麼重要：RLHF 將原始語言模型轉變為有用的助手。InstructGPT、ChatGPT 和 Claude 都使用 RLHF 的變體。它解決了「對齊」問題——讓 AI 系統做人類真正想要的事情，而不是字面上指定的事情。

能力與現象

Emergent Capabilities（湧現能力）

核心洞見謎團

在較大模型中突然出現但在較小模型中不存在的能力——這些能力無法通過從較小規模的外推來預測。例子包括思維鏈推理、上下文學習和多步驟問題解決。

🔗 比喻：就像物理學中的相變——水不會「逐漸有點結冰」。同樣，模型可能通過內部表示的突然重組獲得能力，而不是平滑積累。

Hallucination（幻覺）

謎團

當 LLM 生成流暢且聽起來合理但實際上事實錯誤、沒有證據支持或完全捏造的內容時。

類型：

內在幻覺：與提供的上下文中的資訊相矛盾
外在幻覺：編造任何來源中都沒有的無法驗證的資訊

根本原因（2025 研究）：幻覺現在被理解為系統性激勵問題——訓練目標獎勵自信的回應而非校準過的不確定性。模型學會「虛張聲勢」而不是承認無知，因為基準測試會懲罰「我不知道」的回應。

生成控制

Temperature（溫度）

核心洞見

控制輸出生成隨機性的參數。Temperature 在採樣前縮放可能的下一個 token 的機率分布。

Temperature	行為	使用場景
0.0	確定性，最可能的 token	事實問答、程式碼生成、結構化輸出
0.3-0.5	平衡	一般用途任務
0.7-1.0	創意、多樣	創意寫作、腦力激盪、多樣化選項
>1.0	高度隨機	實驗性，可能變得不連貫

架構與模型

Diffusion Models（擴散模型）

超越文字

一種通過學習逐漸添加雜訊的逆過程來生成圖像（以及越來越多的影片）的技術。

訓練：模型學習逐步去噪圖像
生成：從純雜訊開始，在文字提示的引導下迭代細化成連貫的圖像

關鍵模型：

DALL-E 3 (OpenAI)：文字轉圖像，與 ChatGPT 整合
Midjourney：以藝術風格化輸出聞名
Stable Diffusion 3 (2024)：開源，使用 Transformer
Sora (2024)：將擴散擴展到影片生成

🔗 比喻：就像雕塑家從一塊粗糙的大理石（雜訊）開始，逐漸雕刻以揭示雕像（圖像），文字提示則作為藍圖。

快速參考: Model Context Windows (2025)

Model	Context Window	備註
GPT-5	400K 輸入, 128K 輸出	大輸出視窗用於長格式生成
GPT-4.1	1M	API 存取
Claude Opus 4	200K	針對精確度優化
Claude Sonnet 4	1M	從 200K 升級
Gemini 2.5 Pro	1M (即將 2M)	原生多模態
Llama 4 Maverick	1M	開放權重，MoE 架構
DeepSeek R1/V3	128K	強推理能力，開源