謎團
我們並不完全理解為什麼它有效
這裡有一個可能會讓你驚訝的坦白:建造這些系統的人並不完全理解它們如何運作。 不是說「我們不知道數學」——他們完全了解架構。 而是更深層的「為什麼這會產生智能?」
這仍然是一個謎。
湧現:沒人編程的能力
湧現能力 也許是 AI 中最令人驚訝的現象。這些是出現在較大模型中但沒有明確訓練的能力——它們就這樣出現了。
湧現的例子
思維鏈推理
較大的模型發現它們可以通過「逐步思考」來解決複雜問題—— 即使沒有人告訴它們這樣做。
上下文學習
向模型展示一個任務的幾個例子,它就可以執行那個任務——不需要任何訓練。 這種能力是在規模上湧現的。
從描述生成程式碼
訓練來預測文本的模型學會了從自然語言描述編寫功能性程式碼。 不需要特殊的編程訓練。
這使得很難預測未來模型會有什麼能力。它也引發了一個問題: 可能還有什麼其他能力會湧現,而我們還沒有發現——或者還沒有想到要測試?
可解釋性挑戰
現代 LLM 有數十億個參數——數值一起編碼了模型學到的一切。 但我們不能簡單地讀取這些數字來理解模型「知道」什麼。
複雜性的規模
GPT-4 估計有 1.7 萬億個參數。這大約是:
- • 人類大腦神經元數量的 200 倍
- • 老鼠大腦連接數量的 10 倍
- • 比 10,000 個銀河系的恆星數量還多
研究人員正在研究「可解釋性」——理解這些模型內部發生什麼的技術。 他們取得了進展:
- 發現了檢測特定概念的單個神經元
- 識別了執行特定操作的電路
- 視覺化了顯示模型關注什麼的注意力模式
但我們離完全理解還很遠。我們可以探測特定行為, 但我們無法完全解釋為什麼模型對特定問題給出特定答案。
我們不知道的
對任何聲稱完全理解 LLM 的人保持懷疑。這裡有真正的開放問題:
為什麼規模有效?
我們知道更大的模型更有能力,但我們沒有深入的理論理解為什麼。
極限是什麼?
擴展會繼續產生改進嗎?有根本極限嗎?沒有人知道。
是「理解」嗎?
哲學家和研究人員真正不同意 LLM 是否在有意義的意義上理解任何東西。
下一個會湧現什麼?
湧現能力很難預測。我們不知道更大的模型將能做什麼。
幻覺問題
我們不完全理解的最清楚症狀之一是 幻覺—— 當模型生成聽起來合理但完全虛假的資訊時。
幻覺範例
使用者:誰寫了論文「Deep Learning for Natural Language Understanding」?
模型:「這篇開創性的 2019 年論文由斯坦福大學的 James Chen 博士和 Sarah Mitchell 博士撰寫,發表在 Nature Machine Intelligence 上...」
這篇論文、這些作者和這些細節都不存在。模型編造了它們。
為什麼會發生這種情況?LLM 被訓練來產生合理的文本,而不是驗證事實。 它們沒有單獨的「事實核查」模組。當它們不知道某事時, 它們不會說「我不知道」——它們會生成如果它們知道的話會是合理答案的內容。
為什麼這很重要
我們不完全的理解有實際影響:
安全擔憂
如果我們不完全理解這些系統如何運作,就很難保證它們會安全地行為。 湧現能力可能包括我們沒有預料到的有害能力。
信任和驗證
當我們無法解釋為什麼模型給出特定答案時,我們怎麼知道何時信任它? 這在醫學、法律和其他高風險領域很重要。
系統性改進
沒有深入理解,進步部分依賴於試錯。 真正的理解會允許更有針對性的改進。
尋求理解
儘管有挑戰,研究人員正在取得進展:
- 機制可解釋性:逆向工程模型中的電路做什麼
- 縮放定律:模型大小和能力之間的數學關係
- 探測研究:測試什麼資訊編碼在哪裡
- 行為實驗:系統測試以描述能力和限制
理解可能會到來。但目前,我們處於一個非凡的位置: 使用我們建造但不完全理解的強大工具。
重點摘要
- 即使創造者也不完全理解為什麼 LLM 以這種方式運作
- 湧現能力在規模上不可預測地出現
- 可解釋性研究正在進展但遠未完成
- 幻覺揭示了與人類知識的根本差異
- 這種不確定性對安全和信任有實際影響