湧現性小註解

上禮拜的 2026/6/11,我得到了第五十個專利。這是滿令人開心的一件事。不過呢,最近我對 AI 的每個想法,都有人做過了,下一個 idea 還難產中。這裡就來記錄一下我最近碰到的關卡 – 湧現性 (emergence)。

湧現性是什麼呢?所謂 “熟讀唐詩三百首,不會吟詩也會吟。" 說的就是湧現性。本來文采不豐富,做不出好詩。但是腦中塞滿名句之後,隨口就能湊出好句型。但沒有熟讀不算、沒有讀 300 首也不算 (精確來說是 311 首)。簡言之,1+1>2。

湧現性還表現在魚群和鳥群的行動上,一隻沙丁魚游泳看不出有何玄機,但是一萬隻沙丁魚聚在一起就會自動形成魚球,聚集上億隻就成了沙丁魚風暴 – Sardine Run。它呈現了整體性、無中央控制、量變產生質變這三種湧現性的特徵。

在 AI 上,有人試過把一段 Feed Forward Netowok 複製 8 份,各自打掉一些參數後重新訓練,他們就變成了 8 個專家 (Mixture of Experts) ,效果比原來還好。再更猛一點, LLM 也可以堆疊。法國知名 AI 新創 Mistral 推出的 Mixtral 8 x 7B 模型,其底層邏輯就是拿原本的 Mistral 7B 單一模型,複製 8 份作為專家再繼續訓練出來的 [1]。 這個專有名詞叫做 Upcycling (升級再造)。

LLM 複製 8 份之後,我們要在這些專家頭上各打一棍,讓他們產生不同程度失憶,然後叫他們重新上學。這條路線跟生物界不同的有兩點:(1) Model 要重新訓練,但侯鳥不用。(2) 需要一個 router 去指派 LLM,和 MOE 中指派 expert 的 router 一樣。而沙丁魚不用。

除了暴力打頭之外,也有和平的方法。我們不用重新訓練,只要調整一些參數,像是 temperature,然後叫這些個專家們討論,最後民主投票。這叫做 Ensemble (群體智慧 / 集成學習),主打三個臭皮匠勝過一個諸葛亮,減少幻覺的發生。這個和湧現沒有關係。

對於湧現的看法,有人 [2] 主張可以拆解回原型是弱湧現,不能拆解的是強湧現。例如魚群可能是靠著每隻 “單魚" 遵循 “和鄰魚保持等距" 這種簡單的原則就可以達成的。有人認為強湧性不合理,違反熱力學第二定律 – 封閉系統的 “熵" 只會愈來愈大。還好 AI 有重新訓練,那就不是封閉系統了。

回到湧現性這個話題。徐志摩說了 “數大便是美"。菲利普·安德森 (Philip W. Anderson) 說了 “More is Different" (多即是不同) [3]。不能拆解的湧現性是怎麼來的呢?都說生命的緣起是一堆高密度的氨基酸被雷打到。看來 “大" 加上 “觸發" 這兩個條件缺一不可。接下來如果用進化論來物競天擇,收斂的速度就不用說了,生物也會產生太多的可能性,那並不是我們需要的。現在 AI 的進步速度應該容忍不了以前基因演算法 [4] 的浪漫。

接下來,一定要拿同樣的 model 來敲頭嗎?一定要長一樣的面孔才可以民主投票嗎?都不用,OpenRouter 最近也發布了 Fusion Router,一種多模型融合推理工具。核心思路很直接,直接拿不同的 model 來投票。用一個綜合的裁判模型來選最後的答案,結果還比 Fable 5 好 [5, 如下表]。顯然的,這裡面冗餘的成分非常地高,好比投資只多賺了 10%,但是本金需要 2、3 倍。總之,能力在這裏面湧現了,即使它沒辦法通過愛因斯坦測試 [6]。

模型得分
Fable 5 + GPT-5.5(Opus 4.8 综合)69.0%
Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro(Opus 4.8 综合)68.3%
Opus 4.8 + GPT-5.5(Opus 4.8 综合)67.6%
Opus 4.8 + Opus 4.8(Opus 4.8 综合)65.5%
Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro (便宜模型抱團)64.7%
Claude Fable 565.3%
DeepSeek V4 Pro60.3%
GPT-5.560.0%
Claude Opus 4.858.8%
Kimi K2.653.7%
Gemini 3.1 Pro45.4%
Gemini 3 Flash43.1%

愛因斯坦測試不是一個考題,而是 Google DeepMind 執行長 Demis Hassabis 提出測試 AI 是否有真正智慧的方法。他說:"讓 AI 系統只學習 1901 年以前的知識,再測試它能否自行推導出愛因斯坦 1905 年的狹義相對論。" 這個驗收標準,其實有點離譜。如果你餵 AI 學 19 世紀的牛頓力學,它一丁點也想不出未來會有量子力學。我們需要通過許多關鍵的實驗來推翻舊理論、並建立新框架。而且舊理論往往並非全面崩塌,甚至在大部分的地方還是站得穩穩的,只是某些地方解釋不通而已 [7]。

[REF]

  1. https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
  2. https://en.wikipedia.org/wiki/Mark_Bedau
  3. https://www.science.org/doi/10.1126/science.177.4047.393
  4. 基因演算法
  5. https://www.cnblogs.com/itech/p/20581511
  6. https://www.inside.com.tw/article/41195-hassabis-proposes-einstein-test-to-define-agi-benchmark
  7. 馬克士威方程式(Maxwell’s equations)無法解釋量子尺度下的光子行為、單一磁單極子的存在、非慣性參考系中的電磁場變換,以及重力與強弱核力。馬克士威方程組是古典電動力學的核心,但在極端物理條件下必須由量子力學與相對論來擴充。
    • 以下是該方程組無法涵蓋的具體物理現象與範圍:
    • 1. 微觀的量子效應與光子
    • 馬克士威方程式將電磁場視為「連續的波」。
    • 量子電動力學(QED): 當探討單一電子或單一光子時,電磁波會展現出「粒子性」。連續的古典波動無法解釋光電效應、康普頓散射以及電磁場的量子漲落(Quantum Fluctuations)。
    • 2. 物質內部的非線性光學與量子極限
    • 強場光學與非線性現象: 在極強的雷射場作用下,介質的響應不再是線性的(例如倍頻效應),此時傳統的馬克士威方程式需結合量子光學來描述。
    • 3. 磁單極子(Magnetic Monopoles)
    • 高斯磁定律的限制: 方程組中的 \(\nabla \cdot \mathbf{B} = 0\) 表明磁力線必定是封閉的,代表磁單極子(單獨的N極或S極)不存在。現代粒子物理的部分大統一理論(GUT)預測磁單極子可能存在,但這超出了傳統馬克士威方程組的範圍。
    • 4. 強交互作用、弱交互作用與重力
    • 僅涵蓋電磁力: 自然界有四種基本交互作用,馬克士威方程式僅處理「電磁交互作用」。它無法解釋原子核內的強交互作用(夸克間的結合)、弱交互作用(如貝他衰變),以及愛因斯坦的廣義相對論所描述的重力場。
    • 5. 加速參考系中的電磁輻射
    • 局限於慣性系: 馬克士威方程組的標準形式主要適用於慣性參考系。在強重力場或高度加速的非慣性參考系中,必須透過彎曲時空的廣義相對論電動力學來修正描述。
    • 馬克士威方程式在巨集觀、低速或日常尺度的電磁現象中已極為完美,但在理解物質的微觀本質或宇宙極端現象時,則必須依賴更進階的物理理論。

發表留言