上禮拜的 2026/6/11,我得到了第五十個專利。這是滿令人開心的一件事。不過呢,最近我對 AI 的每個想法,都有人做過了,下一個 idea 還難產中。這裡就來記錄一下我最近碰到的關卡 – 湧現性 (emergence)。
湧現性是什麼呢?所謂 “熟讀唐詩三百首,不會吟詩也會吟。" 說的就是湧現性。本來文采不豐富,做不出好詩。但是腦中塞滿名句之後,隨口就能湊出好句型。但沒有熟讀不算、沒有讀 300 首也不算 (精確來說是 311 首)。簡言之,1+1>2。
湧現性還表現在魚群和鳥群的行動上,一隻沙丁魚游泳看不出有何玄機,但是一萬隻沙丁魚聚在一起就會自動形成魚球,聚集上億隻就成了沙丁魚風暴 – Sardine Run。它呈現了整體性、無中央控制、量變產生質變這三種湧現性的特徵。
在 AI 上,有人試過把一段 Feed Forward Netowok 複製 8 份,各自打掉一些參數後重新訓練,他們就變成了 8 個專家 (Mixture of Experts) ,效果比原來還好。再更猛一點, LLM 也可以堆疊。法國知名 AI 新創 Mistral 推出的 Mixtral 8 x 7B 模型,其底層邏輯就是拿原本的 Mistral 7B 單一模型,複製 8 份作為專家再繼續訓練出來的 [1]。 這個專有名詞叫做 Upcycling (升級再造)。
LLM 複製 8 份之後,我們要在這些專家頭上各打一棍,讓他們產生不同程度失憶,然後叫他們重新上學。這條路線跟生物界不同的有兩點:(1) Model 要重新訓練,但侯鳥不用。(2) 需要一個 router 去指派 LLM,和 MOE 中指派 expert 的 router 一樣。而沙丁魚不用。
除了暴力打頭之外,也有和平的方法。我們不用重新訓練,只要調整一些參數,像是 temperature,然後叫這些個專家們討論,最後民主投票。這叫做 Ensemble (群體智慧 / 集成學習),主打三個臭皮匠勝過一個諸葛亮,減少幻覺的發生。這個和湧現沒有關係。
對於湧現的看法,有人 [2] 主張可以拆解回原型是弱湧現,不能拆解的是強湧現。例如魚群可能是靠著每隻 “單魚" 遵循 “和鄰魚保持等距" 這種簡單的原則就可以達成的。有人認為強湧性不合理,違反熱力學第二定律 – 封閉系統的 “熵" 只會愈來愈大。還好 AI 有重新訓練,那就不是封閉系統了。
回到湧現性這個話題。徐志摩說了 “數大便是美"。菲利普·安德森 (Philip W. Anderson) 說了 “More is Different" (多即是不同) [3]。不能拆解的湧現性是怎麼來的呢?都說生命的緣起是一堆高密度的氨基酸被雷打到。看來 “大" 加上 “觸發" 這兩個條件缺一不可。接下來如果用進化論來物競天擇,收斂的速度就不用說了,生物也會產生太多的可能性,那並不是我們需要的。現在 AI 的進步速度應該容忍不了以前基因演算法 [4] 的浪漫。
接下來,一定要拿同樣的 model 來敲頭嗎?一定要長一樣的面孔才可以民主投票嗎?都不用,OpenRouter 最近也發布了 Fusion Router,一種多模型融合推理工具。核心思路很直接,直接拿不同的 model 來投票。用一個綜合的裁判模型來選最後的答案,結果還比 Fable 5 好 [5, 如下表]。顯然的,這裡面冗餘的成分非常地高,好比投資只多賺了 10%,但是本金需要 2、3 倍。總之,能力在這裏面湧現了,即使它沒辦法通過愛因斯坦測試 [6]。
| 模型 | 得分 |
|---|---|
| Fable 5 + GPT-5.5(Opus 4.8 综合) | 69.0% |
| Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro(Opus 4.8 综合) | 68.3% |
| Opus 4.8 + GPT-5.5(Opus 4.8 综合) | 67.6% |
| Opus 4.8 + Opus 4.8(Opus 4.8 综合) | 65.5% |
| Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro (便宜模型抱團) | 64.7% |
| Claude Fable 5 | 65.3% |
| DeepSeek V4 Pro | 60.3% |
| GPT-5.5 | 60.0% |
| Claude Opus 4.8 | 58.8% |
| Kimi K2.6 | 53.7% |
| Gemini 3.1 Pro | 45.4% |
| Gemini 3 Flash | 43.1% |
愛因斯坦測試不是一個考題,而是 Google DeepMind 執行長 Demis Hassabis 提出測試 AI 是否有真正智慧的方法。他說:"讓 AI 系統只學習 1901 年以前的知識,再測試它能否自行推導出愛因斯坦 1905 年的狹義相對論。" 這個驗收標準,其實有點離譜。如果你餵 AI 學 19 世紀的牛頓力學,它一丁點也想不出未來會有量子力學。我們需要通過許多關鍵的實驗來推翻舊理論、並建立新框架。而且舊理論往往並非全面崩塌,甚至在大部分的地方還是站得穩穩的,只是某些地方解釋不通而已 [7]。
[REF]
- https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
- https://en.wikipedia.org/wiki/Mark_Bedau
- https://www.science.org/doi/10.1126/science.177.4047.393
- 基因演算法
- https://www.cnblogs.com/itech/p/20581511
- https://www.inside.com.tw/article/41195-hassabis-proposes-einstein-test-to-define-agi-benchmark
- 馬克士威方程式(Maxwell’s equations)無法解釋量子尺度下的光子行為、單一磁單極子的存在、非慣性參考系中的電磁場變換,以及重力與強弱核力。馬克士威方程組是古典電動力學的核心,但在極端物理條件下必須由量子力學與相對論來擴充。
- 以下是該方程組無法涵蓋的具體物理現象與範圍:
- 1. 微觀的量子效應與光子
- 馬克士威方程式將電磁場視為「連續的波」。
- 量子電動力學(QED): 當探討單一電子或單一光子時,電磁波會展現出「粒子性」。連續的古典波動無法解釋光電效應、康普頓散射以及電磁場的量子漲落(Quantum Fluctuations)。
- 2. 物質內部的非線性光學與量子極限
- 強場光學與非線性現象: 在極強的雷射場作用下,介質的響應不再是線性的(例如倍頻效應),此時傳統的馬克士威方程式需結合量子光學來描述。
- 3. 磁單極子(Magnetic Monopoles)
- 高斯磁定律的限制: 方程組中的 \(\nabla \cdot \mathbf{B} = 0\) 表明磁力線必定是封閉的,代表磁單極子(單獨的N極或S極)不存在。現代粒子物理的部分大統一理論(GUT)預測磁單極子可能存在,但這超出了傳統馬克士威方程組的範圍。
- 4. 強交互作用、弱交互作用與重力
- 僅涵蓋電磁力: 自然界有四種基本交互作用,馬克士威方程式僅處理「電磁交互作用」。它無法解釋原子核內的強交互作用(夸克間的結合)、弱交互作用(如貝他衰變),以及愛因斯坦的廣義相對論所描述的重力場。
- 5. 加速參考系中的電磁輻射
- 局限於慣性系: 馬克士威方程組的標準形式主要適用於慣性參考系。在強重力場或高度加速的非慣性參考系中,必須透過彎曲時空的廣義相對論電動力學來修正描述。
- 馬克士威方程式在巨集觀、低速或日常尺度的電磁現象中已極為完美,但在理解物質的微觀本質或宇宙極端現象時,則必須依賴更進階的物理理論。