DeepSeek 重點分解 – MTP 小整理

先前分析了 V2 的主力武器, 但 V3 還是比 V2 厲害一截. 所以來談一下 V3 新增的 multi-token prediction (MTP). 雖然 V3 還有厲害的 pre-train 和 fine tune, 但那部份無法用數學或是圖形表示, 只好略過.

本圖取材自 https://github.com/deepseek-ai/DeepSeek-V3

顧名思義, multi-token prediction 就是一次預測好幾個 token. 問題來了, 究竟是一次預測好幾個 tokens (下圖左)?還是預測完一個繼續預測下一個 (下圖中)?還是一次預測好幾個又連續預測好幾步 (下圖右)?

本圖取材自 https://arxiv.org/html/2410.03132v3

其實眼尖一點就可以看到上圖右 (Ours) 一定是該論文認為最好的. 但是這種暴力美學好像跟 DeepSeek 省吃儉用的調性不合. 我們來看看下圖的 DeepSeek V3 架構又是怎做的?

本圖取材自 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

我們輸入的 token 是上圖下方的 input t1, t2, t3,… 這些 token, 預測的輸出是上圖上方的 t2, t3, t4….等. 如果我們放置愈多的 MTP module, 就可以預測更深的深度 (Depth). 例如 D = 2, 就是用 t1 預測 t2 和 t3, 用 t2 預測 t3 和 t4, 依此類推. D 愈大, 預測的深度就愈長, 因此它符合 MTP in a single step.

可是一次要預測好幾個 token, 計算不會很大嗎?PDF 提到, 圖裡面的 embedding layer, Output head 雖然畫了好幾個, 但他們都是公用的 (shared).

當我們預測 t2時, 看向上面圖中的 MTP module 1 . 它有且只有兩個輸入, 一個是 t2 經過 embedding, 一個是 t1 在 main Model 的產出物.

至於預測 t3時, 看向上面圖中的 MTP module 2. 它有且只有兩個輸入, 一個是 t3 經過 embedding, 一個是 t2 在 MTP Module 1 的產出物.

因此 D 愈大, 計算的確愈多, 並且有額外的 latency. 但是額外增加的幅度並不等效於再重複一次 main model. 而且這樣有一個好處, 就是 training 時可以好好吸收長距離依賴 (long-range dependencies), 因為它每個預測都以過去歷史為本, 不會即興創作.

至於 multi-token prediction in multiple steps (Autoregressive Chunking) 的方法, DeepSeek 認為在 inference 時確實比較好. 但是在 training 的時候, MTP in one step (Action Chunking) 比較能控制因果關係和長距離依賴.

好!不愛數學的可以停在這裡. 接下來是講公式的部份. 其實跟上面一模一樣, 只是 step 3 增加了以logits 做 softmax() 去字典找字.

Step 1: Combining Representations

For the 𝑖-th input token 𝑡𝑖 at the 𝑘th prediction depth:

  1. The representation of the 𝑖th token at the (𝑘−1)th depth, denoted as h𝑘−1i∈ ℝ^𝑑, is taken. If 𝑘 = 1, h𝑘−1𝑖 is the representation provided by the main model.
  2. The embedding of the (𝑖+𝑘)th token, Emb(𝑡𝑖+𝑘) ∈ ℝ^𝑑, is computed using the shared embedding layer.
  3. Both h𝑘−1𝑖 and Emb(𝑡𝑖+𝑘) are normalized using RMSNorm (Root Mean Square Normalization).
  4. The normalized representations are concatenated ([·; ·]) and linearly projected using the projection matrix𝑀𝑘 :
    • h′ki= Mk[RMSNorm(hk−1i); RMSNorm(Emb(ti+k))].
    • Here, h′𝑘𝑖 is the combined representation that serves as the input to the Transformer block at the 𝑘th depth.

Step 2: Transformer Block

The combined representation h′𝑘𝑖 is passed through the 𝑘th Transformer block (TRM𝑘(·)): h𝑘1:𝑇−𝑘 = TRM𝑘(h′𝑘1:𝑇−𝑘).

This produces the output representation h𝑘𝑖 for the 𝑖th token at the 𝑘th depth. The slicing operation 1:𝑇−𝑘 ensures that the sequence length is adjusted appropriately for each prediction depth.


Step 3: Output Head

The output representation h𝑘𝑖 is passed through the shared output head (OutHead(·)), which:

  1. Linearly maps h𝑘𝑖 to logits.
  2. Applies the Softmax function to compute the probability distribution over the vocabulary:𝑃𝑘𝑖+𝑘+1 = OutHead(h𝑘𝑖).
    • Here, 𝑃𝑘𝑖+𝑘+1 ∈ ℝ^𝑉 represents the probability distribution for the (𝑖+𝑘+1)th token, where 𝑉 is the vocabulary size.

最後一個重點來了. DeepSeek 只有在 training 的時候使用 one step MTP. 在 inference 的時候, 用的演算法又有不同. “We can also repurpose these MTP modules for speculative decoding (預言家, 投機演算法) [2] to further improve the generation latency."[1]

Training 的 loss function 計算也給出來了. 首先, 針對每個 depth (k) 都做計算, P 就是上面的 P. 最後把不同深度的 loss function 取平均值.

其中 𝜆 當然就是 weighting factor, 或是以前電力機械教授老包所說的 “那麼大”. γ𝜆 = “柑仔那麼大", 是我對這堂課最深的印象.

[REF]

  1. https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  2. https://hackmd.io/@shaoeChen/rJESTVr40

我讀 «張忠謀自傳» – 2

雖然前面講得好像張老的主管都是科技白癡, 但他們都有自己的想法. 海格底的失誤在於他看好自動化測試, 所以遲遲不願意在海外建立測試據點降低成本 – 很多年後還是建了. 夏伯特認為每個家庭都需要家庭電腦, 但這個想法超出當時 TI 的技術能力至少十年以上.

張老接手的消費者集團主要有三個產品: 消費者計算機 – 原本看起來可以賺大錢, 但是被金寶這些台灣公司打趴了; 科技計算機 – 能賺錢但量很小; 電子錶 – 虧損, 完全是惡性競爭. 開發中的產品則是教育玩具和家庭電腦.

張老說: “假使我那時 (1978 年) 有我現在的勇氣, 我會說取消家庭電腦案!" (p. 241) 1979 年 TI 的家庭電腦 TI-99/4 推出時, 售價 1,150 美元. 但沒有什麼 APP 可以用. 即使是 PC 的Windows 3.1 – 第一個比較堪用的版本也是 1992 年才問世. 回推 13 年的科技水準是怎麼樣呢? 1978 年最紅的電腦是王安電腦的文字處理機, 就是能編輯檔案而已.

家庭電腦賣不好, 敲響了張老在 TI 仕途的喪鐘. 1980 年張老改任 “品質與生產力總監". 此時張老 50 歲. 夏伯特在佈達的時候, 還是很給面子地說 “在品質上. Morris 代表我" (p.250). 於是乎張老就開始努力學品質. 他去跟當時的幾位品質大師上課. 像是戴明, 這位現在應該還有人記得.

畢竟他都代表總裁管理品質了, 當然是先花錢找大師學藝, 總不能直接跑去產線盯品質. 不過這段經歷確實影響了後來台積電的作風. 張老講的都是顛撲不破的大道理, 但另外一方面, GG 的人又公開但打馬賽克地吐槽產線文化, 彷彿是兩個平行宇宙. 哈!

總之, 張老送了上萬人去參加 Joseph Juran (裘蘭) 的品質課程. 雖然我不知道 TI 的良率因此提升了多少? 但 TI 的文件實在做得很厲害! 老闆彪夏也說張老已經放在對的位置上.

1981 年 TI 日本廠開始生產記憶體, 良率直接衝到 4~50%, 而休士頓廠只有 20% 多. 總裁夏伯特大感震驚, 叫張老想辦法改進良率. 張老研究之後, 認為日本廠學歷較高, 多數是大學畢業. 但美國廠招不到本科系的學生, 經歷也通常是修車之類的. 夏伯特對這個答案很不滿, “我要的是可以立刻改進良率的方案, 你的分析對我毫無用處." (p. 257)

夏伯特自己想到一招, 就是把日本廠長找來美國當廠長. 不過日本團隊適應不良, 最後紛紛請求調回日本. 這事大概讓張老再記一支小過. 但後來台積電都是這麼幹, 連廠線也要找高學歷本科系的. “諷刺地, 它成為我幾年後創辦台積電的靈感和憑藉." (p. 257)

1982 年 9 月, 張老已經把老闆得罪完了. 他的職級從 42 級降到 38 級. 於是張老決定要離職. 1983 年 10 月, 被綁的股票承購權已經拿到, 張老正式遞出辭呈, 當然老闆也不會留. 我們護國神山的大老, 在 51 歲時為了五斗米折腰, 真是英雄氣短xm,. 那包承購權大約 1~2M USD, 換算今天的購買力大概是 6~7M USD (Monica 說的), 真的很難不要.

略過細節不提, 張老下一份工作是 1984 年 1 月去通用器材當董事暨總經理暨營運長. 雖然入職時也是風風光光. 但 1985 年 8 月公司業績逆轉, 董事長 Frank G. Hickey (歇基) 找了前副總喬治來分散張老的管轄權. 後來雙方 (另一方兩個人) 矛盾愈來愈大, 歇基發新聞稿逼張老 “被辭職".

1983 年, 李國鼎政委曾力邀張老到台灣幫忙. 等到張老拿到他的 stock option, 台灣反而失聯了. 倒是 1985 年張老二度失業時, 李政委又來邀他當工研院院長. P. 304 說: “為什麼這次李政委冷淡, 對我至今是一個謎." 我猜可能是沒缺吧! 哈! 歷經幾番曲折, 張老當上了工研院院長.

張老在工研院院長任內, 打算推 3 大改革: (1) 十年內一半經費來自民間企業, (2) 衍生公司, 把人也移過去, (3) 每年考績最低 3% 員工留職查看. 當然, 這些政策不受官員和院民歡迎, 改革失敗! 我們李前總統不太喜歡他, 陳履安 (經濟) 部長不喜歡他, 底下的主力助手胡定華因為被俞國華院長認定張老需要留人, 所以不讓胡定華當交大校長. 胡定華知道了後憤而離職. 愈院長認為這是張老不擅處理人事, 對他評價不佳. 張老這次又差不多把人得罪光了, 1988 年決定請辭院長. 轉任無實權的董事長.

However, 張老剛接工研院的時候就負責設立台積電, 因此他就是官股的台積電董事長. 當時台積電前途未卜, 還沒有人想要搶這個位置. 何況成立台積電時很多人 (官) 就不看好, 民間也不願意投資. 如果不是飛利浦願意認股 27.6%, 恐怕都辦不起來. 在退無可退之下, 張老按照他的意志, 順利地把 TSMC 做成了台灣的第一. 1994 年台積電上市, 張老也辭去工研院董事長的職務.

我覺得自傳下冊, 張老走下坡又逆轉的這段故事最精彩. 以我的印象, 忘了是哪一頁. 書上有提到 TSMC 才是他可以自由發揮的空間. 上面不再有董事長指揮或怪罪, 官股民股都恨不得趕快套現脫手, 所以張老才能獲得經營上的自由. 台積電這部分當然占全書不少篇幅, 有機會大家可以自己去了解. 因為 TSMC 這麼出名, 除了本書之外, 各類訊息想必非常多又容易取得. 倒是張老一生曾有這麼多不順遂, 真是大大出乎我意料之外, 所以特別為它做個筆記.

我讀 «張忠謀自傳» – 1

我這才發現, 其實我沒有為本書的上冊寫過心得. 當時可能是想等下冊讀完一起寫吧?! 誰知這一等可不得了, 從 2018 等到 2024 年才出版. 等我有空讀它又已經是 2025 年了! 基本上, 下冊真的比較刺激, 來談談下冊吧!

在大家的印象中, 張老原本就是高材生, 以華人身分在美國頂級公司做到二把手. 然後又被政府請回來領導台積電, 後來變成護國神山. 這樣的人生勝利組好像不太能給我們什麼啟發? 就是讓我們羨慕和崇拜而已. However,…

如果看了自傳下冊就不會這樣想了. 張老自述他的職涯並不是一帆風順. 反倒是認為自己除了台積電之外, 幾乎每個工作都黯然收場. 若不是真有一身本事, 早就消失在世人眼中了. 所以我就專門談他的職涯吧, 且不談他的管理理念.

張老大學是讀機械, 應徵了福特汽車和希凡尼亞半導體. 前者開價月薪 479 美元, 後者開價 480 美元. 張老本想去福特, 不過這薪水比人家少 1 塊, 於是他打電話希望福特多少加 10~20 元. 但是福特對他的要求很不客氣, 叫他 “袂爽麥來". 所以張老只好憤而進入半導體業. [1]

因為隔行如隔山, 張老在希凡尼亞自修半導體三年. 不過這家公司的總經理自己說: “賣得出的東西我們做不出,我們做得出的東西我們賣不出。" [2]. 顯然這家公司也沒辦法待一輩子. 張老在 27 歲跳槽到 TI.

從 1958 年起的前 15 年, 是張老的上坡路. 其中 1961~1964 年, TI 送他去史丹佛全職全薪進修, 並取得電機工程博士學位. 雖然返回公司後, 原本的同事都高升了, 張老還是從鍺電晶體部研發經理做起, 一路立功晉升, 在 1972 年做到 TI 集團副總裁兼全球半導體事業集團總經理. 這年張老 41 歲.

張老從鍺部研發經理升官的關鍵是完成一個 IBM 的案子. 先前的研發處長和鍺電晶體總經理都搞不定. 拖了一年多. 張老學成述職後, 就收到這個大禮包. 真所謂是福不是禍, 是禍躲不過. 張老找一位他看好的助手 (在別的計畫), 在 2 個月內就做到可以量產.

於是, 張老最服氣的老闆 – 助理副總裁 James Reese (呂斯) 就宣布張老接任鍺部總經理, 管 3,000 人. 本書稱呂斯做 “最好的上司". 只不過這位老闆在 1967 年被罷黜, 他的上司換成 J. Fred Bucy (彪希). 張老不太喜歡這位主管, 這位也不欣賞張老.

張老對彪希的評價是, 對方在擔任半導體集團總經理前, 並沒有半導體經驗, 又不刻意努力學習. 對方能夠升上執行副總, 還不是靠張老在下面救了積體電路部. 嗯, 看起來兩人有點過節. 身為讀者而已, 我們就順便回顧一下張老的另一頁功勞簿.

積體電路的前負責人是 Statt (史厥特), 他原本是張老的下屬. 張老去唸書回來, 他已連升三級, 比張老高一階. 積體電路部的防守範圍是 bipolar (雙極), 雖然別家也做得風生水起, 但 TI 就是輸給摩托羅拉等對手. 於是這位長官也下了台, 換張老做做看.

張老怎麼做呢? 首先提升士氣, 然後 (1) 提升技術. 把 IC 設計工程師從 2~30 人增加到 4~50 人. (2) 提高良率. 當時業界的良率大概是 20% 左右. 張老覺得達拉斯晶圓廠環境亂糟糟的, 於是開了另外一個直接對他負責的休士頓廠和舊廠 PK. 結果新廠的良率直接上 40%, 舊廠也發憤圖強有顯著的進步. (3) 接 ASIC 生意提高單價, (4) 宣布每季減價.

由上面幾招看來, 張老的確是一步一腳印地做出貢獻. 那長官沒有輔導的功勞嗎? 下冊 p. 159 明確說到: “…我每天早上開技術會議, 有時彪希也來參加, 但他可以說完全不懂半導體技術, 所以在我們會議加忙遠勝過幫忙."

1972 年, 張老登上 TI 的事業高峰. 1972~1978 年則是他的高原期. 張老不認同 TI 做消費者產品 (和客戶競爭) 和記憶體, 但老闆興致勃勃. 張老升任半導體事業集團總經理後, 開發記憶體當然就是他的防守範圍. 由於公司主力分散兵力在 “消費者產品集團" 做計算機 (calculator), 所以記憶體部門人手有些不足, 1K 的記憶體始終做不出來.

張老上任後選擇跳過 1K, 直接做 4K. 結果兩年後 (1974) 做出來了, 並且達到市占率 50%. 張老把下一個目標定在 16K, 打算甩開對手. 結果不幸地 16K 難產, Mostek 搶走市場. 彪希和董事長 Mark Shepherd (夏伯特) 開始懷疑張老的能力, 1976 年決定成立另外一個團隊抄 Mostek. 1977 年, 負責抄對手的團隊已經可以量產, 但張老這邊還是卡關, 於是他就開始黑了.

黑歸黑, 張老還是帶領他的團隊再直攻 64k 雪恥. 最後不但領先對手, 而且產生許多強大的專利. P. 205 寫道: “64K 的成功來得太晚, 第一批成功的樣品出來時, 我已被調任消費者產品總經理, 但我收到一封 64K 團隊連署的非常溫暖的信, 告訴我第一批樣品已做出, 全信語氣把我視為與他們同在一條陣線上的戰友, 而不只是前任上司, 這是最使我感動的一刻."

書上提到: 張老認為 TI 開發自己的技術是對的. 若不是用自己的技術做出 64K, TI 在 80、90 年代業績不振時, 哪有辦法靠收專利授權過活? 即使他非常不看好 TI 做記憶體, 他還是奉命執行了, 做不好再怪他, 張老也心存埋怨.

1978~1980 年被張老視為下山驛站. 他在 16 K 記憶體失利後, 長官們認為他策略錯誤. 彪夏在張老出差時, 對他的下屬批評張老領導不夠強力. 而更上級的夏伯特則是在聽完整天簡報後, 問他 “你們真的在做 64K 嗎?" 言下之意是懷疑張老做不出 16K, 所以弄個假議題維持人力吧. 既然上面兩層主管都不挺, 張老在 1977 年底自請離職.

彪夏和夏伯特討論之後, 給張老兩個選擇. 一是做消費者產品集團總經理, 另一個是 “公司成長" 資深副總裁. 由於張老不喜歡當幕僚, 所以選了他不看好的消費者產品主管. 不喜歡怎麼能做得好呢? 於是後面果然就一路向下了.

[REF]

  1. 張忠謀赴台大演講 親曝自己當年第1份工作為何選希凡尼亞!不選福特汽車
  2. 張忠謀曝當年挫折:股東客戶都覺得我做得好,卻仍被迫離職

DeepSeek 重點分解 – MOE 小整理

DeepSeek 另外一個重點是 MOE (mixure of Expert). 從抽象觀念來理解, 就是說: 既然 Model 裡面有很多個 Expert, 問問題的時候, 只要把特定的專家叫起來回答就可以省能量, 加快反應速度.

LLM 的專家能力體現在 feed forward network (FFN) 這個部分. 以我的理解來說, 過去我們認為的類神經網路的確可以存儲知識, 只是差在沒有 transformer 來理解和表達語意. 人類的大腦也是分化為很多特定區域 [1], 因此動腦的時候的確不需要火力全開. 把 model 分為多個 expert 是很直覺的事.

好, 那麼誰決定選哪一些 expert 起來工作呢? 我們把它叫做 routed expert. 這個路由專家根據 input 把負責 sub-network 的串起來. 不過, 萬一串錯了, 雞同鴨講怎麼辦? 沒關係, 還有 shared expert, 它其實是個通才.

在下面的式子中, ut 代表第 t 個 token 對 FFN 的輸入. FFN(s) 代表 shared expert FFN, FFN(r) 代表 routed expet FFN, 看起來雖然有一點小複雜, 但其實 ht‘就是原始輸入 + routed FFN + shared FFN.

要加哪幾個 routed expert, 取決於 gi,t, 這個是什麼呢? 我們先解釋一下 e, 其他就很好理解了. e 表示 expert 的質心 (the centroid of the routed expert), 可以理解為 expert 的 “代表矩陣". 可能就像我們以前做 clustering, 每個 cluster 都要有一個中心 mean, 這樣才能分群.

當輸入 uT和 e 做矩陣相乘, 直覺可以知道它在判斷輸入 u 和 expert e 是否相似? si,t 就是這個輸出的 softmax 正規化. 既然有值就可以比大小, 最大的 k 個 (top k) si,t 個專家, gi,t不等於 0 就表示會被召喚.

到目前為止, 一切都很直覺. DeepSeek 最厲害在哪裡呢? 除了它把專家切得很細, 還要求挑選的專家要跨 device 做 load-balance. 當 device 數 >= 3, 效果會比較好. 為什麼要搞這個呢? 我認為就是美國不賣它厲害的 GPU 嘛! 每個 GPU 的 memory 都有限制, 所以當然產生了 3 個臭皮匠勝過一個諸葛亮的架構!

為了防止只有某幾個臭皮匠過勞, 或是臭皮匠集中在一起產生工作熱區, 或是遠距溝通但產生通訊熱區. DeepSeek 設計了一些 load balance 的機制. 因此我認為老美的管制是有效的. 如果有水冷的高級 GPU array 和 NPU, 基本上錢砸下去就有了. 因此相關的段落可以跳過. 但是 token dropping [2] 的部分值得一提.

即使上面已經盡力去做 load balance, 還是有可能某些 device 在 “訓練時" 超過運算 budget. 此時就把最沒有親和力 (affinity score, 與上下文相關性) 的 token 丟掉, 丟到平衡為止. 同時又保證至少 training sequence 中的 10% 絕對不能丟.

we drop tokens with the lowest affinity scores on each device until reaching the computational budget. In addition, we ensure that the tokens belonging to approximately 10% of the training sequences will never be dropped. 

有了 MLA 和 MOE, DeepSeek 的兩大武器都稍微提到了. 隱藏在演算法後面的, 算是人海戰術清理訓練資料吧? Microsoft 的 PHI-2 系列就證明過: 只學有用的東西就好, 叫 AI 學一堆垃圾, 卻硬要訓練到收斂根本不環保. 下面稍微列出該論文 [3] 對 pre-trained 下的功夫, 我對於 DeepSeek 的追蹤就暫時告一段落.

While maintaining the same data processing stages as for DeepSeek 67B 
(DeepSeek-AI, 2024), we extend the amount of data and elevate the data quality. In order to enlarge our pre-training corpus, we explore the potential of the internet data and optimize our cleaning processes, thus recovering a large amount of mistakenly deleted data. Moreover, we incorporate more Chinese data, aiming to better leverage the corpus available on the Chinese internet. In addition to the amount of data, we also focus on the data quality.

We enrich our pre-training corpus with high-quality data from various sources, and meanwhile improve the quality-based filtering algorithm. The improved algorithm ensures that a large amount of non-beneficial data will be removed, while the valuable data will be mostly retained. In addition, we filter out the contentious content from our pre-training corpus to mitigate the data bias introduced from specific regional cultures. A detailed discussion about the influence of this filtering strategy is presented in Appendix E.

[REF]

  1. 我讀 «大腦超載時代的思考學» – 2
  2. C. Riquelme, J. Puigcerver, B. Mustafa, M. Neumann, R. Jenatton, A. S. Pinto, D. Keysers, and N. Houlsby. Scaling vision with sparse mixture of experts.In Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, NeurIPS 2021, pages 8583–8595
  3. https://arxiv.org/html/2405.04434v5

DeepSeek 重點分解 – MLA 小整理

DeepSeek [1] 重點之一是 MLA (Multi-head Latent Attention) . 它可以單獨使用. 解釋它時, 若和 MHA (Multi-Head Attention) 對比會更好理解, 所以先回顧一下 MHA.

1. 原始的注意力計算

一般的注意力機制中, 主要有 q、k、v 三個矩陣. 分別代表 query, key, 和 value. W 是權重矩陣, h 是 hidden state. 下標 t 表示第 t 個 token.

加入多頭機制後: d 是 embedded dimension, nh = attension head 數, , dh 是每個 head 的 dimension. 其中 d = nh * dh , j 是從第一個到第 t 個 token 的 index, i 是第一到第 nh 個 head 的 index.

Attention o 當然也分為第幾個頭的第幾個 token. 故表示為 ot,i. 同樣多頭都用 o 權重矩陣 Wo 轉出 output ut.

一般認為 k, v 的值太多, 是造成計算量和記憶體過多的元凶. 但是不記住這些東西, transformer 就發揮不出造句的能力. 科學家想了各種解法想要簡化 k,v. 但是操作不好就會降低 LLM 的性能. DeepSeek 使用的 MLA 看起來可以兩全其美.

2. MLA 中的計算流程

2.1 Low-Rank Key-Value Joint Compression

在 MLA 中, 首先對 hidden state 壓縮. 從前面的 MHA 的段落可以得知, q, k, v 共用 hidden state 但不共用權重. 那麼我們壓縮 h 再還原就可以節省參數量了. c 矩陣由 ht 乘 WDKV 而來. 顧名思義, D 代表 down projection, kv 矩陣意義跟先前相同. 做完下投影再做上投影, 理解為壓縮解壓縮即可. 所以 WUK 還原 k, WUV 還原 v. 其中 U 就代表 up projection.

我們已經知道這是濃縮再還原的果汁. 為了確定風味不變太多. 損失的部分要要別的方法補回來. 甚至 DeepSeek 為了減少 active node, 連你問的問題 q = query 都壓縮了. 這個猛! 表示我跟它說 “請、謝謝、對不起" 都是多餘的.

2.2 Decoupled Rotary Position Embedding

上面那招還不是全貌. 但是要講第二招就要先講 RoPE (Rotary Position Embedding) [2]. 我們知道原本 transformer 就要記錄 token 的相對位置關係. 畢竟"你愛我" 跟 “我愛你" 是兩碼子事. RoPE 這個演算法就是用來把位置編碼專屬的維度給省了, 但它結 “繩" 記事, 還記得相對位置.

不過這招和 2.1 壓縮那招有衝突, 壓縮完再解壓就不符合交換律. 所以又衍生出 decouple 的輔助算法, 再浪費一點空間. 為 RoPE 額外產生的 dimension 為 dhR. 多出來的 qtR 和 ktR 加在原來的矩陣後面. 式子大致上都一樣.

3. 效能比較

假如我們比對 MHA 和 MLA, 就會發現它的 KV cache 比較少, 而且實測效果更好. 至於 GQA 和 MQA 是來陪榜的. 用論文 [1] 中的圖解帶過.

[REF]

  1. https://arxiv.org/abs/2405.04434
  2. . J. Su, M. Ahmed, Y. Lu, S. Pan, W. Bo, and Y. Liu.Roformer: Enhanced transformer with rotary position embedding.Neurocomputing, 568:127063, 2024.