Uncategorized – Cash Chou's Blog

古風 Manifold 小筆記

文天祥的正氣歌 [1] 說："天地有正氣，雜然賦流形。" 這個 “流形" 就是 Manifold 的中文翻譯。後兩句 “下則為河嶽" 就是說一般人站在地球上，還以為地球是平的，"上則為日星" 就是抬頭一看，感到世界大到甚至不只是 3D。

正經地說，流形是一個局部看起來像歐幾里得空間（平坦的空間），但整體結構可能非常複雜且彎曲的拓樸空間。一張 1024×1024 的彩色照片，在數學上是一個高達 300 萬維度的空間，但「有意義的貓狗照片」只佔據這個 300 萬維空間裡一個極小的低維流形，不是每個空間中的值都有特殊意義。這種群聚就像是太陽系裡面的星球彼此靠得很"近"，若是出了太陽系，宇宙就顯得很稀疏，直到遇到其他星系。

對 AI 來說，世界模型充滿雜訊且計算量太大。模型會透過編碼器（Encoder），將高維的觀測數據「壓縮」並映射到一個低維度的潛在空間（Latent Space）中。這個潛在空間本質上就是在捕捉數據所在的流形。一旦 AI 掌握了這個低維流形的潛在空間，它就能在這個平滑、連續的流形上做計算。這也可以解釋 transformer – encoder、decoder 為何會有用。

當初 DeepSeek 出來的時候，也用上了 latent space 壓縮的技術。我當時想，做完這個 lossy 的壓縮，雖然節省計算量，但是資訊丟掉就回不來了啊!? 因為那個 monent 我還沒有流形的觀念；如果有，我就不用緊張了。

在數學上，流形不一定可以微分。但是要訓練 AI ，就要計算梯度。因此我們只能假設它可以被微分，也就是要假裝它更平坦一點。因此就算真實的流形不可微，我們也得製造出一個可微分的流形。所謂 “人心惟危，道心惟微" [2]，人類明明知道會有危險的奇點 (Singularity)，但是演算法只能讓它可微分。以目前 AI 強大的戰力來看，這個有意的忽略，似乎影響不大。

[REF]

PPO 小註解

Proximal Policy Optimization 是一個 fine-tune Model 的方式, 另一個主流方式是 DPO (Direct Preference Optimization). 這邊主要是整理課程影片中 PPO 的公式 (只用大約 2 分鐘超高速閃過…), 以便有空時可以查詢.

[基本架構]

有一個 LLM model, 和可調整的參數: θ, query: X, response: Y, 所有輸出入組合 rollout 表示為 (X, Y).

因為我們要微調這個 model, 所以要給一個獎勵函數 (reward function): r(X,Y), 用來調整模型 π_θ (X,Y).

獎勵是對所有輸出的 Y 取期望值

E_{Y~πθ (X,Y)} [r(X,Y)], 其中 Y~π_θ (X,Y), 表示 Y 在 π_θ (X,Y) 的輸出組合.

也對每個 query X 計算

E_X~D[E_{Y~πθ (X,Y)} [r(X,Y)]] ——————— (1)

其中 X_~D, D 表示 X 的散度 (Divergence), 依此類推.

我們找出一個得到最多獎勵的那組參數, 就算是 fine-tune 完成.

π_* (X,Y) = arg max_π {E_X~D[E_{Y~πθ (X,Y)} [r(X,Y)]]}, {} 裡面就是上面那包.

[Reference model]

做得好不好, 我們要有一個 reference model 來當評審.

π_ref (X,Y)

Model 的輸出愈接近 reference model 就表示學得愈好.

[懲罰值]

KL 是 Kullback-Leibler 兩個人名的縮寫. KL penality coefficient 是它們衡量懲罰的函數. 基於 reference model π_ref (X,Y) 下, 對 π_θ (X,Y) 產生的懲罰 D_KL 表示為

D_KL[π_θ (X,Y) || π_ref (X,Y)]

[綜合期望值和懲罰值]

π_* (X,Y) = arg max_π {E_X~D[E_{Y~πθ (X,Y)} [r(X,Y)]] – β * 懲罰值} =>

π_* (X,Y) = arg max_π {E_X~D[E_{Y~πθ (X,Y)} [r(X,Y)]] – β D_KL[π_θ (X,Y) || π_ref (X,Y)]}

為了要知道往哪個方向調整, 我們要找 θ 的梯度.

[只看 reward function]

這是 reward function 在特定 model 參數 θ 的期望值

E[r_Y|θ] = E_{Y~πθ (X,Y)} [r(X,Y)]

將它表示為解析函數 [1], 期望值等於所有 Y 可能的值乘上它的機率的和

E[r_Y|θ] = ∑_Y r(X,Y)π_θ (Y|X) —— (2)

最優化的參數 θ⌃ 就是所有 θ 中 reward 最好的. (我打不出 hat theta, 所以把帽子放右邊)

θ⌃ = arg max_θ [E[r_Y|θ]] = arg max_θ [∑_Y r(X,Y)π_θ (Y|X)]

對式子 (2) 取 θ 的梯度,

∇_θ E[r_Y|θ] = ∑_Y r(X,Y) ∇_θ π_θ (Y|X)] ——– (3)

按照微積分的 chain rule [3]

∇_θ log (π_θ (Y|X)) = ∇_θπ_θ (Y|X) / π_θ (Y|X) =>

∇_θπ_θ (Y|X) = ∇_θ log (π_θ (Y|X)) * π_θ (Y|X) —– (4)

把這個變長的 (4) 帶回去 (3),

∇_θ E[r_Y|θ] = ∑_Y r(X,Y) ∇_θ π_θ (Y|X)] =>

∇_θ E[r_Y|θ] = ∑_Y r(X,Y) ∇_θ log (π_θ (Y|X)) * π_θ (Y|X) =>

∇_θ E[r_Y|θ] = E_{Y~πθ (Y|X)} r(X,Y) ∇_θ log (π_θ (Y|X))

再把 X 考慮進去, 就得到

E_x~D [∇_θ E[r_Y|θ] ] = ∇_θ E_x~D [ E[r_Y|θ] ]

意思是說, 當 β = 0, 忽略掉懲罰的話, 對式子 (1) 取梯度, 等效只對 reward function 取梯度. 反之亦然.

這有什麼意義呢? 我請 AI 幫我解釋. 我試了幾次都沒有它講得好.

∇_θ E[r_Y|θ] = E_{Y~πθ (Y|X)} r(X,Y) ∇_θ log (π_θ (Y|X)) 這個結果是 策略梯度定理（Policy Gradient Theorem）[2] 的核心公式。其意義在於：

將梯度轉換為期望形式：原始梯度需遍歷所有可能的輸出 ∇_θY（計算量巨大），但此公式表明：梯度可通過從策略 π_θ 中採樣 Y 來近似計算。
避開解析計算：無需知道所有 Y 的機率分佈，只需對採樣的 Y 計算 r(X,Y) ∇_θ log (π_θ (Y|X)) 的平均值。

它與 Monte Carlo Method 的相似處在於: 透過採樣直接估計期望值，無需精確計算所有可能的 Y.

蒙特卡羅方法收斂速度為 O(1/√N), N 夠大就好. 而窮舉法不可行.

最後再筆記一下懲罰項.

Kullback-Leibler 方法其實是要避免訓練後新的參數和舊的參數偏差太遠. 以至於學會新的東西就忘了舊的 – 災難性遺忘 (Catastrophic Forgetting), 和 reward 無關. 因此討論原理時可以忽略它.

但它對於穩定系統非常重要, 其主要角色是作為正則化項 (Regularizer), 將策略更新限制在信賴域 (Trust Region) 內. 在PPO算法中，KL 散度還會動態調整更新步長. 當 D_KL 超過閾值時自動縮小學習率，此設計本質上將 “避免遺忘" 和 “促進學習" 綁定為同一過程。

[REF]

GGUF 小註解

拜台幣升值 10% 左右之賜, 我在 Q2 的投資差點要 GG. 我期望不高, 只要月底能跟 Q1 對齊, 也算是有 10% 看不見的成長了. 在這混亂的國際局勢下, 我來筆記一下 GGUF. 它不是 “GG, U Failed" 的縮寫! 而是全名 GPT-Generated Unified Format, 一個為了 LLM 推理而設計出的檔案格式.

一般我們去 Huggingface 下載一個模型, 它會可能是 .bin 檔, safetensor 檔, 或是 ONNX 檔. 以 safetensor 而言, 裡面放的是模型未量化過的模型權重. 至於 model 的架構（graph 長相), 會另外寫在 config.json 裡面. 雖然這個檔案名稱也通用於很多其他的地方, 這裡特別是指用來描述模型的 config.json.

例如 Gemma-2-2B 的 config.json [1] :

{
  "architectures": [
    "Gemma2ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "attn_logit_softcapping": 50.0,
  "bos_token_id": 2,
  "cache_implementation": "hybrid",
  "eos_token_id": 1,
  "final_logit_softcapping": 30.0,
  "head_dim": 256,
  "hidden_act": "gelu_pytorch_tanh",
  "hidden_activation": "gelu_pytorch_tanh",
  "hidden_size": 2304,
  "initializer_range": 0.02,
  "intermediate_size": 9216,
  "max_position_embeddings": 8192,
  "model_type": "gemma2",
  "num_attention_heads": 8,
  "num_hidden_layers": 26,
  "num_key_value_heads": 4,
  "pad_token_id": 0,
  "query_pre_attn_scalar": 256,
  "rms_norm_eps": 1e-06,
  "rope_theta": 10000.0,
  "sliding_window": 4096,
  "torch_dtype": "float32",
  "transformers_version": "4.42.4",
  "use_cache": true,
  "vocab_size": 256000
}

使用 GGUF 就不用單獨的 config.json 了, 但是生成 GGUF 的時候還是需要. 所以從Huggingface 下載 GGUF 時看到 config.json 也不用太驚訝. 總之, GGUF 檔案裡面除了放模型的權重, 還放了超參數和詞彙表. 所謂超參數就是模型訓練中需要手動設定、無法透過模型訓練的參數 – 這些就是從 config.json 抄過來的.

至於詞彙表 (Vacabulary) 裡面就是放所有 toekn 的字典. 它有一點大, 但不會太大. 假設u有個模型認得 128K 個 token (大約是 GPT-4 的用量), 每個 token 長度 4 bytes, 算起來才 5.1MB, 比起模型權重動輒就是幾 GB, 真的也不差多哪一點.

GGUF 把這些都打包起來, 使用時就不用東市買駿馬，西市買鞍韉，南市買轡頭，北市買長鞭. 假設要量化參數, 下個指令轉出新的 .gguf 檔就好. 包括混合精度也能做到. 更不會改了參數檔, 結果 config.json 沒改到. 我們常常會遇到這個 bug.

雖然 GGUF 把相關資料都包在一起, 但它執行起來並不像個肥宅, 甚至它更省記憶體. 如果我們使用 safetensor, 因為那一整包都是權重, 我們無法知道哪一個 byte 是屬於哪一層的參數, 所以通常整包都得放進記憶體. 像是 Llama 3 70B 量化過也需要用 30GB 記憶體.

反觀 GGUF 自己就有完整的訊息, 它可以把檔案中的模型 memory mapping 到 virtual memory 裡面, run 到哪個 chunk, CPU 或 GPU 直接看 index 載入哪部分的參數即可, 號稱可以作到 zero copy. 以前述 Llama 3 70B 模型為例, 可能只需要 500MB~2GB 的記憶體就夠了. 據說在一台 16GB 的筆電上也能運行.

另外, safetensor 檔案裡面只放權重, 還大剌剌地以 safe 為名. GGUF 包了更多東西進去, 那還能保證安全嗎? 答案也是肯定的. 它對格式和 API 都有所規範, 並內建 SHA-256 校驗, 所以不至於輕易地被駭客埋 code 進去, 並且被當作 Python 執行. 至於 pickle (.pt) 或是 .bin 檔案則是有這方面風險.

最後談 GGUF 的缺點. 首先是它只支援 LLM, 不像 ONNX 適用於所有深度學習 (Yolo 等等)、safetensor 更適用於儲存所有 tensor. 其次是背後沒有大人認養, 所以 toolchain 比較不足. 最後的主要缺點是 – 它對 CPU 優化較好, 同一個 model 用 ONNX 表示的話, 在 GPU 上會跑得更快.

最後叫 Monica 生成一個簡單的 GGUF 檔案範本, 這樣比較好理解.

[檔案頭 Metadata]
general.name = "MiniModel-v1"
general.description = "示範用微型語言模型"
general.file_type = 1 (FP32)
general.architecture = "Transformer"
general.quantization_version = 2

[tensors]
1. token_embedding.weight
   - shape: [5, 3]  # 5個token，每個token向量大小為3
   - data: [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6], ...]

2. layer.0.attention.wq.weight
   - shape: [3, 2]  # 3維輸入 → 2維輸出
   - data: [[0.7, 0.8], [0.9, 1.0], [1.1, 1.2]]

3. layer.0.ffn.w1.weight
   - shape: [2, 4]
   - data: [[...], ...]

實際上 head -c 1000 granite-7b-lab-Q4_K_M.gguf | xxd -c 32, 可以看到檔案前面有幾個文字可讀, 後面 tensor 就都是 binary. 如果仔細看下圖, 會看到裡面還看到 ggml 的字樣, 那是 GGUF 的前代格式. 主要是差在舊版沒有 chunked index 結構, 不方便快速抓出某一層參數, 以及沒有 SHA 保護機制.

[REF]

https://blog.csdn.net/shizheng_Li/article/details/144866526

IC 設計公司營收排名 2024

去年的統計更新了. 幾個重點整理如下:

聯發科持續成長, 大者恆大.
瑞昱又再次超車聯詠, 螃蟹公司證明它上次搶到第二名不是偶然.
老牌公司信驊, 矽統, 世紀民生繳出倍數的成長. 世紀民生成長高達 659.47%.
業績成長或衰退雙位數的比個位數的還多. 表示競爭激勵, 不進則退.
因為幣別的關係, 譜瑞-KY 去年就放錯位置, 深感抱歉! 現在往前追溯修正.
美金最近還在漲, 以下官方如果沒有特別引用匯率, 我就用 32.5:1 來計算.

排名	公司	股號	2024 (K NTD)	成長率 (%)
1	聯發科	2454	530,585,886	22.41
2	瑞昱	2379	113,393,698	19.14
3	聯詠	3034	102,787,751	-6.92
	群聯 [*]	8299	58,935,513	22.2
4	世芯-KY	3661	51,976,782	65.45
5	奇景光電	HIMX	40,300,000	42.43
	新唐 [*]	4919	31,923,290	-9.69
	擎亞 [*]	8096	28,157,016	25.47
6	慧榮	SIMO	26,325,000	0.2748
	旺宏 [*]	2337	25,883,475	-6.3
7	創意	3443	25,044,192	-4.56
8	瑞鼎	3592	24,376,802	32.87
9	天鈺	4961	19,224,746	18.12
10	達發科技	6526	19,122,104	40.86
11	矽力-KY	6415	18,450,375	19.6
12	矽創	8016	17,826,505	6.6
13	譜瑞	4966	16,246,766	17.99
14	威盛	2388	15,910,686	25.81
15	敦泰	3545	14,538,987	7.15
16	晶豪科	3006	13,485,168	13.47
17	義隆	2458	12,695,862	5.29
18	智原	3035	11,064,852	-7.53
19	原相	3227	8,362,273	43.08
20	致新	8081	8,252,664	4.32
21	祥碩	5269	8,081,071	26.24
22	聯陽	3014	6,632,578	5.67
23	信驊	5274	6,459,666	106.35
24	凌陽	2401	6,434,086	24.01
25	茂達	6138	6,089,504	12.43
26	昇佳電子	6732	4,940,683	8.76
27	神盾	6462	4,790,328	24.47
28	愛普	6531	4,176,356	-0.94
29	宜特 [*]	3289	4,345,526	14
30	力智	6719	3,697,963	21.75
31	立積	4968	3,679,348	23.28
32	力旺	3529	3,605,968	18.22
33	鈺創	5351	3,473,217	30.48
34	創惟	6104	3,178,690	26.36
35	偉詮	2436	3,094,619	7.25
36	富鼎	8261	2,918,381	2.36
37	大中	6435	2,716,085	2.24
38	晶焱	6411	2,744,684	4.06
39	松翰	5471	2,744,466	5.15
40	盛群	6202	2,501,630	-3.64
41	尼克森	33.17	2,468,261	0.15
42	凌通	4952	2,461,895	13.61
43	安國	8054	2,192,588	10.17
44	沛亨	6291	1,824,248	-26.39
45	凌陽創新	5236	1,817,927	10.17
46	研通	6229	1,796,996	63.24
47	聚積	3527	1,792,664	-3.43
48	威鋒電子	6756	1,700,310	-16.45
49	杰力	5299	1,691,956	-2.38
50	揚智	3041	1,628,224	13.08
51	系微	6231	1,614,588	20.27
52	晶宏	3141	1,507,390	-18.65
53	M31	6643	1,480,903	-8.15
54	通嘉	3588	1,453,906	27.36
55	晶心科	6533	1,381,507	30.6
56	九齊	6494	1,345,300	0.92
57	點序	6485	1,261,971	-25.09
58	普誠	6129	1,150,966	-30.64
59	倚強	3219	1,137,860	-1.67
60	宏觀	6568	1,065,491	6.97
61	海德威	3268	972,915	-7.38
62	類比科	3438	963,370	9.51
63	禾瑞亞	3556	955,594	-16.39
64	亞信	3169	852,618	-3.94
65	虹冠	3257	816,028	-24.01
66	矽統	2363	738,560	294.56
67	迅杰	6243	716,549	-18.14
68	九暘	8040	644,041	-10.3
69	世紀民生	5314	643,931	659.47
70	驊訊	6237	448,741	7.45
71	金麗科	3228	424,696	40.73
72	旺玖	6233	417,225	15.73
73	笙泉	3122	364,666	-1.78
74	笙科	5272	331,795	-0.52
75	鑫創	3259	239,109	-13.25
76	佑華微	8024	224,068	-6.29
77	通泰	5487	194,277	20.6
78	聯傑	3094	165,860	-31.62
79	凱鈺	5468	120,568	1.52
80	點晶	3288	81,779	-16.62
81	合邦	6103	54,875	13.98
82	太欣	5302	13,912	13.46

比特幣出金記

話說很多年前, 我就趕時髦挖比特幣. 後來聽說挖礦的成本 (電費)高於比特幣的價值, 所以就停挖了. 又過了幾年, 聽說雖然比特幣挖不動, 但挖以太幣換比特幣還有賺頭, 所以我又挖了第二次!

當然除了買貴鬆鬆的顯卡, 老婆抱怨經過我房間門口都特別熱 (電費換成喜歡的形式) 之外, 整個電腦都變得不穩. 不但遊戲玩不成, 部落格後台也頻頻當機, 最後只得停工.

最近看到比特幣漲了不少. 於是又開啟 RTX 4090 挖了一下下. 結果本來很穩的電腦, 那個不便宜的 ECC DDR 就這樣燒壞了. 於是我退出江湖, 設法將比特幣出金. 雖然這幾天真的很冷, 挖礦等於開暖氣還賺錢, 還滿懷念的, 哈!

川普當選好像對比特幣有益, 這東西長期應該也是看漲. 不過我只求賺回買顯卡的錢就好了, 所以我算是一面倒地 (又龜速地) 站在賣方. 不幸地, 今年年初起手式就錯了, 我傻傻地從礦場轉帳到自己冷錢包, 這一個動作就被扣了些手續費 0.0001 BTC.

接下來我以為可以找個人交易了, 卻發現場外交易沒那麼簡單. 接著我就做了第二件蠢事, 我把冷錢包的錢轉到幣安, 想說幣安這麼大, 應該很容易賣掉吧! 結果幣安要換美金、甚至換日幣都比較容易, 要找個台幣的賣家根本困難重重. 只好再研究一下那裡好賣? Google 後我找到 Max 交易所.

Max 的認證有點嚴, 我的審查資格搞了好幾天, 比特幣都漲起來了. But, 從幣安轉到 Max, 我又被收一次手續費 0.0000071 BTC. 在心疼手續費之餘, Max 一通過我的身分驗證, 我就市價怒賣比特幣!

成交本身滿快的, 分成兩單被人接走. 然而我想把台幣再轉帳到我的帳戶, 又再被扣了 15 元 NTD 手續費. 在幣安設定帳號時, 它會轉進 1 元新台幣驗證帳戶可用性, 所以算起來我少虧一元. 合計搬家四次後, 手續費總共是 0.0001071 BTC (約 340 新台幣) 和 14 塊新台幣, 合計高達 354 元左右! 股市跌 354 萬都還會漲回來, 這手續費可是一去不回. 總之, 今年總算入袋為安了.

另外, 促使我加速出場的一則新聞是 Google 量子電腦 Willow 的進展. 這個新聞確實讓比特幣跌了一下下 [1]. 其實研究團隊最大的進展在於找到糾錯量子位元 (Error-corrected qubits) 的 pattern, 讓位元數增加時, 糾錯能力可以隨之上升, 把錯誤率壓下來. 因此開啟了更多量子位元的可能.

這讓我好奇究竟量子電腦能否顛覆虛擬貨幣? 稍微研究後發現其實是可以的, 但目前量子電腦都要針對特定用途 (算法) 做設計, 把演算法轉換成疊加態, 才能達到快速計算. 它還不像是個人電腦那樣能夠泛用, 打幾個字就可以寫程式. 所以投資人要評估把剩下的比特幣全部挖完能賺多少, 才知道值不值得為它設計個量子挖礦機? 還是花同樣的力氣去攻略別的標的更划算?

換個角度想, 要是一秒鐘能挖完所有的虛擬貨幣, 那比特幣存在的價值 (公信力) 會剩多少就還不好說? 假設比特幣因此被認為沒有價值, 駭客還不如去破解更保值的東西. 所以這不是送分題. 如果是委內瑞拉要拚一次性挖完比特幣那就還算合理, 因為這本來就是它的法幣 [3], 它說有價值就有價值了, 還不怕別人跟它哄抬挖礦成本.

[REF]

	Cash 在情緒與感覺小筆記
	石萬點在情緒與感覺小筆記
	Cash 在比特幣出金記
	Zhaomin Lai 在比特幣出金記
	Cash 在 IC 設計公司營收排名 2022

三月 2026
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31