Cash Chou's Blog

我讀 «持續買進» – 1

持續買進：資料科學家的投資終極解答，存錢及致富的實證方法 (Just Keep Buying: Proven Ways to Save Money And Build Your Wealth) – 讀這本書的時間拖得比較長, 看到後面對前面的印象都模糊了. 就讓我抓重點整理吧!

首先如書名所說, 作者尼克．馬朱利 (Nick Maggiulli) 建議持續地買進股票、債券這些資產, 不要等待天降良機, 買在最低點. 根據書上大量的統計, 除非你一生就只有一筆錢一次投資機會、否則就算被你剛好抓到百年來最低點 all in, 後面也還是逃不過未來的波動! 相對地不擇時分批買, 就算掉進谷底也還爬得出來!

也許有人會說日本失落的 30 年不就是反證嗎? 作者也提到. 即使剛好 1980 年買日本股市被套牢, 只要每天持續買進 1 美元, 過了 40 年也會是正報酬!! 下圖那條斜線就是持續買進的成本基礎, 曲線就是大盤市值. 雖然這個說服力不太強, 但至少作者也給了交代.

另外有一個觀點最近很多人都提到, 那就是生活成本佔窮人的收入比重比富人高. 所以薪資看起來只差一倍, 可儲蓄的金額卻差了不只一倍. 因此致富的前提是先要增加收入, 這樣才有餘裕投資 (p. 15~p.17). 另外根據邊際效用遞減, 有錢人就算所得高了 14 倍, 開銷只多了 3.3 倍 (p.18). 這點在台灣是否成立我不太清楚. 我覺得竹科的同事看起來都很有錢, 用得東西也比我高級多了…

第五章說, 假如某人的收入增加了, 理論上他可以過更好的生活. 但是他的儲蓄比例要隨之提高. 不能賺多少花多少, 否則增加的收入都直接變成了開銷, 對於存錢買股票毫無幫助. 作者說你加薪 X 元, 就要存 X/2 元 (p.24).

如果適度舉債也有幫助, 特別是貸款讀個好學歷, 這個投資通常值得 (p.27). 最新新聞剛好提到最近美國高中生比較不愛讀大學了, 因此學費很貴,白領工作又沒有比較好找. 作者也提到買房, 他認為通常買房會賺錢, 因此他建議有錢 (20% 房價) 時再買, 以免要把資金全部被套牢 (p.30).

在存錢買房的過程中, 買債券好還是抱現金好呢? 因為債券也是會跌價的, 作者認為如果要存 3 年以下, 不如保留現金, 要存超過 3 年可以放債券 (p.34). 當然也可以選立刻存股, 作者認為這樣比較有風險, but 現在年輕人應該會先投資再說吧!? 老人才會買儲蓄險什麼的.

第九章說, 何時可以退休? 作者用了 4% 法則, 也就是存到 25 年的生活費就可以退休 (p.37). 另外, 理財達人怪老子在節目上說過跟作者同樣的觀點, 考慮到大家還有退休金. 預期生活費再扣掉月退, 反推出的 25 倍還會更低! 更何況, 根據書上的研究, 老人比較無力消費, 大概會低個 15~25%.

當然作者都寫書了, 不能只出一招. 他又提到跨越點法則 (Crossover Point Rule). 如果你的投資收益大於你的支出, 你就可以退休了 (p.38) ! 這看起來好像是廢話, 不過這個計算方式更容易導致過度儲蓄. 這幾天綠角大大在臉書上也提到這件事. 假如我只買 QQQ, 配息要配出每個月 5 萬元生活費, 本金大概要 1.5 億以上, 比拿去定存都還少. ^^

<< 待續>>

0050 放空記

睡不著來更新過年期間另一件搞笑的事. 年後上班第一天, 電視說台股補跌. 我出門前特別看了眼 APP, 確認我的 0050 的確跌了不少. 大盤和 0050 兩者當然是連動的, 只是電視頂多報台積電股價, 不會講到0050. 所以我早上真的還有看到股票的身影. 然後我想說如果一路跌下去的話, 中午就來撿便宜. 先去上班吧.

結果開工日也是頗忙, 中午吃完午餐都快一點了. 這時猛然想起要確認股價竟跌到那裡？興沖沖地打開 APP 一看! 诶? 我的股票呢? 怎麼連一股都沒有了! 庫存為 0 !! 難道是我早上不小心按到賣出嗎？還是被手機被駭客入侵啦？但就算被盜賣了也是要先有個成交回報, 然後才能轉帳給駭客啊? 怎麼看來看去都像是憑空消失呢? 害我傻住了一會兒.

忽然我又靈光一閃 – 其實是窮舉法搜尋完了. 難道是那好幾年都無人問津的股票借券, 終於被借去放空了? 我指尖微抖地在 APP 裡面亂點, 不確定完整的 flow 的是什麼的情況下, 最後在 “雙向借券" 裡面 “借出" 的那一頁, 看到 “賀成交" ! 這讓我鬆了一口氣, 至少知道它們的下落了.

當初會想要借券, 都是受到華倫大的影響. 他總是在臉書曬他的借券收入. 一年能多賺個好幾萬塊. 我想說輸人不輸陣, 我也有股票可以出借啊! 所以我多年前就設定了 3% 利息, 等勇者上鉤 (這是一個 “夢幻西餐廳" 幫菜色定價的概念 [1]). 不料華倫大的股票很多人借, 我的股票就是沒人要. 我只好試試 2% 幾天, 再試試 1% 幾天, 最後賤價 0.3% 都借不出去. 然後我就忘記了….

本圖取材自華倫存股臉書. (facebook.com/teacherwarrenc)

結果就在那個 DeepSeek moment, 很多 0050 成分股都可以用 1% 出借的那一天, 我的 0050 也被借去放空了! 我自己是死忠看多大盤的, 甚至 buy and hold, 當然不可能去放空! 更別說空大盤! 但要是高手技癢想放空, 歡迎多加利用, 大家各取所需, 只是我下次會把利率訂高一點.

畢竟, 認識的跟我借錢的人常常會忘記還、或是懶得還. 還是借給不認識的人比較不會傷感情. 只是這為數不少的 $$$, 雖然有證券公司作莊, 不至於被賴帳. 但我看著庫存空空如也, 也是有點落寞. 打開 APP 又不能幹嘛. 喔, 對了, 前幾天可以參加印能科技和威剛的抽籤啦!

股票借出後, 名字就會登記給別人. 往後股價漲跌、股東會 (紀念品)、配息什麼的就都不甘我的事了. 至於重要的股息, 會由券商把轉給我; 其中二代健保補充費、股利所得都是扣對方的. 我覺得這個對我節稅也有利. 此外, 我還可以隨時召回 – 只是要提早一個月申請.

適逢元大要將 0050 分割, 營業員問我要不要召回以參加投票 [2]. 其實我沒太大意願投票, 畢竟幾張股票又影響不了大局. 但我的確有點想念它們, 所以請營業員順便幫我召回. 於是乎, 這次 0050 放空記, 就以小賺 “收驚費" 告一段落.

哇! 關機前看到歷史的一刻. QQQ 540.71, SPY 613.1, 我商務艙的錢有人付了….

[REF]

今天整理記事本, 翻出了幾十年前的數據. 包括我第一個完整的工作年 (1990) 的收入是 348,727 元. 2020 年的 “生涯" 理財目標赫然已經達成之類的 – 不過現在通膨這麼嚴重, 我已經不客氣地把目標又調高一倍了. 這些年投資獲利不錯, QQQ 10 年才成長 443.41%, 我拜薪水加成和運氣不錯之賜得以更上一層樓, 真是祖上積德. 現在對我比較重要的是資產配置, 兼顧成長和穩定的現金流.

剛剛搜到一個網站 [1] , 可以免費比較我近期擁有股票的含息報酬率 (它不支援的台股和日股).下面這張圖中可以看到: 藍綠色 QQQ (NASDAQ 100) 績效遙遙領先, 包括第二名紅色的 SPY (S&P500).

墊底的不意外就是不太會成長的 PFF (特別股) 和 SHEL (殼牌石油). 這兩個配息都超過 4%, 但殼牌股價變動劇烈, 甚至蝕本! 如果存股的目的都是領息, 存 PFF 會安心一點. 但殼牌也不會都不做事, 如果它某個投資做對了, 也會產生資本利得.

最值得檢討的反而是中間幾支, 要成長有配息, 要配息有成長, 我已經陸續在調整這部分.

以 VIG 來說, 它最大兩檔成份股是 Microsoft 和 Apple, 也持有很多消費性類股. 由於它的選股策略就是穩定配息, 所以不像 QQQ 那樣容易暴漲暴跌. 可惜它的配息殖利率扣完稅只有 1.15% 左右. 如果不在意這 1.15% 的收入, 全部改為 QQQ, 最後的總回報將會比較好.

同理, NOBL 的成長比 VIG 差, 但配息稅後 1.46% 稍好. 如果要做明確的資產配置, 這個折衷的投資可能既吃不到 AI 大爆發, 配息又不夠支撐中產階級生活. 在過去低利的時代, 如果個性保守, 選 NOBL或是 VIG 都有道理. 但現在利率基期高, 科技又在爆發期, 我認為不是理想的選擇.

比較意外的是 KO (可口可樂). 它的稅後配息約 1.92% 勝過前兩者, 成長性正常地比 VIG 和 NOBL 都差, 看起來屬於雞肋性質. 但如果比較 20 年績效, 它還贏過 S&P 500 的 SPY [2]. 所以說老巴真的賺翻了! 當然, 如果比 1 年, 5 年, 10 年, 15 年, 那都是 SPY 贏沒有懸念.

然而, 拜川普總統說要大徵進口鋁鐵關稅之賜, KO 決定增加寶特瓶減少使用鋁罐 [3]. 寶特瓶當然成本更低些, 既然塑膠吸管都可以用了, 寶特瓶也不算是什麼汙染 (美國人心理上). 我要說的是 KO YTD 上漲 10.62%, 下圖可以看到 KO 曲線末端往上翹! 如果它突破歷史高點, 我就把它換掉.

我把自己當作一家公司來看. 總資產的 60% 放在指數型基金, 當大盤每年平均成長 8 ~ 10%, 這家公司每年就成長 4.8~6%. 另外 40% 的資產放在配息 4% 以上的固定收益投資, 故總資產的 16% 大致就是這家公司發給員工的薪水. 即使公司營收可能會暴起暴落, 但只要薪水還發得出來就沒問題! 不得已要裁員的話, 先裁女兒 – 妳趕快嫁人吧!

[REF]

債券到期收益率小程式

話說過年前的目標還包括撿便宜股票這部分, 果真大陸同胞藉著 DeepSeek 賜我一個低點, 這怎麼能不好好把握呢?

2025/1/27, Nvidia 大跌那天晚上, 老婆在旁邊慫恿我說: 子時算第二天, 要不要早點拜拜, 這樣明天早餐就可以吃拜完的年貨了. 我一面看著 QQQ 跌到 512, 一面拒絕她. “哪有人半夜拜拜, 又不是吃宵夜.". 稍微分心一下, QQQ 又漲回 514.

“再胡思亂想可能就要錯過行情啦~~~", 我原始的爬蟲腦提醒我. 於是我看著帳戶裡的數字. 用剛從澳洲玩回來的數學邏輯, 掐指一算, 這個乘 20 倍就是 OO 台幣. 好, 全梭了! 哈! 市價買進,瞬間成交!

But, 過年比較晚睡, 混了幾個小時, 我忽然覺醒了! 诶? 美金不是應該 x 32 嗎? 那不是 OO 是 OOO 啊! 就這樣, 我下了史上最多位數台幣的買單, 以後也不太可能再突破了.

市值型我應該算買好買滿了. 接下來要思考配息收入. 畢竟入 QQQ 這大門以後, 只有把 PFF 當作固定收益的來源. 它真的是最好的嗎? 年假也是一個可以研究的好時間. However, 現在配息股票, 債券 ETF 五花八門, 看得我眼花撩亂. 以前還可以靠網龍大富翁選個股, 現在要靠什麼呢?

在網路上逛了一下, 的確有 ETF 篩選器. 但它們的標的, 不是電子就是金融為主, 兩個我都不太喜歡. 債券方面, 網路上有免費的 YTM (Yield to Maturity) 計算機, 不過限制很多, 根本不實用. 難道這些人不知道現在軟體工程師最不值錢嗎? 我乾脆叫 AI “寫" 了一個. 附在後面. 包括 debug 也是叫 AI 自己反省! “為什麼算出來比標準答案低?" 它就會自己找出哪裡邏輯錯誤了, 哈!

其中, Clean YTM不包括前手息. Dirty YTM 包含前手息 – 要補償即時的債息給前一手賣家, 所以算出來會低一點. 到期日可以是 X.Y 年, 有的免費網頁上居然要求只能輸入整數, 那半年配不是還要動腦四捨五入才知道配息幾期? 這種事叫電腦做就好了啊!

程式寫好之後. …. 其實唯一的用途是: 證明證券公司寫的預期收益率是 clean TYM, 如果加計前手息, 即使兩者只差一點點, 但想要 4% 收益率, 實際只有 3.99% 會覺得不完美. ^^

[後記] 加碼用 Bolt [1] 做成網頁, 前後不到 3 分鐘.

https://aquamarine-peony-b9fe05.netlify.app/

[REF]

https://dessign.net/bolt-new-ai/
原始檔

繼續閱讀

訓練模型需要多少計算量?

DeepSeek 問世後, 很多人討論它需要多少計算量? 我在此做個小整理.

基本上, 而一個 neural node 至少有 weighting 和 bias 要訓練. 而每層輸出共用一個 bias. 請 DeepSeek R1 想了 17 秒, 整理如下:

對於 Dense layer, 參數 = Node 數 + 1.
對於 convolution layer, 參數 = channel 數 * width * height + 1.
對於 RNN layer, 參數 = (輸入維度 + hidden state 維度 h) * h + h.
對於 LSTM, 參數＝RNN * 4.
對於 L 層 transformer, 參數 = L * (12h² + 13h) * Vh ~= 12Lh² , 其中 V 是 vocabulary size (詞表). [3]

如果是做研究, 可能要參考 [2] 的表 1.

不管是哪一種 weighting parameter, 只要可以被訓練, 我們就算它一個參數. 至於不能訓練的, 像是 ReLU, 這些都不會列入參數, 只會佔據 memory 和 CPU time.

接下來的問題是每個參數要被算幾次才完成 training. 如果去問 AI 的話, 有些回答真的很離譜, 像是 Gemini 算出來比別人大好幾個數量級; 有些 model 會說要除以 batch size. 實際上 batch size 只影響 gradient 的更新頻率. batch 愈多次應該要乘愈多次而不是除. 所以還是問人類比較可靠 [3], DeepSeek R1 也還行, 只是它想了 128 秒.

FLOP s≈ 6 × 參數數量 × 訓練總 token 總數.

例如 GPT-3 175B 參數, 訓練 300B token, 需要 3.15 * 10²³ FLOPS. 和官方公布的 3.14* 10²³ FLOPS 接近.

其中 6 來自 forward (矩陣, activation) 2 次計算和 backward (梯度, 參數更新) 的 4 次相加. 至於訓練總 token 數, 其實已經吸收了 batch size 參數. 這邊再找個證據.

根據 [2], 跳過各種英文或數學, 3.3 或 5.1. 裡面都引用了 C = 6NBS. 其中 C = training computing, B = batch size, S = number of parameter updates (訓練總 token 數), and N = non-embedding parameter count (參數數量).

什麼是 non-embedding parameter? 就是所有的 parameter 扣掉 token 和 position embedding . 包括:

Dense/Linear layers
Attention layers
Convolutional layers
Batch normalization layers
Any other trainable layers except embeddings

另外根據 Chinchilla 法則 [5], 訓練量應為參數的 20 倍. 所以 BS = 20N. 前面提到的 GPT-3 175B, 大約需要 3500 B token 的訓練才達到最佳效果. 它只訓練了 300B token, 理論上還有進步空間. 據說這是因為 GPT-3 發表於 2020 年, 而 Chinchilla 法則發表於 2022 年.

再回到風暴的起點, Deepseek 自稱是用 2.788K (pre-train 2664K) H800 GPU hours train 14.8 T tokens. 然而, 如果用上面的 6ND, 搭配 H800 Spec. 和論文中的數據 [7], MFU (Model FLOPS Utilization) 會超過 100%, 完全不合理.

MFU = 訓練需要的算力 / GPU 提供的算力 = (6 * 14.8T * 671B) / (2664 K Hours * 3600 second/Hours * 3026 TFLOPS) = 205%.

其中 MOE, MLA, MTP 可能有省到算力, 但就算把 MFU 壓到 100% 都解釋不通. 當然也可以說 DeepSeek 說謊 – 短報時數. 解決不了問題就解決人. 哈!

歸納起來, 此時不能用 6ND, 要參考 [8]. 用 “3 * 計算 Deepseek v3 的所有 forward 操作" 來代替 6ND. 如此就可以算出 MFU = 35~45% [6], 這樣起碼是落在合理範圍 (< 60%).

其實 [3] 和 [6] 都寫得很好, [6] 尤其完整. 不過我悶著頭寫了一大段才 reference 到他們, 只好改一改重點, 讓它們當配角了.

附帶一提. GPU 卡上的 RAM size, 決定了要用幾張卡才塞得下整個 model 的參數. Training 時要存 weighting, activation function, optimizer, gradient, 抓個 4 倍. Inference 時需要weighting, activation 和 bias. 抓 2.5 倍. 這是一般狀況, 非特別指DeepSeek.

[REF]

	Cash 在情緒與感覺小筆記
	石萬點在情緒與感覺小筆記
	Cash 在比特幣出金記
	Zhaomin Lai 在比特幣出金記
	Cash 在 IC 設計公司營收排名 2022

三月 2026
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31