樣本比率的統計

前次提到取樣的比例太低時, 樣本誤差需要做修正. 當時的隨機變數是一個數字, 所以它有平均值的概念. 那麼隨機變數如果是一個比例呢? 例如紅豆在八寶粥當中的比例是多少? 所有的紅豆集合起來才能貢獻出一個隨機變數, 因此就沒辦法算出平均值或標準差了.

此時, 我們假設樣本數 n, 樣本中呈現的比率 p, 樣本誤差 D. 那麼在母體當中的比率, 可以用 p ± D 來表示. 而書上說 D = 1.96 x sqrt (p(1-p)/n).

換言之, 若我們舀了一匙的八寶粥, 裡面全都是紅豆, 或是半顆紅豆都沒有; 則 p(1-p) 肯定是 0, 樣本誤差 D = 0. 這表示我們就得相信我們買到的七寶粥 (少了紅豆), 或是一寶粥 (只有紅豆). Well, 這好像是公式的 bug.

它的理論可以從這裡找到支持. 假設標準差為 µ, 它的平方為變異數 v. 書上說:

換言之, 不要把 p 看做單一的值, 而是一個二值化 (0 or 1) 數列, 一種類型數據, 的平均值的話. (1-p) x p 就像 0 與 1 在對均值 p 計算離均差. 而變異數 v 又是離均方差的平方和的期望值 (平均值). 因此兩者的確很類似.

當然, 上次講到的修正值在比率分析中也是有效的. K = sqrt((N-n)/(N-1), N 表示母體的全部樣本數.

我還漏掉一個東西沒寫, 那就是精確度 (相對誤差), 它等於樣本誤差除以 p (比率) 或是上次的 m (平均值). 個人覺得相對誤差的意義不大, 理論基礎以後再討論.

了解了樣本誤差之後, 當我們再看到政策的支持度由 33%, 降到 27%, 再降到 25% 的時候, 要記得把每個數字都加減樣本誤差, 以得到一個 “母體比率信賴區間".

如果三次民調的信賴區間是重疊的, 那麼我們可以認為三次民調的意義沒有差別. 如果兩次民調和另外一次民調的信賴區間沒有重疊, 那麼它的效力就等於兩次有效的民調. 若三次都沒有重疊, 那麼支持度就真的持續下降了.

以上整理自 “真希望老師這樣教統計".

如何利用樣本做估計

假設我想知道整家公司的平均體重, 那麼只用一個部門來估計準不準呢? 答案是不準, 因為我們明明知道庶務二課或是秘書課的人都不胖, 所以據此估計出來 “滿帆商事" 的平均體重就會有點誤差. 這不需要數學好就可以知道.

反之, 如果根據一把抓起的豆子重量, 來估計一整桶豆子的重量範圍, 相對就比較準確了.

假設一把抓的豆子總共有 n = 100 顆, 平均數 m = 1g, 標準差 µ = 0.1g. 若整桶豆子約有 N = 10,000 顆, 可計算出樣本誤差 D = 1.96 x µ / sqrt(n) = 1.96 x 0.1 / 10 = 1.96 x 10-2.

為啥是 x 1.96 呢? 因為假設重量為 N(0,1) 的常態分佈, 在 95% 的範圍內, 標準差為 1.96. 當樣本數很大, 樣本誤差趨近於 0; 反之樣本數為 0 的時候, 樣本誤差趨近於無限大. 如果只有一個樣本, 樣本誤差大約是 2 倍 (1.96 倍) 標準差.

[本圖取自 WIKI 標準差]

換言之, 我們認為那桶豆子的平均重量為 m – D ~ m + D 之間, 也就是 1 – 1.96 x 10-2 ~1 + 1.96 x 10-2 或 0.9804~1.0196 g.

或曰, 怎麼和整桶豆子數量級 N 無關? 如果以井觀天, 以蠡測海, 也是用這個公式嗎? 非也, 這時候樣本誤差 D  還要乘上一個修正值 K = sqrt ((N – n) / (N – 1)).

把 Dnew 重寫一次得到Dnew = 1.96 x µ x K / sqrt (n).

直覺地說, 當 n 趨近於 N, 表示我一把已經把豆子抓光了, 那麼誤差應該修正為 K = 0 與 Dnew = 0. 因為 Dnew = 1.96 x µ x K / sqrt(n) .

如果真的由井底蛙來估計天空的大小, N >> n 將使得 K = 1. 因此我們知道 K 介於 0~1 之間,

為了抓一個手感, 我們假設 K = 0.49 的話, 則 N – n = 0.7 x (N -1), 0.3N = n – 0.7. 假設 N 和 n 都比較大, 那麼 n > 0.3N 是必須的. 也就是說, 想要讓修正值 K < 0.5, 那麼好歹得一把抓起 3 成的豆豆.   

以上整理自 “真希望老師這樣教統計".

變量之分析

和多變量分析相對的, 是較簡單的單變量分析, 線性迴歸分析即為其中的一種. 假設我們有一群 X 和一群 Y. 而兩者有這樣的線性關係:

Y = a + bX

那麼只要算出 a 和 b, 我們就可以用 X 求 Y, 或是用 Y 求 X 了. 計算 a, b 的步驟如下:

1. 計算 X 與 Y 的平均值 XY.

2. 計算 X 的離均差平方和. SUM (Xi X)2

3. 計算 Y 的離均差平方和. SUM (Yi Y)2

4. 計算 X 的離均差 x Y 的離均差的和 = 離均差交乘積

SUM ((Xi X) x (Yi Y))

5. 計算

b = 離均差交乘積 / X 的離均差平方和

= SUM ((Xi X) x (Yi Y)) / SUM (Xi X)2

a = Y – b x X

至於多變量要怎麼分析呢? 最簡單的方式就是用 Excel.

以上摘自 "真希望老師這樣教統計", 作者是菅民郎和土方裕子.

我讀 «投行分析師的叛逆宣言» (下)

本書的第三章 “賺錢就是硬道理" 中, 作者點評了幾個行業的投資價值.

1 電訊業 成長有限 
2 電力業  中國電力業不容易賺錢
3 航空業  虧錢容易賺錢難 
4 金融業  槓桿大, 景氣恢復時漲幅大 
5 基礎建設  作者最愛, 風險小, 透明度高, 管理容易 
6 製造業  軍備競賽, 品牌脆弱
7 房地產業  往往高估土地價值 
8 食品和飲料業  競爭太激烈 
9 零售業  護城河薄弱
10 燃氣, 供水, 汙水處理  作者最愛 
11 農業股  看好農業, 但農民正在往城市移轉 
12 啤酒業  幾百家酒廠都賺不到錢, 只要提高售價, 就有人加入市場 

在本章中, 作者提到幾件有趣的事情. 包括通膨狀態下, 建商屯地具有非常充分的理由. 在激烈競爭下, 仍然會有新的廠家進入紅海市場. 理由並非是單純地不理性. 只要新廠家有新的設備或經營模式, 就有可能淘汰掉既有的舊廠家. 而紡織業, 啤酒業都因為廠家過多, 面臨誰也贏不了誰的狀態.

本書的第四章 “別被價值陷阱愚弄" 是最好的一章. 大家對於價值型投資都耳熟能詳. 但是很多股票其實只有價值的陷阱, 而不具備投資價值.

首先, 公司的銷售額能否成長是股價高低的關鍵. 即使公司有大批的資產, 但是經營團隊沒有活化資產的能力的話, 只能製造出漂亮的股價淨值比, 不能為股民帶來財富.

正常來說, 股價的複合成長率和 EPS 的複合成長率應該是一致的. 如果公司不會愈來愈賺錢, 那麼股價就沒有長期上漲的空間.  很多人投資創業板 (等於香港的興櫃板) 也並非源自於不理性, 而是希望冒更大的風險來博取大富大貴的機會.

本書的最後一章 “股市的噪音與真實景象" 主題比較分散. 歸納起來, 作者說到中國印鈔票的速度並不下於美國. 在貨幣供給超額的狀況下, 未來錢變得更不值錢.全球經濟不景氣, 又使得可投資標的變少, 因此中國股票上漲的機會很大.  

然而, 正如作者自己說的. 未來很難預測. 標普只是說出國王沒穿衣服就搞的世界大亂. 股市真難預測啊!

我讀 «投行分析師的叛逆宣言» (上)

這本書名中所提到的 “投行" 是指作者任職的投資銀行 – 瑞銀. 做為銀行研究部主管的張化橋先生, 對投資大眾講了些不中聽的實話, 也就無怪乎他自稱是 “叛逆" 了.

因為香港的用語和我們的習慣有些不同, 在此先做個翻譯:

1. 市盈率 (price earnings ratio = PER = PE) = 本益比

2. 市帳率 (price to book ratio = P/B = 市值 / 淨值) = 股價淨值比

3. 有形資產回報率 = 【盈餘 + 折舊費用 – 營運資金 (即資本支出)】/【總資產-無形資產】x 100

相當於股東權益報酬率 ROA 的分母中減去無形資產.

4. 企盈率 (= EV / EBIT) 

5. 企業價值 (= enterprise value = EV) = 公司市值 + 負債

6. EBIT (= earnings before integresr and tax)  = 稅前與分派股利前的營運利潤

本書的第一章 “分析師算什麼?" 描述了分析師本身的限制, 以及常犯的七大錯誤:

1. 迷信名人效應.

2. 過份看重一次性的利好或不利因素.

3. 疏忽了 “企業主對業務的監控能力".

4. 喜歡忙碌的公司 – 特別關注發行新股, 債券, 可轉債, 進行併購的公司.

5. 期望過高, 導致回報過低.

6. 過份輕信公司管理層和專家.

7. 這山望那山高

雖然分析師自承許多短處, 但是他還是做了個預言, 認為 2009~2010 甚至未來十年 (從 2009 開始) 香港會有個大牛市. 理由是:

1. 全球經濟增長率放慢, 投資機會減少.

2. 利率永久性下降.

3. 存款利率下降.

4. 各國政府的高負債加上低利率.

5. 資產價格上揚, 市盈率提高.

6. 香港的通膨與利率均低於中國內地.

基本上, 作者的思維堅守 “低利率 ⇒高本益比" 的思路. 掌握此點就知道作者在想什麼了. 幫本書寫 “序言一" 的林少陽先生就畫了一個圖, 表示 1997 年香港利率最高時 (10%), 股價淨值比的 “波鋒" 是較低的 (2.5 倍).

個人認為, 這或者可以解讀為利率過高, 所以股價漲不上去. 不過, 台灣政府用利率政策拉抬股市往往無法立即見效, 直接去護盤才能看見效果, 可見利率政策也不能完全左右股市. 反之, 股價更是不可能影響利率的高低.

本書的第二章叫做 “傻瓜戰勝市場的訣竅". 作者的訣竅, 簡單地說就是買股票指數 (指數型基金), 加上 50~70 支的中小型股票. 此時的注意事項包括:

1. 不要一口氣買 50~70 支, 而是慢慢買齊.

2. 要做資產重新配置.

3. 要避免管理有問題的公司.

4. 利潤增長率非常重要.

5. 不要預測匯率或是商品價格.

類似巴菲特的觀念, 張化橋先生主要長期持有, 以合資創業的心態來買股票. 不過作者有個觀念很特別, 那就是不特別重視品牌, 因為很多品牌的價值並不如想像中地高.

投資股票要有護城河, 巴菲特也這麼說, 但是以下幾種狀況不能是為護城河:

1. 產品好.

2. 市場佔有率高.

3. 經營團隊優秀或執行力強.

作者認為上面的東西都不能算是護城河, 真正的護城河是:

1. 品牌被認為優秀或是可靠.

2. 產品無法替代, 叛逃要付出代價.

3. 有明顯的網絡效應. 類似上下游關係之類的.

4. 因為某種經營特性而擁有特別低的成本 – 包括壟斷.

當然護城河也可能乾涸, 所以投資人必須自行留意.

具備自然壟斷特質的公司最值得投資, 作者認為這是第一類的公司. 第二類的公司是曇花一現型的一代拳王或是 XX 概念股. 至於第三類是疲於奔命的公司, 例如高科技業. 永遠必須投入資金去維護地位, 很難長期享受到成果.

因此, 作者推薦的投資標的當然是第一類公司, 包括零售股, 地主股 (有土地的公司, 非營建公司), 自然壟斷股, 與自然資源股.

作者在本張引用了格林布拉特 (Joel Greenblatt) 在 <股市穩賺> (The Little Book That Beats The Market) 中提到的神其投資法, 在此也簡單地描述:

把所有上市公司依據這兩個條件排序 :

1. “有形資產回報率" (returns on tangible capital employed), 愈高愈好.

2. 企盈率, 愈小愈好.

把兩項排名加起來, 就可以選出投資標的. 據說效果還勝過標普的指數. 如果大家嫌這個指數很難算, 可以用 ROA 取代 “有形資產回報率", “市值營收比" 和 “負債比率" 模擬 “企盈率".