高爾頓其人其事

法蘭西斯·高爾頓(Francis Galton) 這個人, 就是發表進化論的那個達爾文的表弟. 我們在 wiki 可以查到他的生平, 所以他也可以稱得上是一號人物, 他的貢獻是在優生學方面.

據說高爾頓對於數字有偏執性的愛好, 無論是什麼東西, 他都想要取得相關的數據. 甚至於他的口袋就有兩張卡片, 如果在路上遇見正妞, 就在左邊口袋的卡片打個洞, 若是遇見恐龍妹, 就在右邊口袋的卡片打個洞. 根據這個統計數據, 他 "發現" 倫敦的女人分數最高, 亞伯丁的女人其貌最寢~~~總之, 他酷愛數字, 為了測量一位難以接近的非洲美女的三圍, 還會動用三角函數, 皮尺與六分儀, 總之他非要知道具體數字不可.

雖然前面的這些敘述, 讓這位古怪的高爾頓先生看起來像是個維多利亞時代的登徒子, 不過收集這些數字對他來說純粹只是因為好奇. 他對所有的數字都感到興趣, 因而做了許許多多的實驗與統計. 分析這些數字之後, 常態分佈與趨均回歸就在其中矣! 因此高爾頓先生其實是一位學者. 

在高爾頓之前, 在這個方面最有成就的是比利時人凱特爾 (Lambert Adolphe Jacques Quetelet). 凱特爾喜歡研究社會現象與機率, 出版過一本 "論人類及其才能的發展", 這本書討論人的才能, 並且用法文的社會生理" (physique social) 來詮釋才能這個名詞. 凱特爾進一步認為, 如果統計一整個社會所有人的特性, 就會得到一個 "平均人" (average man), 這個平均人跨越性別, 種族與年紀, 代表這個社會的平均值.

即便本土正港台灣人可能不屑於與外來的政權的外省人平均在一起, 但是在這個分裂的台灣, 還是曾經有一個代表性的人物叫做 "李表哥", 他和 "山姆大叔" 代表美國人一樣, 是個由漫畫家勞瑞操刀的 "平均人". 另一方面, 由於硬是要指稱所有的社會都是常態分布的確是有點矯枉過正, 因此與凱特爾同一時期的庫爾諾 (Antoine-Augustin Cournot) 就大力地反對這個觀念.

高爾頓繼承了凱特爾的觀念, 認為凡事都屬常態分布. 此外, 他特別注重於極端的狀況. 因此他在他最重要的著作 "遺傳天賦" (Hereditary Genius) 一書當中, 就估計過天才的百分比. 大致上,  他認為已過中年的英國人, 每 4~5 千個人當中, 有一個人可以擁有傑出的評價. 相反地, 每 400 個人當中, 就有一個白癡. (假如大家都同意常態分布是對稱的, 那麼白癡的標準未免也太寬鬆了…呵呵呵). 這個天才與白癡的觀念, 影響後世相當大, 後來甚至被拿來當作種族滅絕的藉口.

高爾頓的實驗證明, 常態分佈無所不在. 無論是鋼珠的分佈, 甚至於是已分佈鋼珠的再重新掉落一次, 落點仍然是常態分佈. 但如果僅僅是重新證明一次常態分佈, 那麼高爾頓不過是凱特爾第二, , 高斯第三, 或是第四個棣美弗; 高爾頓比前人更突破的地方在於他發現了趨均回歸. 

什麼是趨均回歸呢? 它有一點點 "平均人" 的味道. 就以七類大小不同的豌豆為例, 每一種都有十個樣本. 但是到了它們的子代, 大豌豆的小孩雖大, 但沒那麼大了, 小豌豆的小孩雖小, 但也沒那麼小了. 過於懸殊的 "天才豌豆" 和 "白癡豌豆" 並沒有完全重現在下一代. 這表示特例並不那麼容易重現, 或許要多做幾次實驗, 才可以再看到特大豌豆出現, 甚至它的親代並不是特大豌豆, 而是個大豌豆而已.

豌豆直徑 in 1% 吋
親代 15 16 17 18 19 20 21
子代 15.4 15.7 16 16.3 16.6 17 17.3

 

最近辦公室裏面多了很多新手爸爸, 新手媽媽, 準爸爸與準媽媽. 大家對於下一代可能都有所期許, 不過高爾頓的實驗告訴大家不要想太多, 一切都是命啊! 高個爸爸與高個媽媽生出的孩子大致上是個高個子, 但是依據趨均回歸, 這孩子並不見得會比爸媽都高. 若是多生幾個的話, 倒是有很大的機會生出個長人來! 同樣地若是各位的身高在兄弟姊妹中是比較矮的, 那麼到了子代就有較大的機會生出比自己高的子女. 當然, 現在的小孩營養愈來愈好, 還是要額外加個幾公分, 算是考慮到近來營養與健康上的進步. 

"Against the Gods" 為何從討論機率, 變成討論優生學了呢? 主要是因為股市也有趨均回歸. 大家都說漲多必跌, 有什麼理論根據嗎? 有的, 那就是趨均回歸. 股市加權指數就像現代人的身高一樣節節高升. 日本人的身高在第二次世界大戰後大幅地上揚幾十公分, 一如美國道瓊工業指數從幾百點變成了幾萬點. 然而, 道瓊工業指數有條件漲到百萬點嗎? 我想那和日本人平均身高變成 2 公尺一樣遙不可及.

趨均回歸是我們考慮風險時, 不能忘記的一個因素. 巴菲特, 葛拉漢其實都是趨均回歸的奉行者, 被低估的總有一天會獲得平反. 不只是單一的股票, 連投資組合, 或是一整個國家都難逃趨均回歸的魔咒. 大家也許會痛罵政府無能, 讓台灣的經濟奇蹟變成過往雲煙. 事實上, 想要維持永遠的榮景, 並不是那麼容易的. 一國的強, 就是他國的弱. 羅馬帝國, 奧匈帝國, 秦漢唐元不都滅了嗎? 贏家一直贏的可能性很低, 只是 "一直" 代表多久沒有人知道.

以上整理自 "Against the Gods", 第 9 章, 第 10 章.

 

高斯與我

不同於結交權貴, 擔任官職的拉普拉斯 (Pierre Simon de  Laplace 1749-1827), 儘管他們都有以自己命名的機率分佈方式, 高斯 (Carl Friedrich Gauss, 1778-1855) 則是宅男的元祖, 平日儘量足不出戶. 孤僻的高斯對於 "費瑪最後定理" 這類問題並不感興趣, 他覺得他自己就可以提出一堆類似的, 無法證明, 也無法駁斥的命題. 因此, 他的研究比較偏向實用的天文學, 並且以此自豪.

在他 24 歲的時候, 寫過一本整數論研考 (Disquisitiones Arithmeticae), 專門探討整數的神奇. 其中有一段是, 他發現所有的整數平方數都是奇數的和.

12 = 1

22= 1+ 3

32 = 1+ 3 + 5

42 = 1+ 3 + 5 + 7

….

其實在我 13 歲的時候, 我也有同樣的發現喔. 我和同學王天宜用這個題目參加校內科展. 不過我們的 "發現" 稍嫌單薄, 老師也不是很瞭解這東西有什麼用, 所以我們就拿了個佳作回來而已, 哈!

王同學的爸爸在 30 年前就在國外做過博士後研究, 老師說他是全台屈指可數的 "超博士". 王同學算是家學淵源, 屬於數學大王那一級的人物. 後來獎狀的正本就給王同學了, 我拿到王同學給我的價值不斐的彩色影印本. 在 30 幾年前, 印出這樣一張紙並不是一般人家負擔得起的.

我對平方數感興趣則是因為我爸爸是老榮民….呃, 我是說他買了很多書給我看的關係. 書中一則小故事說: 愛因斯坦的朋友曾向他抱怨電話號碼不好記; 愛因斯坦回答他說, 很容易啊, 兩打, 19 的平方 (24361). 因為這個回答很酷, 所以我也立志要把平方數背起來! 由於死記比較難, 我就想一個一個地往下背, 依序地觀察它們的關係, 就不難發現其中的規律了.

數十年後, 我到大陸去面談新人. 除了專業問題之外, 我們也常用一些意想不到的小問題來測驗同學的反應. 我個人喜歡原創的題目, 不喜歡抄師父的考古題, 或是問 "人孔蓋為什麼是圓形的? "那種老套. 這樣對於看過 "如何移動富士山" 這類書籍的人就顯得相當不公平 (這是一本集合搞怪面試問題的書). 不過遇到團結的大陸同學, 我就顯得相當吃力了. 不但在西安問過的題目, 武漢的同學全都知道. 甚至是剛問過的問題, 兩個小時候解答就上了 BBS. 於是我開自己的玩笑說, 曹植七步成詩, 我們則是要在緩緩說出: "我這裡有一個小題目, 請您幫忙想一下…" 這幾個字之後, 在拿起白板筆之前想出一個新的問題.

這個平方數的問題就在大陸一次面談中又浮出我的腦海, 靈機一動, 我就把這個題目用 8051 包裝, 以乘法器的原理設計成一個套題, 拿來當作面試題. 爾後當然它又演變成各種不同的版本, 重溫少年時的舊事固然莞爾. 想到這個問題的出處, 竟比這些同學的出生日期都還要古早, 感覺又是另一層滋味 (那就是我老了…). 

另外, 我對高斯與棣美弗的 "名份" 很好奇.

高斯在 1816 年應邀做大地測量的工作, 他發現許多測量的數據都不一致, 但是大致落在一定的範圍之內, 與棣美弗在 83 年前發現的鐘形曲線不謀而合. 儘管每次測量出來的數據不可能都相同, 常態分布可以合理地解釋測量中產生的均值與其誤差.

然而, 不知道高斯與棣美弗是如何瓜分功勞的? 發現比較多東西的 (對稱, 標準差) 棣美弗沒有被拿來命名常態分布, 而是高斯得到了這個榮銜. 不可否認, 拿破崙曾經聲稱高斯是 "有史以來最偉大的數學家", 因此下令他的軍隊要避開這個城市. 高斯 10 歲的時候就知道 1 加到 100 的速算, 這也遠非我小時候可以想到, 不過棣美弗似乎太可憐了, 我要幫他嗆聲啦~~~

 

大家的日本語 – 初級, 第五課

話說我上完自強基金會開的日文之後, 著實荒廢了好一陣子, 直到公司開了一堂從 50 音教起的入門課程為止. 其實不只是我一個人有這種困擾, 我發現 50 音班的同學, 十之七八都有點基礎; 否則不是他們算神童, 就是我算白癡啦!

光陰似箭, 日月如梭. 上完了十幾堂課, 老師終於追上了我在外面的進度. 由於公司的課程每次只有兩小時, 所以要花 15 堂課 (x 2 小時) 才能跟上自強基金會 10 堂課 (x 3 小時) 的進度. 自強的曾昭子老師比較重視文法, 而公司的筒井老師比較重視熟練程度, 常常用對話與遊戲來加深我們的印象, 還會測驗我們的單詞. 不過筒井老師的中文程度只比我們的日文程度略高幾籌, 因此溝通上比較困難. 這點遠不如本國籍老師來得有利.

好! 那麼第五課倒底上些什麼呢? 第一個重點是 "歸去來兮":

地點 (where) + へ +  去, 來, 回來三個動詞

去 = いきます= 行きます

來 = きます = 來ます

回來 = かえります=帰ります

眼尖的人應該可以發現, "來" 是 "去" 的子集合. 三者的用法基本上一樣, 除了"回來" 限制在回家, 回家鄉之類的.

問句就是: どこへ

第二個重點是 "who", 和誰一起去.

某某人 + と + 行きます

問句就是: だれと …

第三個重點是 "when", 何時去.

幾月幾號 + に + 行きます

問句就是: いつ … 或是 なんがつなんにちに….

如果是比較不確定的時間, 就不用 , 例如先月, 來月, 先週, 來週.

第四個重點是 "how", 怎麼去.

交通工具 + で + 行きます

問句就是: なんで….

也用做量的助詞, 如一人で 的 ひとりで

在時間方面, 還要注意時態, 這三個動詞的過去式, 否定形式都是一樣的規則.

  肯定

否定

現在/未來 ます ません
過去 ました ませんでした

超短日記 20090927

我的親戚在新竹縣的翔雲山莊買了一塊地, 邀請我們去參觀.

山莊在衛星導航上顯的地名是 “雞油凸", 表示這裡是一個有很多雞油樹的高點.

從這裡可以看到五指山, 鵝公髻山, 大霸尖山, 加里山,..等等山頭依序展開, 直到往台中方向, 出現一個缺口為止.

成群的候鳥和白鷺鷥在遠方飛翔, 感覺十分愜意.

 

伯努利一族

說到伯努利 (Bernoulli), 大家一定都難忘 "努力" 原理, 我這次就是要講這位伯努利. 其實伯努利一家可說是一門忠烈, 充分展現出優良的遺傳血統.

Nicolaus Bernoulli 三代家譜

Jacob (猜測的藝術)

書中提出大數法則

Nicolaus I  Johann
Nicolaus III

Daniel (新理論)

提出伯努利原理

 Nicolaus II  

與葛朗特, 佩蒂, 哈雷同期, 波爾羅亞 (Port-Royal) 出版了一本 "邏輯". 主張做決定時不在乎機率, 只顧慮後果的人, 想必對於風險懷有病態的恐懼. 而伯努利家的成員丹尼爾伯努利 (Daniel) 在 "新理論" 一書中, 反過來強調, 如果只考慮機率, 而不考慮後果, 那才叫做有用無謀. 換言之, 事件的後果和風險的高低, 分別為兩種衡量事情的標準.

伯努利相當反對 "期望值" 這件事, 他認為應該強調 "效用"; 因為機率是一種數學, 但是人就是人. 在一架遭遇亂流的飛機中, 會不會活下去可以用機率去描述, 但是緊不緊張是另外一件事, 甚至還有人在呼呼大睡呢! 因此伯努利不認為機率應該決定我們的行為.

伯努利說: "財富小量增加所產生的效用跟原來擁有的財富數量成反比." 這個立論在後來被很多人反對, 但是它就是 "彼得堡矛盾" (Petersburg Paradox) 問題的文字版. Nicolaus III Bernolli 最早提出這個問題, 他假設有甲乙兩個人賭博, 甲丟一枚銅板, 直到出現正面為止. 若第一次就出現正面, 甲給乙 1 元, 第二次才出現正面, 甲給乙 2 元, 第三次就是 4 元, 第 N 次才出現正面, 甲就要給乙 2N-1 元. 看起來乙絕對是贏家, 說不定可以變成億萬富翁; 但是你願意用多少錢來買乙的權利呢? Daniel Bernolli 說, 雖然這個賭局中, 乙的財富可能無上限, 但是考慮到機率, 有人願意花 20 塊來買就應該要很高興了.

根據機率,  乙的期望值是贏取 1/2 x 1 + 1/4 x 2 + 1/8 x 4 + ….+1/2k 元, 勉強算是 1 元吧! 你我都可以想像: 甲連續失手 50 次, 使得乙可以贏得 1,000 兆的美夢, 其實是有點不切實際的. 至於甲失手 1,000 次可以帶給乙多大的財富, 其實對乙已經沒差了,  反正就是天文數字, 不至於因為那個期望而更加地熱血! 另一方面, 有人會花錢買乙的權利, 有些人則不會, 一般人決定要不要買彩券的心理也是如此.

伯努利所講的效用, 可以衍生為效用遞減的理論. 也是後來維多利亞時代供需法則 (the Law of Demand and Supply) 的基礎, 提出這理論的經濟學家是馬歇爾 (Alfred Marshall).

談完兒子再來談老爸 Jacob Bernoulli, 既然有大數法則掛在他的名下, 大家應該知道這位老兄對機率有著驚人的貢獻. Jacob 在 1703 年的時候, 正在思考用少數樣本 (先驗機率) 來推算機率的問題. 請注意, 以前的骰子問題都是先有機率模型, 然後評估每一個事件發生的機率.  而 Jacob 則反過來看待這個問題. Jacob  因為自己想不通, 就寫信給萊布尼茲求教. 他說: 我們知道擲兩粒骰子的時候, 出現 7 的機率比出現 8 的機率高, 卻無法知道一名二十歲男子的壽命是否會比一個六十歲的老人長, 實在是不可思議. 萊布尼茲回信認為: 有限的樣本, 不可能推導出甚麼結論, 就算是有結論, 也並非每件事都能符合, 只有大部分如此.

看似潑冷水的回覆, 其實給了 Jacob 一個方向. 那就是並不需要強求精準, 只要大致上符合就好了. 即使擲無限次的銅板, 正反面的機率也不保證是 1/2, 只是誤差比較小而已. Jacob 說, 假如有一個罐子裡面有 3,000 顆白石頭與 2,000 顆黑石頭, 只要反覆地從罐子裡面拿石頭出來 (看完還要丟回去), 大致就可以得到白石頭與黑石頭為 3:2 比例的結論. 若是拿個 25,550 次, 將有 1000/10001 的機率, 發現兩色石頭的比例在 3:2 的 2% 誤差以內. 這是首次有人訂出 "幾乎可確定為必然" 的標準.

Nicolaus II (綽號慢半拍, Nicolaus the Slow) 後來繼續 Jacob 的研究, 他的研究方法和伯父是互補的. 他專門研究在特定的誤差下, 應該要取樣幾次. 換言之, 觀察次數和誤差是可以互換的. 比方說新生兒中男女嬰的比例是 18:17, 但也有 43.58:1 的機會, 實際出生的男嬰和期望值有正負 163/7200 的出入. 經由伯努利一族的發揚光大, 機率又往前進了一步.

本文整理自 "Against the Gods" 第六章, 第七章.