書 – 4 頁 – Cash Chou's Blog

我讀 «大腦超載時代的思考學» – 3

昨天 (2024/1/13) 台灣舉行了總統大選, 選完了很多人不開心. 畢竟大部分的人選的總統、甚至立委都是落選的那個. 這次民眾黨和柯 P 獲得不少支持, 也很多人在罵他們. 這種黨同伐異的狀況是正常的嗎? 從 «Organized Mind» 這本書 Chater 4 看起來很合理.

人們會認為自己所屬的群體有個體差異, 就算有幾顆老鼠屎, 還是能清楚地將他們和其他更好的人切割開. 但相反地, 人們傾向把其他團隊視為一個整體, 整個都黑金、整個都騙子、整個都雙標…本書說到 (p. 163 舉例當然是用民主黨和共和黨, 黑人白人), 這是正常的現象. 經過許多實驗證明, 人類的進化過程必須要區分你我, 把比較多的精神用在自己的團體, 只願意給其他團體 1 bit 貼標籤 (哈! 這我說的)

沒有固定群體時, 人們選擇相信強者 (勇士, 巫師) 和權威 (族長, 長老). 斯圖爾．特范林斯 (Stuart Valins) 對男大生的實驗可以作為一個有趣的例子 (p. 162). 實驗時給男大生看花花公子雜誌, 並謊稱他們身上的儀器可以偵測他們心動的程度, 也就是把心跳聲放大播出來. 實際上心跳聲都是預先安排好的, 跟受試者看到的畫面的反應無關. 此實驗證明男大生寧可相信自己對心跳聲大的美女圖心動, 而不相信自己比較尬意誰.

相信強者的部分 (p. 159), 看日常的例子就好. 假設今天我們棒球代表隊不小心奪得世運金牌, 國內肯定是大吹特吹, 連 20 年前的遠因就可以找出來. 如果 16 強就被淘汰, 免不了有人說啊就爛了30 年你不知道嗎? 在資訊爆炸的時代, 大家即使有中肯的意見, 本來想說些什麼, 想想還是算了.

至於沒有強弱的狀況, 人們選擇先入為主 (p.165). 因此辯護律師寧可在法庭釋放一些訊息等被抗議再收回, 或者被法官要求陪審團不要理會, 也不會謹言慎行等著挨打. 人們不但了解自己的缺點, 有些人更知道如何從中獲利.

那麼人類這樣的表現有什麼醫學上的證據嗎? 還是純粹只能推說是演化造成的? 作者提到幾個化學物質. 首先, 催產素（Oxytocin，簡稱OT）的濃度相當重要. 如果濃度夠高, 人們會更有社會化、信任他人的傾向. 如果在政治人物演講時投以催產素, 他們會更信任對方 (當然對照組是投以安慰劑, p.155).

另一個是精胺酸血管加壓素 (arginine vasopressin, 簡稱 AVP), 此激素濃度高時, 人們更謹慎; 田鼠轉化為一夫一妻制 (p.156). 當抑制這個激素, 田鼠就改為到處拈花惹草. 再來是大麻或麥角酸二乙酰胺（Lysergic Acid Diethylamide-25, 簡稱 LSD), 它的效果使人感受到和世界產生連結 (??). 前者的效用是刺激多巴胺分泌等等, 所以對其他團體的敵意或戒心降低. 這兩個都是毒品. 對人類來說, 不管毒物會不會成癮? 太過放心顯然和我們這個物種進化的方向相牴觸. 也很不幸, 人類就是會這樣吵來吵去~~~

我讀 «為什麼事情做不完, 你還在滑手機»

這本書的書名滿吸引我的, 雖然只是 256 頁的小書, 結構還不錯, 只是看到後面很容易分心. 本書的作者舒婭是一位心理諮商師, 她還寫過另外一本« 為什麼越重要的事越不想做». 所以我們可以推論作者對於這方面特別有心得. 當我想要進一步了解作者的背景, 基本上查不到什麼東西, 滿好玩的.

為什麼我想要特別知道作者呢? 因為書中引用了非常多的例子, 有時候男女主角像是外國人, 有的時候又像是老中. 不像網路影片二創時, 男的都叫大壯, 女的都叫小美, 這麼簡潔有力, 所以不免也對作者究竟是親身體驗, 還是博覽群書融會貫通而感到好奇. 總而言之, 既然查不到作者, 我就不研究了. 只能推斷出她是對岸的作家, 單純回歸讀書心得的正題.

明明有更重要的事情要做, 卻花時間在做次要或者不重要的東西; 作者認為這是 “拖延" 的表現. 拖延成為習慣, 可能就成了拖延症 (procrastination). 拉丁文 Pro 表示向前, crastinus 是明天, 合起來就是 “留到明天". 拖延又特別指非理性性的延遲, 和策略、故意拖延戰術不同. 屬於明知道不好, 但還是要拖.

為何人們會選擇拖延呢? 第一章 “深層動機" 把可能的原因和解決方式整理如下:

厭惡 –> “誘惑綁定", 亦即同時做一件快樂的事 [1].
習得性無助 – Learned helplessness [2] –> 把失敗歸因於努力不足, 繼續努力.
害怕失敗 –> 認為自己還會成長. 但不追求被他人認可.
約拿情結 [3] –> 打破舒適圈, 不要害怕成功的壓力.
完美主義 – 想要等到最佳狀態才表現 –> 接受自己有缺陷.
被動攻擊 – 也就是擺爛、躺平 –> 接受自己的憤怒. 改變行為模式.
自欺欺人 – 先搞砸當作失敗的藉口 –> 不要心存僥倖.
逃避責任 – 不想負責 –> 用對方法, 棘手的問題也會變簡單. [4]
即時傾向 – 拖延的阿基里斯之腱 – 先爽再說 –> 不要壓抑慾望, 但要控制.

上面整理得滿不錯的, 這就是本書第一章的內容. 第二章 “稍後思維" 從各種角度解釋為何不應該拖延、等待、自我設限、也不要太樂觀. 第三章 “情緒壓力", 相對於第二章都是用道理說服自己不要拖延, 這章是針對情緒面. 其中有一個觀點很有趣, 它說如果你拖延了, 不要太責怪自己, 要原諒自己 [5]. 個體若能自我原諒, 可以擺脫原來的情緒, 專注於下一次的考試. 因此第三章的結尾有一個自我解壓的訓練, 訓練讀者對壓力說 STOP.

第四章的重點在克服 “模糊不清". 當目標不清楚時, 更容易產生拖延. 於是這裡有一些篇幅講 SMART 原理, 第五章 “行動阻抗" 把前面的 “情" 與 “理" 再拿來討論交互作用. 簡而言之, 情緒勝過理智是正常現象. 第六章 “低效模式", 強調提高效率對工作的幫助. 第七章 “精力危機", 主講把時間精力用在最重要的地方. 對我而言, 後面幾章的效益算是愈來愈低, 也感覺有點偏離主軸. 我不想再看一次重要/緊急四大象限之類的老套.

這幾年聽聞諸多失智者的行為, 發現人的智慧退化到一個程度, 一次就只會執著地做一件事. 例如聽到朋友的阿嬤半夜想要看某個孫子, 就會連夜出門走路去孫子家, 完全不管這是半夜、沒有交通工具、甚至何時會到? 這些會阻礙她的問題. 非常 “Just do it! " 沒有任何拖延. 另外一位長輩是不管白天黑夜星期幾, 都是要去銀行刷簿子. 由反例可知, 毫不延遲也並非人類的最佳狀態.

經由本書第一章的分類, 我學習到: 我可以自我查核我的拖延是其中哪一種原因? 如果我知道原因, 就可以跟自己對話, 找出解法. 當然滑手機只是一個舉例, 該做 A 的時候在做 B, 總是值得想想和改進. 至於滑手機本身…嗯, 其實有人連 Apple Watch 都可以滑, 那個不是重點. 現代人做事比以前更加事半功倍, 可以省下非常多的時間.這些零碎時間, 應該可以有比滑手機更有益眼睛的事做, 只是很少人做得到~~~~

[Ref]

賓西法尼亞大學的凱薩琳米爾科曼 (Katherine Milkman) 提出.
美國心理學家塞利格曼 (Martin Seligman) 提出.
聖經說約拿想把自己隱藏起來, 歸功於神. 引申為害怕成功.
喬瑟夫法拉利 (Joseph Ferrari) 提出五點建議.
2010 年對學生與考試的研究.

我讀 «證券分析» 第六版 – 價格與價值的背離

本書第 50 章講 “價格與價值的背離". 分析師一般不容易發現價格被低估的好標的 [1], 唯二的武器就是和同業比較以及分析公司的財務報表.

那麼分析師可以透過觀察股市週期性的波動 (包括過熱或是過分悲觀) 來盈利嗎? 作者說可以. 只要按照 SOP 就可以做到:

首先要建立一個清單, 內容要多樣化, 有領先地位 (例如道瓊成分股).
確定這些股票的正常股價. 例如以 7~10 年間殖利率反推.
在正常值的 2/3 或 80% 時開始購買.
在高出正常值 1/3 或 20%~50% 時賣出.

這是羅傑巴柏森提出的方法, 幾乎跟小資女艾蜜莉講得一樣. 書上提到這個方法的缺點是對人類意志力的要求較高. 如果連續 13 年低迷 (1921-1933) 或是 3 年連漲 (1927-1929), 一般人會受不了 (p. 774).

當然, 作者也不贊同用槓桿來操作上面的 SOP. 他認為 “股票被低估" 跟 “股票一定會上漲" 是兩回事. 被低估是已經發生的事, 會上漲是預測未來 (p.775).

至於買有名的股票好? 還是挖掘默默無名的股票好? 書上很明智地不做出結論, 而只是說市場的不理性可能沒有極限. P. 777-P.778 提到許多被低估公司的清單: A 組公司 – 本益比小於 7, B 組公司 – 股價低於流動資產的 2/3 且本益比小於 12. 勤奮的分析師不僅僅應該能從跟同業比較來判斷公司的價值是否被低估, 也應該要能看出公司是否真的很便宜. 上面這些公司都算是便宜.

然而, 如先前提到的公司要有領先地位才值得投資的話, 這些二等公司再怎麼便宜也不會被看上. 但 Graham 認為只要有一般的警覺性, 良好的判斷力, 又避免在市場過熱時投資, 買便宜的二等公司有很大的獲利機會 (P.779).

有名公司因為收到大家的矚目, 一點風吹草動就會影響其股價. 二等公司的股價往往取決於是否有人去發掘它 (P. 780), 很容易就收到低估. 不論是股市過熱或是掉到谷底, 分析師都很難去推薦二等股票.

P.782 有一句話值得高光, “僅僅因為股息率從每年 5 美元增長到 6 美元就將股價提高 20 美元是很荒唐的, 這意味著以這個較高價格購買股票的人提前支付了未來 20 年中, 所有新股息率中獲得所有額外的股息." 翻譯成白話文就是如果股息增加, 股價還沒漲叫做便宜; 股價已經漲到位了, 多花的錢也只是再慢慢還給你而已 (順利的話).

P.783~P.785 講訴訟對股價的影響. 這裡並不是說 A 公司告 B 公司, B 公司股價跌了所以去撿便宜. 而是股東對於公司的訴訟, 例如股東不滿公司分割、併購等等. 本來股東對公司的訴訟就算失敗了也不過是 “as is", 若是成功了則股東的權益會上升, 但這邊舉的例子都是公司的股價受到訴訟而下跌到不合理的程度. 這種背離就是一個可以撿便宜的機會.

P.785~P.787 描述發行債券、優先股容易造成公司價格計算上的不直覺, 以至於算錯公司應有的價值. P. 788~790 說明併購、宣告破產的過程容易造成股價與價值背離.

第 51 章持續講到高低知名度股票的差異.

高知名度的股票通常股價較穩定, 即使實際上變差了. 如果股價小幅下跌, 會有很多人願意進來撿便宜.
低知名度股票對壞消息非常敏感, 很容易跌到遠低於合理價之下.

低知名度股票雖然有這些劣勢, 但是假如一家低知名度公司發行一個利息保障倍數高達 12.6 倍的債券時, 看起來就具有一定的吸引力了. 因為公司只要不倒, 就會獲得強力的回報. 當然這是跟鼎鼎有名但利息保障倍數只有 2.1 倍的公司的債券相比. P. 794 舉了一家沒名氣的烘焙公司和一家有名的鋼鐵公司比較, 6 年後 (1925~1931) 小公司的利息保障倍數降到 8.1 倍, 當然是風險高了點, 但大公司的利息保障倍數更只剩一倍. P. 795 則是拿利息保障倍數 4.3 倍的小公司來舉例, 同樣 6 年後 (1922~1928), 利息倍數掉到 2.4 倍. 這種小便宜就不值得貪.

本章 P. 796~P. 799 講的是同一家公司的優先股、普通股、債券之間的價格背離. 先講結論: 如果公司發展愈來愈好, 那麼它每一種證券的價格都較容易正確估算, 普通股相對的會比較有利. 但如果公司前景變差, 優先股就會比較有利. 假設武漢肺炎變得更嚴重, 那優先股 ETF 比普通股容易領得到股息. 債券又比優先股更有保障. 如果我們能清楚分析出其中價值的背離, 我們可以在同一家公司的不同證券中做對沖 (P.796). 例如放空普通股買入債券之類的.

[Note]

連最近巴菲特都開始買 S&P500 了, 可見得現在的環境又比 Graham 的時代更困難.

我讀 «投資最重要的事»

這本書吸引我注意的地方, 就是華倫巴菲特說他讀了兩次. 而它的作者霍華馬克思 (Howard Marks) 是橡樹資本管理公司的共同創辦人, 也是個著名投資奇才. 所以特別買來一讀.

本書的英文名稱是 “The Most Important Thing Illuminated", 副標題是 “Uncommon Sense for the Thoughtful Investor". 作者以備忘錄的形式記錄了 20 條最重要的事, 特別是第二層思考的法則. 不意外地, 本書有 21 章, 最後一章回顧前面重要的事, 並寫下 28 個要點.

畫了這麼多重點, 到底哪裡會考呢? 第一章 <學習第二層思考> 告訴我們要有第二層思考, 和大家不一樣, 這樣才能打敗大盤. 第二層思考是反向思考嗎? 也不完全是. 市場上漲的時候, 當然要跟大家有共識. 第 11 章 <反向思考> 提醒大家思考 “好的不像真的", “糟的不像真的" 發生時, 如何不變成追隨者? 當然, 書上不會有量化的指標, 只是教大家要有此心理建設. 對於極端的狀況, 我們要反向思考. 整體而言, 要比市場共識更為正確, 才能成為少數的贏家.

讓我們火速跳到第 19 章 <增加價值>, 了解要如何打敗大盤? 馬克斯說 “有投資技巧的人" , 不論在進攻或是防守, 表現都比大盤好. 至於如何在進攻與防守間分配比重, 那是一種藝術. 總之, 只能跟著大盤連動的投資人不是有技巧的投資人. 想要長期打敗大盤, 要能夠判斷市場在上漲還是下跌. 請注意是判斷現況, 而不是預測未來.

進攻

防守

沒有技巧

上漲: 賺很多

下跌: 虧很多

上漲: 賺不多

下跌:虧不多

有技巧

上漲: 賺很多

下跌: 普通虧

上漲:普通賺

下跌:虧不多

第 15 章 <察覺所在的景氣位置>, page 212 有一張表格, 用來評估市場的熱度. 如同前面說到的, 作者並不是要大家反向操作. 如果一昧反向, 就不可能在上漲的時候搭上順風車. 重要的是, 何時準備下車, 轉為防禦型的操作.

market-estimate

第 14 章講到 <認清預測的局限>, 主要說明很少有人能猜中市場走勢、更少有人能猜中兩次. 好比 2008 年金融海嘯很少人能預測到, 就算預測到會全球大崩盤, 也能接著預測何時會經濟復甦嗎? 當我們承認自己無知, 作法就應該像是 “我不知道" 學派、而不是 “我知道" 學派. 承認自己所知有限, 所以才需要防守. 若什麼都預測得到, 永遠 show hands 就好了.

當我們感受到要轉為防守, 買什麼標的才有防禦性呢? 作者說到買的便宜是重點. “買得好 , 就等於成功賣出一半." (p.65) 換言之, 作者並沒有說什麼樣的東西不能買, 也不需要持久的護城河, 但是要能夠確認它夠便宜, 不會一路下跌. 只要確認便宜, 甚至於掉下來的刀子都可以撿 (P.167~168).

即使對於便宜資產的態度如此積極, 作者並沒有提示我們 “高報酬、高風險". 反之, 第五章 <理解風險> 就特別說明, 高風險是指報酬的不確定性大, 或許有可能高報酬, 同時也可能有高的負報酬. 若願意冒險就保證有高報酬, 那麼根本是無風險.

整個市場的風險溢酬都基於無風險報酬 . 假設貨幣市場的報酬率是 4%, 我們期望 5 年期國庫券報酬率是 5% , 10 年期是 6%, 高評等債券利率是 7%, S&P 股票殖利率是 10%, 高收益債是 12%, 小型股是 13%…等等. 如果大環境導致貨幣市場利率降到 1%, 也就是現在的定存利率, 那麼我對每一種投資的期望值都跟著減 3%, 這就反映了當下各種投資相對的風險.

如果我們看到一間小公司頗值得投資, 那麼它可能要提供 10% (13-3) 的收益率. 收益若更低就會有風險. 我們要控制甚至承擔風險, 而不是逃避風險. 風險怎麼承擔呢？我們要產生某種投資組合, 使得在同樣風險下, 能夠獲得一般人以上的附加價值. 同理, 我們可以在相同的報酬底下, 依據投資策略, 使得投資組合的風險降低.

舉例來說, 兩家公司的屬性差不多, 每年 EPS 差不多. 挑選其中一家更有競爭力的公司, 這就是在相同收益下降低風險. 便宜的標的 (如股票) 怎麼產生的呢？包括：很少人知道或不被完全了解、表面上有基本面疑慮、有爭議、不合時宜或讓人恐慌、被視為不適合納入正規的投資組合、不受重視、不受歡迎、而且不被喜愛、過去可追溯到的報酬不好、或是最近成為減碼標的、而不是加碼標的 (p. 175~176).

如果我們專門買這些便宜貨, 會不會便宜沒好貨呢? 書上要我們 <準確估計實質價值> (書上第三章, 簡寫成 CH 3, 後同)、<找出價格與價值的關係> (CH 4)、 <找出便宜標的> (CH 12)、然後 <耐心等待時機> (CH 13). 便宜的不一定是好貨, 甚至買了也不漲 (p.282 說: “超越時代與失敗是很難區分的"); 但貴的一定不值得投資! 作者的心法大致就是這樣.

最後, 書上一直提到風險調整報酬 [1], 我找到一個定義是這樣: RAROC (Risk-Adjusted Return on Capital) = 風險調整資本報酬率或是經濟資本報酬率. 或許我理解不正確, 但在本書中的定性意義很明確, 雖然冒著更大的風險賺到一樣的報酬, 但冒險者的風險調整報酬還是比較低.

RAROC = 風險調整淨利/ 經濟資本 [1]

[REF]

2010m10-04

我讀 «大數據»

本書 – 大數據 (Big Data) 的作者是麥爾荀伯格 (Viktor Mayer-SchÖnberger) 和庫基耶 (Kenneth Cukier) 兩位, 它的副標題是 A Revolution that Will Transform How We Live, Work, and Think, 由天下文化出版.

Big Data 這個名詞近來很紅, 顧名思義, 會讓人聯想到我們有很多資料可以用, 所以我們可以…. 不過對於它的內涵, 一般人還是不甚了了, 這也就是為什麼大年初二我會在 7-11 買它的原因. 我想大家可能都聽過 Google 可以用關鍵字搜尋來預測流感發生的區域, 這是相當著名的一個資料探勘 (data mining) 應用. 不過 big data 和更早之前講到的 data mining 究竟有甚麼不同呢?

根據本書的說法, big data 代表 “樣本 = 母體", 也就是完全沒有抽樣, 這是 big data 的第一大特徵. Farecast 公司專門預測飛機的票價, 創辦人伊茲奧尼 (Oren Etzioni) 所使用的資料庫是某個旅遊網站的一萬兩千筆票價資料. 他用這個資料庫建立一個模型, 告訴想買機票的人, 現在的報價將會上漲或是下跌. 當他創業成功後, 他所使用的資料庫也愈來愈大, 據說現在有兩千億筆的票價紀錄. (呃, 能夠順便告訴我世界先進接下來會漲還是會跌嗎?) 總而言之, 使用 big data 的人不需要有特別考量專業背景 (know why), 只要讓資料說話 (know what).

這使我想起當初在做文字識別的時候, 我們最重視的是主觀的特徵 (feature), 比方說有人會用字的外緣軌跡 (contour)的梯度 (gradient) 來當作特徵, 這樣就會比取字形的投影量 (histogram) 厲害.我們先有想法, 然後才去實驗它是否可行? 這一點到了 big data 的時代看起來還是沒變, 我們還是需要測試, 只不過我們用的資料庫變大了. Know Why 的比重降低, Know What 的比重提高. 我們不太需要大師想出震古鑠今的 “特徵",什麼高招低招都可以一併拿出來用, 只要資料庫夠大, 我們可以靠實驗為所有的特徵分配比重.不再需要單一的辨識之神, know what > know why 可以說是 big data 的第二個特徵.

對於 “樣本 = 母體" 這部分, 我仍然可以用模式識別 (pattern recognition) 來說明. 19 年前, 我們去加拿大向孫靖夷教授求教, 他說訓練辨識用資料庫裡面要乾淨,把一些奇怪的字 (這裡指的是手寫數字) 剔除, 此時訓練出來的資料庫才不會有太大的變異 (variance), 進而影響辨識的效果.不過在 big date 裡面, 其實並不分訓練用的資料庫和實際應用的資料庫, 它們就是同一個, 所以怪怪的資料並不會被剔除. 就算要剔除這些資料, 也要專家說了才算吧! – 而這恰好違背了 know what > know why 的原則, 因此沒有人會去整理資料庫,雖然 garbage in garbage out, 但它們自然會被淹沒在大多數都是正確的資料海當中 (p23).

怪怪的資料也包括缺損的類型, 舉例來說, 傳統的資料庫軟體都有許多欄位要填, 但是我們所蒐集的部分資料可能就是少了那麼幾欄, 在這種情況之下仍然要能資料化 (記錄整理)、數位化 (能讓電腦讀取)將這筆數據放進資料庫 (data base), 就成了新式資料庫軟體的挑戰. 書上有個不錯的例子是有關於亞馬遜書店的書評. 最初亞馬遜雇用了一群專家來寫書評, 他們會為我們買的書推薦相關讀物作為延伸閱讀, 以便進一步刺激銷量.

不過實際上,讀者不一定想當領域的專家. 如果我已經買了 <Big Data>, 它又推薦我買 data mining, 我應該會瘋掉.結果亞馬遜在做完實驗後, 解僱了這些專業書評, 改採統計式推薦. 當初買這本書的人又買了什麼? 它就會直接推薦給我們, 亞馬遜也不知道為什麼? 但它比專家還有效, 亞馬遜的業績有 1/3 來意推薦名單. 而 Netflix 租片訂單有 3/4 來自電腦推薦系統. Why? 沒有那麼重要. 如果真的花大筆資金和人力, 找出人類潛意識的規則, 能夠把 Netflix 的推薦名單效用再倍增嗎? 也許不能. 乾脆就這樣不求甚解下去好了.我們只要知道相關性 (correlation), 不用知道因果.

相關性也是一個有趣的東西, 我們想知道銷售量和哪些東西相關, 當然就希望 “哪些" 不只是一些些, 而是所有的可能的資料. 基於這個原因, 原先沒有被發掘的特徵也都數據化了, 例如地理位置.當然, 對方要是能夠知道我們的種族、血型、星座、收入…, 也絕對不會放棄這個機會. 這也就是大公司喜歡收集我們訊息的理由. 微軟、谷歌都會要求我們參與他們的改進計畫, 以便蒐集更多的用戶軟硬體配備資訊. 甚至還有人讓我們當免費的廉價勞工.

馮安 (Luis Von Ahn) 第一個想到用圖形上的文字來測試輸入者是人類還是電腦程式 – Completely Automated Public Turing Test to Tell Computers and Humans Aprt (Captcha). 他的發明真的擋掉了許多想測試密碼的機器人, 不過也害得我們有時根本看不清哪張圖上面的字是什麼鬼, 而進不了自己的帳號. 因為馮安在推出第二代 Captcha – ReCaptcha 的時候, 順便把 Google 文字識別也認不出來的字參雜在其中. 如果有五個人的答案都一樣, Google 就可以把它加入資料庫. 也就是說, Google 每天可以省下 400 萬美元的工讀生認字費用去認那兩億個字. 而我們還以為它知道答案呢!

由此可以見, 資料庫不但可以拿來使用, 還能請君入甕. 上面這個例子是 Google 把資料庫借給 Captcha, 而 Captcha 又回饋給 Google 的例子. 於是我們可以看到資料庫的釋出可以帶來雙贏的好處. 釋放資料庫的附加價值有三個: 重複使用資料、合併資料庫、找到買一送一的情況 (p147).

所謂重複使用資料就是把資料活化, 把原本用途 A 的資料放在用途 B 來用. 合併資料庫的例子是把戶政, 疾病, 年收入三個資料庫做相關性比對. 買一送一的例子是 Google 的街景車一面搜集街景資料, 一面記錄 WIFI 訊號, 以便日後可以靠 WIFI 基地台的位置加強定位的精准度. 顯然, 某些資料會有保存期限, 比方說 WIFI SSID 換了, 就要重新再搜集.

誰可以從 big data 獲利呢？包括資料持有人, 資料專家, 和有巨量資料思維者 (p182). 擁有大量資料的臉書, 谷歌, 微軟, 雅馬遜無疑是大贏家, 所以大公司絕對有利. 而小公司只要有想法, 能夠找出應用, 他們大可以去買別人的資料庫來用, 甚至可以用免費的 [1]. 因此最不具競爭力的就是中型公司.

最後本書講到道德問題. 我們有了巨量資料, 搭配上某個演算法, 似乎就可以輕易地破壞隱私權, 或是事先預防犯罪. 但是就如同人肉搜索有其不道德的一面之外, 就算我們根據統計資料計算出某個罪犯不應該被假釋, 我們也不應該違反無罪推定, 先入人於罪. 書上說到, 使用 big data 需要三條管控策略來規範.

1. 將資料保護由個人同意制, 改為使用者責任制. 我們在很多時候都會簽署同意對方使用個資的條文, 例如辦信用卡, 求職等等. 但我們當下的同意, 並不表示銀行可以一直打電話來叫我們貸款或是買保險. 這就是責任制比同意制好的地方. 我們的同意必須有時空的限制.

2. 運用 big data, 要尊重每個人的能動性. 這個意思是說, 不能用它作為有責任或義務的推論. 比方說保險公司不能夠因為某人是 50 歲的獨居失業男子, 就不准他買保險. 在這個狀況下, 保險公司反而有義務公佈他們的資料庫, 演算法, 讓專業的第三方認證, 且當事人可以反駁精算師的預測.

3. 培養演算專家這種審計師來稽核 big data 的使用.

綜觀全書, 它給了我們關於 big data 的宏觀描述, 也提到它的效用與道德風險. 不過就如一開始所說到的, big data 只能告訴我們大多數的情況下是怎麼發生的, 並不能解釋其原因, 也不能涵蓋所有的個案. 我在讀的另外一本書 <黑天鵝效應> 剛好就在講例外的那一部分甚至比常態的那部分更重要. 這兩本書算是互補.

[ref]

1. 免費-google Cloud SQL 雲端資料庫服務

	Cash 在情緒與感覺小筆記
	石萬點在情緒與感覺小筆記
	Cash 在比特幣出金記
	Zhaomin Lai 在比特幣出金記
	Cash 在 IC 設計公司營收排名 2022

六月 2026
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30