本書 – 大數據 (Big Data) 的作者是麥爾荀伯格 (Viktor Mayer-SchÖnberger) 和庫基耶 (Kenneth Cukier) 兩位, 它的副標題是 A Revolution that Will Transform How We Live, Work, and Think, 由天下文化出版.
Big Data 這個名詞近來很紅, 顧名思義, 會讓人聯想到我們有很多資料可以用, 所以我們可以…. 不過對於它的內涵, 一般人還是不甚了了, 這也就是為什麼大年初二我會在 7-11 買它的原因. 我想大家可能都聽過 Google 可以用關鍵字搜尋來預測流感發生的區域, 這是相當著名的一個資料探勘 (data mining) 應用. 不過 big data 和更早之前講到的 data mining 究竟有甚麼不同呢?
根據本書的說法, big data 代表 “樣本 = 母體", 也就是完全沒有抽樣, 這是 big data 的第一大特徵. Farecast 公司專門預測飛機的票價, 創辦人伊茲奧尼 (Oren Etzioni) 所使用的資料庫是某個旅遊網站的一萬兩千筆票價資料. 他用這個資料庫建立一個模型, 告訴想買機票的人, 現在的報價將會上漲或是下跌. 當他創業成功後, 他所使用的資料庫也愈來愈大, 據說現在有兩千億筆的票價紀錄. (呃, 能夠順便告訴我世界先進接下來會漲還是會跌嗎?) 總而言之, 使用 big data 的人不需要有特別考量專業背景 (know why), 只要讓資料說話 (know what).
這使我想起當初在做文字識別的時候, 我們最重視的是主觀的特徵 (feature), 比方說有人會用字的外緣軌跡 (contour)的梯度 (gradient) 來當作特徵, 這樣就會比取字形的投影量 (histogram) 厲害.我們先有想法, 然後才去實驗它是否可行? 這一點到了 big data 的時代看起來還是沒變, 我們還是需要測試, 只不過我們用的資料庫變大了. Know Why 的比重降低, Know What 的比重提高. 我們不太需要大師想出震古鑠今的 “特徵",什麼高招低招都可以一併拿出來用, 只要資料庫夠大, 我們可以靠實驗為所有的特徵分配比重.不再需要單一的辨識之神, know what > know why 可以說是 big data 的第二個特徵.
對於 “樣本 = 母體" 這部分, 我仍然可以用模式識別 (pattern recognition) 來說明. 19 年前, 我們去加拿大向孫靖夷教授求教, 他說訓練辨識用資料庫裡面要乾淨,把一些奇怪的字 (這裡指的是手寫數字) 剔除, 此時訓練出來的資料庫才不會有太大的變異 (variance), 進而影響辨識的效果.不過在 big date 裡面, 其實並不分訓練用的資料庫和實際應用的資料庫, 它們就是同一個, 所以怪怪的資料並不會被剔除. 就算要剔除這些資料, 也要專家說了才算吧! – 而這恰好違背了 know what > know why 的原則, 因此沒有人會去整理資料庫,雖然 garbage in garbage out, 但它們自然會被淹沒在大多數都是正確的資料海當中 (p23).
怪怪的資料也包括缺損的類型, 舉例來說, 傳統的資料庫軟體都有許多欄位要填, 但是我們所蒐集的部分資料可能就是少了那麼幾欄, 在這種情況之下仍然要能資料化 (記錄整理)、數位化 (能讓電腦讀取)將這筆數據放進資料庫 (data base), 就成了新式資料庫軟體的挑戰. 書上有個不錯的例子是有關於亞馬遜書店的書評. 最初亞馬遜雇用了一群專家來寫書評, 他們會為我們買的書推薦相關讀物作為延伸閱讀, 以便進一步刺激銷量.
不過實際上,讀者不一定想當領域的專家. 如果我已經買了 <Big Data>, 它又推薦我買 data mining, 我應該會瘋掉.結果亞馬遜在做完實驗後, 解僱了這些專業書評, 改採統計式推薦. 當初買這本書的人又買了什麼? 它就會直接推薦給我們, 亞馬遜也不知道為什麼? 但它比專家還有效, 亞馬遜的業績有 1/3 來意推薦名單. 而 Netflix 租片訂單有 3/4 來自電腦推薦系統. Why? 沒有那麼重要. 如果真的花大筆資金和人力, 找出人類潛意識的規則, 能夠把 Netflix 的推薦名單效用再倍增嗎? 也許不能. 乾脆就這樣不求甚解下去好了.我們只要知道相關性 (correlation), 不用知道因果.
相關性也是一個有趣的東西, 我們想知道銷售量和哪些東西相關, 當然就希望 “哪些" 不只是一些些, 而是所有的可能的資料. 基於這個原因, 原先沒有被發掘的特徵也都數據化了, 例如地理位置.當然, 對方要是能夠知道我們的種族、血型、星座、收入…, 也絕對不會放棄這個機會. 這也就是大公司喜歡收集我們訊息的理由. 微軟、谷歌都會要求我們參與他們的改進計畫, 以便蒐集更多的用戶軟硬體配備資訊. 甚至還有人讓我們當免費的廉價勞工.
馮安 (Luis Von Ahn) 第一個想到用圖形上的文字來測試輸入者是人類還是電腦程式 – Completely Automated Public Turing Test to Tell Computers and Humans Aprt (Captcha). 他的發明真的擋掉了許多想測試密碼的機器人, 不過也害得我們有時根本看不清哪張圖上面的字是什麼鬼, 而進不了自己的帳號. 因為馮安在推出第二代 Captcha – ReCaptcha 的時候, 順便把 Google 文字識別也認不出來的字參雜在其中. 如果有五個人的答案都一樣, Google 就可以把它加入資料庫. 也就是說, Google 每天可以省下 400 萬美元的工讀生認字費用去認那兩億個字. 而我們還以為它知道答案呢!
由此可以見, 資料庫不但可以拿來使用, 還能請君入甕. 上面這個例子是 Google 把資料庫借給 Captcha, 而 Captcha 又回饋給 Google 的例子. 於是我們可以看到資料庫的釋出可以帶來雙贏的好處. 釋放資料庫的附加價值有三個: 重複使用資料、合併資料庫、找到買一送一的情況 (p147).
所謂重複使用資料就是把資料活化, 把原本用途 A 的資料放在用途 B 來用. 合併資料庫的例子是把戶政, 疾病, 年收入三個資料庫做相關性比對. 買一送一的例子是 Google 的街景車一面搜集街景資料, 一面記錄 WIFI 訊號, 以便日後可以靠 WIFI 基地台的位置加強定位的精准度. 顯然, 某些資料會有保存期限, 比方說 WIFI SSID 換了, 就要重新再搜集.
誰可以從 big data 獲利呢?包括資料持有人, 資料專家, 和有巨量資料思維者 (p182). 擁有大量資料的臉書, 谷歌, 微軟, 雅馬遜無疑是大贏家, 所以大公司絕對有利. 而小公司只要有想法, 能夠找出應用, 他們大可以去買別人的資料庫來用, 甚至可以用免費的 [1]. 因此最不具競爭力的就是中型公司.
最後本書講到道德問題. 我們有了巨量資料, 搭配上某個演算法, 似乎就可以輕易地破壞隱私權, 或是事先預防犯罪. 但是就如同人肉搜索有其不道德的一面之外, 就算我們根據統計資料計算出某個罪犯不應該被假釋, 我們也不應該違反無罪推定, 先入人於罪. 書上說到, 使用 big data 需要三條管控策略來規範.
1. 將資料保護由個人同意制, 改為使用者責任制. 我們在很多時候都會簽署同意對方使用個資的條文, 例如辦信用卡, 求職等等. 但我們當下的同意, 並不表示銀行可以一直打電話來叫我們貸款或是買保險. 這就是責任制比同意制好的地方. 我們的同意必須有時空的限制.
2. 運用 big data, 要尊重每個人的能動性. 這個意思是說, 不能用它作為有責任或義務的推論. 比方說保險公司不能夠因為某人是 50 歲的獨居失業男子, 就不准他買保險. 在這個狀況下, 保險公司反而有義務公佈他們的資料庫, 演算法, 讓專業的第三方認證, 且當事人可以反駁精算師的預測.
3. 培養演算專家這種審計師來稽核 big data 的使用.
綜觀全書, 它給了我們關於 big data 的宏觀描述, 也提到它的效用與道德風險. 不過就如一開始所說到的, big data 只能告訴我們大多數的情況下是怎麼發生的, 並不能解釋其原因, 也不能涵蓋所有的個案. 我在讀的另外一本書 <黑天鵝效應> 剛好就在講例外的那一部分甚至比常態的那部分更重要. 這兩本書算是互補.
[ref]