至少這本書的廣告詞沒有騙我:
每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。--萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授
《大數據》開闢了新境界,告訴我們巨量資料如何從根本上,轉變我們對世界的基本理解……
以往統計的問題在於:取樣。
隨著巨量資料取得方便,「樣本 = 母體」的時代來臨。
巨量,指的是完整的資料集。
測量背後隱藏的信念是,如果我們能夠測量某個現象,就能理解這個現象。
(要能夠量化、紀錄,還能呈現出可重複驗證的結果。)
我們面對幾種雜亂:
1.資料愈多,發生錯誤的可能性救愈高。
2.為了結合不同源頭、不同類型的各種資料,資料彼此不一定相容,也會增加雜亂度。
3.資料格式不一致,需要先整理過,才能使用。
接受雜亂,資料數量會比資料品質更重要。
整體的廣度 > 每個資料點的準確度。
真正造成雜亂的,並不是巨量資料本身,而是因為用來測量、記錄和分析資訊的工具還不錯完善。
相關性的核心概念,就在於將兩個資料值之間的統計關係加以量化。兩者之間的相關性強,代表著如果其中一個值有所變化,另一個值就極有可能也跟著改變。
請留意,講到相關性的時候,兩者間的關係並沒有確定性,只有可能性。
只要能找到某個現象的指標,我們靠著相關性,就能抓住現在、預測未來。
(事情若有相關性,不一定發現得了因果關係。==>人們會習慣將所有事情之間的關係,"直覺"地詮釋其因果關係。krilo said.)
巨量資料的一個核心概念,就是要以相關性,作為預測的根據。
預測分析無法解釋原因,只能顯示確實有了問題。
小量資料時代,因為可用的資料很少,常常會先提出假說(hypothesis)再據以調查因果關係或進行相關分析,以驗證假說是否為真。==>但這樣容易受到先入為主的偏見和錯覺所影響。
巨量資料時代,新的分類方式會帶來新的見解,並帶出實用的預測。這些非因果關係的分析,主要只是想知道"正是如此",而不是追問 " 為何如此"。
想知道因果關係,必須做實驗。(成本較高。)
數位化與資料化的差異。
資訊一直是市場交易必不可少的基礎。有了資料才能有價格發現(price discovery),讓生產者知道該生產多少數量。
一般物質性的東西一旦使用,價值便會降低,但資料不同,可以一次又一次處理,價值並不會減少。
資料就是經濟學家所謂的非競爭性商品:某個人的使用並不妨礙他人的使用。
要討論資料的價值,必須考慮所有未來可能加以應用的方式,而不能只看眼前的用途。
資料擺久了也會貶值。
在某些情況下,將會出現資料中介機構(data intermediary),能夠從多方蒐集資料來匯整,並用作創新用途。
(==>企業共享資訊。畢竟,資料量愈大,預測的品質才會愈好。)
巨量資料的黑暗面,一來保護隱私越來越難,另一個就是全新的威脅:根據習性的懲罰(penalty based on propensity),而不是根據犯罪事實的懲罰(像關鍵報告那樣?)。第三種危險:資料獨裁,即開始陷入對資訊和分析的迷戀,凡事皆以資料為尊,最後形成濫用。
巨量資料的目的是通知,而不是解釋;它指出我們可以追尋理解的方向,但它也可能造成誤解,端看應用得巧妙與否。
留言