至少這本書的廣告詞沒有騙我: 每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。--萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授 《大數據》開闢了新境界,告訴我們巨量資料如何從根本上,轉變我們對世界的基本理解…… 好書一本,推! 以往統計的問題在於:取樣。 隨著巨量資料取得方便,「樣本 = 母體」的時代來臨。 巨量,指的是完整的資料集。 測量背後隱藏的信念是,如果我們能夠測量某個現象,就能理解這個現象。 (要能夠量化、紀錄,還能呈現出可重複驗證的結果。) 我們面對幾種雜亂: 1.資料愈多,發生錯誤的可能性救愈高。 2.為了結合不同源頭、不同類型的各種資料,資料彼此不一定相容,也會增加雜亂度。 3.資料格式不一致,需要先整理過,才能使用。 接受雜亂,資料數量會比資料品質更重要。 整體的廣度 > 每個資料點的準確度。 真正造成雜亂的,並不是巨量資料本身,而是因為用來測量、記錄和分析資訊的工具還不錯完善。 相關性的核心概念,就在於將兩個資料值之間的統計關係加以量化。兩者之間的相關性強,代表著如果其中一個值有所變化,另一個值就極有可能也跟著改變。 請留意,講到相關性的時候, 兩者間的關係並沒有確定性,只有可能性 。 只要能找到某個現象的指標,我們靠著相關性,就能抓住現在、預測未來。 (事情若有相關性,不一定發現得了因果關係。==>人們會習慣將所有事情之間的關係,"直覺"地詮釋其因果關係。krilo said.) 巨量資料的一個核心概念,就是要以相關性,作為預測的根據。 預測分析無法解釋原因 ,只能顯示確實有了問題。 小量資料時代,因為可用的資料很少,常常會先提出假說(hypothesis)再據以調查因果關係或進行相關分析,以驗證假說是否為真。==>但這樣容易受到先入為主的偏見和錯覺所影響。 巨量資料時代,新的分類方式會帶來新的見解,並帶出實用的預測。這些非因果關係的分析,主要只是想知道"正是如此",而不是追問 " 為何如此"。 想知道因果關係,必須做實驗。(成本較高。) 數位化與資料化的差異。 資訊一直是市場交易必不可少的基礎...