跳到主要內容

大數據 - 筆記

image

至少這本書的廣告詞沒有騙我:

每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。--萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授
《大數據》開闢了新境界,告訴我們巨量資料如何從根本上,轉變我們對世界的基本理解……

好書一本,推!

以往統計的問題在於:取樣。

隨著巨量資料取得方便,「樣本 = 母體」的時代來臨。

巨量,指的是完整的資料集。

測量背後隱藏的信念是,如果我們能夠測量某個現象,就能理解這個現象。
(要能夠量化、紀錄,還能呈現出可重複驗證的結果。)

我們面對幾種雜亂:

1.資料愈多,發生錯誤的可能性救愈高。

2.為了結合不同源頭、不同類型的各種資料,資料彼此不一定相容,也會增加雜亂度。

3.資料格式不一致,需要先整理過,才能使用。

接受雜亂,資料數量會比資料品質更重要。

整體的廣度 > 每個資料點的準確度。

真正造成雜亂的,並不是巨量資料本身,而是因為用來測量、記錄和分析資訊的工具還不錯完善。

相關性的核心概念,就在於將兩個資料值之間的統計關係加以量化。兩者之間的相關性強,代表著如果其中一個值有所變化,另一個值就極有可能也跟著改變。

請留意,講到相關性的時候,兩者間的關係並沒有確定性,只有可能性

只要能找到某個現象的指標,我們靠著相關性,就能抓住現在、預測未來。

(事情若有相關性,不一定發現得了因果關係。==>人們會習慣將所有事情之間的關係,"直覺"地詮釋其因果關係。krilo said.)

巨量資料的一個核心概念,就是要以相關性,作為預測的根據。

預測分析無法解釋原因,只能顯示確實有了問題。

小量資料時代,因為可用的資料很少,常常會先提出假說(hypothesis)再據以調查因果關係或進行相關分析,以驗證假說是否為真。==>但這樣容易受到先入為主的偏見和錯覺所影響。

巨量資料時代,新的分類方式會帶來新的見解,並帶出實用的預測。這些非因果關係的分析,主要只是想知道"正是如此",而不是追問 " 為何如此"。

想知道因果關係,必須做實驗。(成本較高。)

數位化與資料化的差異。

資訊一直是市場交易必不可少的基礎。有了資料才能有價格發現(price discovery),讓生產者知道該生產多少數量。

一般物質性的東西一旦使用,價值便會降低,但資料不同,可以一次又一次處理,價值並不會減少。
資料就是經濟學家所謂的非競爭性商品:某個人的使用並不妨礙他人的使用。

要討論資料的價值,必須考慮所有未來可能加以應用的方式,而不能只看眼前的用途。

資料擺久了也會貶值。

在某些情況下,將會出現資料中介機構(data intermediary),能夠從多方蒐集資料來匯整,並用作創新用途。
(==>企業共享資訊。畢竟,資料量愈大,預測的品質才會愈好。)

巨量資料的黑暗面,一來保護隱私越來越難,另一個就是全新的威脅:根據習性的懲罰(penalty based on propensity),而不是根據犯罪事實的懲罰(像關鍵報告那樣?)。第三種危險:資料獨裁,即開始陷入對資訊和分析的迷戀,凡事皆以資料為尊,最後形成濫用。

巨量資料的目的是通知,而不是解釋;它指出我們可以追尋理解的方向,但它也可能造成誤解,端看應用得巧妙與否。

Run out.

留言

這個網誌中的熱門文章

GLOOMY BEAR 暴力熊

Gloomy Bear身世背景: Gloomy是一隻在路邊被遺棄的粉紅色小熊 , 被小朋友Pity發現,並將牠帶回家中收養, 並為小熊取名為Gloomy。 可惜.....Gloomy外表可愛,但因為被拋棄的緣故~卻有著一般熊的暴力性格, 長大長出爪子後就時常向主人用暴力招數打招呼, 而Pity就慘被Gloomy日日夜夜地欺負!悲慘ㄉ人生就這樣子開始囉!! 暴力熊喜好~咬主人頭, 而牠的主人,復原能力極高...打不死喔~厲害厲害! 暴力熊顏色:粉紅色,金色,銀色,紅色,藍色,黃色,還有罕見的綠色與混色。 粉紅色暴力熊性別:女 頭大身細,眼珠黑色,爪白色兼尖利,具有殺傷力,她多數用口爪殺人,殺完人後喜歡在街上徘徊。 小主人每次都被暴力熊揍得半死兼頭破血流, 但仍然不離不棄地緊緊抱住這隻血腥的寵物; Pity就算受到傷害亦要讓開心的回憶遮掩,然後繼續微笑期待小熊再次跟他一起溫習/做功課/看書;相信等待他的會是小熊的溫柔而非暴力傷害; 暴力熊和他小主人之間微妙的情感讓人感動又心酸; 這次轉輪科技所推出的暴力熊,內容包含小男孩Pity與粉紅熊Gloomy兩支一組。造形上善用Gloomy胖胖的軀體,將轉輪關節隱藏其中,全身有14處可動。可替換配件包含小男孩被打的表情,還有防止熊熊咬人的口罩以及牠嘴角流下來的血,原型制作為山口勝久。

明天是晴天嗎(明日晴れるかな)

因為最近的日劇:求婚大作戰,才聽到這首歌的。 桑田佳祐的"明日晴れるかな"。 歌詞的內容跟劇情還蠻貼切,求婚大作戰就劇情而言不是頂好的,但題材相當有趣,令人反省的地方也頗多。 很多時候很多事,如果再來一次,我們會怎麼選擇怎麼做? 這MV不同於日劇的片尾MV: 中文歌詞如下: 明天是晴天嗎 作詞:桑田佳祐  作曲:桑田佳祐  編曲:桑田佳祐 島健 炙熱的淚呼喚著愛 曾經閃爍的歲月 也迷失了方向 明天我依舊徘徊在街頭 沒有回頭路可走 側耳傾聽 心靈深處是什麼在私語 獨自躲在昏暗的街頭 回首當日的天空  上帝賜予我們孤獨與試煉 想哭就要放聲大哭 難道是命中注定 叫人不敢面對 日覆一日 不可思議 Oh baby No maybe 愛已走遠 情已不再 我只能佯裝嘆息 將怨恨拋給這世界 Oh baby you are maybe 憂喜交織 幸福的feeling 抱緊我 one more time 珍惜曾經的我 讓回憶刻骨銘心 往事已經隨風 人生路還漫長 只為見證夢想 誰來開啟奇跡之扉? 多想再一次觸碰你的笑顏 不知你是否發現命運的鑰匙 就握在你手中 Why baby? Oh tell me 愛恨纏綿 假裝視而不見 只為能守護在愛人身邊 Oh baby you are maybe 距離勝負僅一步之遙 站在崩潰邊緣的feeling 我想穿越 one more chance I talk to myself Oh baby No maybe 愛已走遠 情已不再 輕輕的嘆息背後 只留下深深的悔恨 Oh baby Smile baby 生命轉瞬即逝 每個人都在心中默默祈禱 明天是晴天嗎 在那遙遠的天空下 這些是有趣的文章: 釋日劇《求婚大作戰》中的「哈利路亞」 劇情解釋

不服從的領導學:不聽話的員工,反而有機會成為將才

這本書,清楚介紹了 計畫 - 行動 - 成果 的思考方式,尤其是「校準」的觀念。 也詳細指出了 領導 、 管理 與 指導 間的不同。 非常好的一本管理/領導者要看的書。強推。 執行的方法創造出奇蹟,執行的方法才是我們應該敬佩的地方。 在戰爭中,「事情不會像上好油的機器那樣運轉順暢;事實上,機器從開始運轉就會產生阻力,需要領導者極大的意志力才能克服。」在戰爭裡,「所有事情都很簡單,但連最簡單的事都很困難......在戰爭中展開行動,就像在阻力重重的介質裡移動。」 克勞塞維茨想將這樣的戰爭實況形成一種觀念,他找到「摩擦」這個詞。 摩擦就是一切「不確定性、錯誤、意外、技術上的困難、無法預見的事物及其對決策造成的影響、士氣與行動」的總合。 摩擦的存在,恰恰說明了為什麼軍隊需要軍官、企業需要主管的存在。也因此,預測與處理摩擦,就成了管理的核心工作。 一個由不同的個人組成的組績,不論紀律多麼嚴明,想要追求共同的目標,都會像在開車時踩煞車一樣,一定會造成摩擦。 我們只能取得部分資訊,又只能交給處在高壓狀態下的人、進行有瑕疵的處理。 我們之所以會遇到摩擦,是因為人類認知上的限制;我們對現在所知有限、而未來根本就不可知。 線性思維有兩個特徵:一是按照比例,也就是投入多少就產出多少;二是相加特性,亦即整體是各部分相加的總和。但非線性系統卻完全不是這樣,克勞塞維茨在當時就很清楚戰爭是非線性系統,只是無法形成具體概念,只能借用摩擦、偶發事件、不可預測性等概念來說明。 管理的課題:如何對付有資訊的有限、如何相互傳遞我們確實擁有的資訊,以及我們最終應該如何行動。 克勞塞維茨用兩種落差來描述摩擦的影響。一是我們試圖在不可預測的外部環境採取行動,但我們一直沒意識到這點,因而產生了「預期成果」與「實際成果」之間的落差。二是內部的摩擦,導致組織的「計畫」與「行動」之間出現落差。這種落差來自資訊在取得、傳輸和處理的過程中,涉及許多獨立自主的媒介。三是是行動與實際成果之間的落差(或是”計畫跟預期成果之間的落差”)。 實際採取的行動和應該採取的行動,是不同的。會出現這種狀況,可能是錯誤的行動計畫造成的,或是 我們雖然策畫了正確行動,但執行者沒有照計畫去做。 計畫不完美,是因為我們缺乏「知識」。我們可能沒蒐集到足夠的資訊,或是對資訊的詮釋有...