跳到主要內容

大數據 - 筆記

image

至少這本書的廣告詞沒有騙我:

每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。--萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授
《大數據》開闢了新境界,告訴我們巨量資料如何從根本上,轉變我們對世界的基本理解……

好書一本,推!

以往統計的問題在於:取樣。

隨著巨量資料取得方便,「樣本 = 母體」的時代來臨。

巨量,指的是完整的資料集。

測量背後隱藏的信念是,如果我們能夠測量某個現象,就能理解這個現象。
(要能夠量化、紀錄,還能呈現出可重複驗證的結果。)

我們面對幾種雜亂:

1.資料愈多,發生錯誤的可能性救愈高。

2.為了結合不同源頭、不同類型的各種資料,資料彼此不一定相容,也會增加雜亂度。

3.資料格式不一致,需要先整理過,才能使用。

接受雜亂,資料數量會比資料品質更重要。

整體的廣度 > 每個資料點的準確度。

真正造成雜亂的,並不是巨量資料本身,而是因為用來測量、記錄和分析資訊的工具還不錯完善。

相關性的核心概念,就在於將兩個資料值之間的統計關係加以量化。兩者之間的相關性強,代表著如果其中一個值有所變化,另一個值就極有可能也跟著改變。

請留意,講到相關性的時候,兩者間的關係並沒有確定性,只有可能性

只要能找到某個現象的指標,我們靠著相關性,就能抓住現在、預測未來。

(事情若有相關性,不一定發現得了因果關係。==>人們會習慣將所有事情之間的關係,"直覺"地詮釋其因果關係。krilo said.)

巨量資料的一個核心概念,就是要以相關性,作為預測的根據。

預測分析無法解釋原因,只能顯示確實有了問題。

小量資料時代,因為可用的資料很少,常常會先提出假說(hypothesis)再據以調查因果關係或進行相關分析,以驗證假說是否為真。==>但這樣容易受到先入為主的偏見和錯覺所影響。

巨量資料時代,新的分類方式會帶來新的見解,並帶出實用的預測。這些非因果關係的分析,主要只是想知道"正是如此",而不是追問 " 為何如此"。

想知道因果關係,必須做實驗。(成本較高。)

數位化與資料化的差異。

資訊一直是市場交易必不可少的基礎。有了資料才能有價格發現(price discovery),讓生產者知道該生產多少數量。

一般物質性的東西一旦使用,價值便會降低,但資料不同,可以一次又一次處理,價值並不會減少。
資料就是經濟學家所謂的非競爭性商品:某個人的使用並不妨礙他人的使用。

要討論資料的價值,必須考慮所有未來可能加以應用的方式,而不能只看眼前的用途。

資料擺久了也會貶值。

在某些情況下,將會出現資料中介機構(data intermediary),能夠從多方蒐集資料來匯整,並用作創新用途。
(==>企業共享資訊。畢竟,資料量愈大,預測的品質才會愈好。)

巨量資料的黑暗面,一來保護隱私越來越難,另一個就是全新的威脅:根據習性的懲罰(penalty based on propensity),而不是根據犯罪事實的懲罰(像關鍵報告那樣?)。第三種危險:資料獨裁,即開始陷入對資訊和分析的迷戀,凡事皆以資料為尊,最後形成濫用。

巨量資料的目的是通知,而不是解釋;它指出我們可以追尋理解的方向,但它也可能造成誤解,端看應用得巧妙與否。

Run out.

留言

這個網誌中的熱門文章

GLOOMY BEAR 暴力熊

Gloomy Bear身世背景: Gloomy是一隻在路邊被遺棄的粉紅色小熊 , 被小朋友Pity發現,並將牠帶回家中收養, 並為小熊取名為Gloomy。 可惜.....Gloomy外表可愛,但因為被拋棄的緣故~卻有著一般熊的暴力性格, 長大長出爪子後就時常向主人用暴力招數打招呼, 而Pity就慘被Gloomy日日夜夜地欺負!悲慘ㄉ人生就這樣子開始囉!! 暴力熊喜好~咬主人頭, 而牠的主人,復原能力極高...打不死喔~厲害厲害! 暴力熊顏色:粉紅色,金色,銀色,紅色,藍色,黃色,還有罕見的綠色與混色。 粉紅色暴力熊性別:女 頭大身細,眼珠黑色,爪白色兼尖利,具有殺傷力,她多數用口爪殺人,殺完人後喜歡在街上徘徊。 小主人每次都被暴力熊揍得半死兼頭破血流, 但仍然不離不棄地緊緊抱住這隻血腥的寵物; Pity就算受到傷害亦要讓開心的回憶遮掩,然後繼續微笑期待小熊再次跟他一起溫習/做功課/看書;相信等待他的會是小熊的溫柔而非暴力傷害; 暴力熊和他小主人之間微妙的情感讓人感動又心酸; 這次轉輪科技所推出的暴力熊,內容包含小男孩Pity與粉紅熊Gloomy兩支一組。造形上善用Gloomy胖胖的軀體,將轉輪關節隱藏其中,全身有14處可動。可替換配件包含小男孩被打的表情,還有防止熊熊咬人的口罩以及牠嘴角流下來的血,原型制作為山口勝久。

明天是晴天嗎(明日晴れるかな)

因為最近的日劇:求婚大作戰,才聽到這首歌的。 桑田佳祐的"明日晴れるかな"。 歌詞的內容跟劇情還蠻貼切,求婚大作戰就劇情而言不是頂好的,但題材相當有趣,令人反省的地方也頗多。 很多時候很多事,如果再來一次,我們會怎麼選擇怎麼做? 這MV不同於日劇的片尾MV: 中文歌詞如下: 明天是晴天嗎 作詞:桑田佳祐  作曲:桑田佳祐  編曲:桑田佳祐 島健 炙熱的淚呼喚著愛 曾經閃爍的歲月 也迷失了方向 明天我依舊徘徊在街頭 沒有回頭路可走 側耳傾聽 心靈深處是什麼在私語 獨自躲在昏暗的街頭 回首當日的天空  上帝賜予我們孤獨與試煉 想哭就要放聲大哭 難道是命中注定 叫人不敢面對 日覆一日 不可思議 Oh baby No maybe 愛已走遠 情已不再 我只能佯裝嘆息 將怨恨拋給這世界 Oh baby you are maybe 憂喜交織 幸福的feeling 抱緊我 one more time 珍惜曾經的我 讓回憶刻骨銘心 往事已經隨風 人生路還漫長 只為見證夢想 誰來開啟奇跡之扉? 多想再一次觸碰你的笑顏 不知你是否發現命運的鑰匙 就握在你手中 Why baby? Oh tell me 愛恨纏綿 假裝視而不見 只為能守護在愛人身邊 Oh baby you are maybe 距離勝負僅一步之遙 站在崩潰邊緣的feeling 我想穿越 one more chance I talk to myself Oh baby No maybe 愛已走遠 情已不再 輕輕的嘆息背後 只留下深深的悔恨 Oh baby Smile baby 生命轉瞬即逝 每個人都在心中默默祈禱 明天是晴天嗎 在那遙遠的天空下 這些是有趣的文章: 釋日劇《求婚大作戰》中的「哈利路亞」 劇情解釋

The Nightmare before Christmas 聖誕夜驚魂

這部片是29 October 1993上映的,我是到2000年時,因為在卡通公司上班,同事借我VCD看之後,才了解" 聖誕夜驚魂 "的魅力所在。 在這之前,每每看到這奇怪骷髏頭的相關產品,總覺得怪怪的,這東西怎麼會有人喜歡。 隔很久的後來,自己也是跑去找了片DVD買回去,因為jack的魅力真的是太黯然太銷魂了。 當然,之後的"提姆波頓之地獄新娘"(Tim Burton's Corpse Bride)也沒忘記收藏。 不過這裡不寫故事內容啦!有興趣的google一下就會找到不少相關資料。 製作人提姆波頓Tim Burton,早在81年於迪士尼公司擔任動畫製作時,即開始策劃本片。全片在佔地4000平方呎的攝影棚內拍攝,動員超過120位動畫人員、藝術家、攝影師及技術人員,場景便有20個之多,耗時兩年才完成。 為了維持整部長片的一致水準,製片聘請了艾瑞克主格坦等14位偶動畫權威來指導技術人員。由於製作技術難度高,即使在一流人員的高效率工作下,60秒的鏡頭亦平均需耗費一週的工作天。在人物聲音的表現方面,則聘請喜劇明星凱瑟琳奧哈拉、威廉希金等人助陣。 這部片已經重看過3次了,每次看都還是會很感動,大師作品就是這樣,隔多久,看幾次,都還是會喚起所謂的感動粒子這樣的情緒。 這次剛好又收集到"聖誕夜驚魂"新的場景組(4組),嘿嘿,當然不能放過囉! 我喜歡傑克邪惡的表情,特別有張力。 動感十足的傑克。 除了新的四組,也順便拍了些舊版的場景組,有興趣的到我 flickr 相簿看。