跳到主要內容

預測分析時代

 

getImage

預測分析時代:讓數據告訴你,誰會買、誰說謊、誰會離職、誰會死!

Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die


這本書其實不如預期中的好看,當初是看在「Amazon 商業分類 No.1」的廣告下買的,不過在machine learning的不少觀念確實改變了我舊有的思維,幫助不可謂不大。

對於big data有興趣的,可順便參閱舊文「統計學,最強的商業武器 - 筆記」。


預測建模流程是一種從訓練實例學習,自動處理資料的作業,所以必須將肯定個案和否定個案都包含在內。

預測分析的目標是改善作業效率,而不是為了搞清楚人們的意圖。  ==> 這有巧妙的避開倫理爭議

每個組織必須決定資料的人、事、時、地、儲存期間和原因:
保留--儲存什麼及儲存多久。
取用--哪些員工、哪類人員或團體成員可以取得並檢視哪些資料要素。
分享--要散播什麼資料、散播給組織裡的哪些團體和哪些外部組織。
合併--哪些資料要素可以加以彙整或結合。
反應--如何依據各項資料要素決定組織的反應、對外拓展或其他行為。

偏見有循環性,是一種自我應驗的預言,而且這種循環會因為運用預測分析而受到強化。

扼殺機器學習的元凶就是過度學習(或稱過度擬合〔overfitting〕)。過度學習是指誤把雜訊當資訊,對於資料已顯示的訊息做過多的報設。如果你針對數字做過多的解讀,你就會過度學習,越走越偏,無法發現資料潛藏的事實。

機器學習的目的是歸納(induction) :歸納----從詳細事實到一般通則的推論。

不過,可別把歸納跟演繹(deduction)混為一談,因為兩著恰好相反:

演繹----從通則到特定個案的提論(或說是從因到果的推論)。

演繹通常比較直截了當,只是應用已知知規則。舉例來說,如果所友人都會死,蘇格拉底是人,演繹法告訴我們,蘇格控底也會死。

歸納是一種藝術形式,我們手中握有世界如何運作的縮影:資料把發生過的事情詳實記錄下來。我們設法能資料中尋找概論,獲得重要推論,找出在未知的情況中一樣適用的模式。

雖然歸納是一輯推論,但是歸納總讓人覺得不合理。這是因為歸納必須依據過度簡化的假設假設是我們設法在歸納上有問突破的關鍵。沒有假設,你根本無法設計學習方法。我們對於世界運作方式的了解,還不足以讓我們設計出完美的學習。如果我們對世界運作方式有足夠的了解,就不需要機器學習來進行預測

建模方式各有不同,卻全都面臨同樣的挑戰:盡可能多學習,但不要過度學習。

大多數學習方法的目的都是要找出一個有效的預測模型,起初通常是以一個瑣碎、簡單、笨拙的模型開始,經過反覆修改,猶如應用「基因突變」直到找出一館有效的預測模型。

如果是以數學公式為主的方式,即是挑選隨機變數,以一個隨機模型為起點,然接重複微調變數,直至公式能做出準確的預測。

對於所有學習技術,訓練資料會引導每次修改,設法改善整個資料集的預測績效。

測試機器是否過度學習,那就是保留一些資料測試模型。隨機挑選一個測試集(test set),並將這些資料跟其他資料加以隔離。只用剩餘的資料當成訓練集,來設計預測模型。然後,利用測試集評估機器學習產生的模型。由於測試集並未用來設計模型,因此模型不可能理解這部分資料的特性。這樣一來,模型針對測試集做出的預測結果。就能當成模型對一般資料的合理績效評估,也就是對模型預測能力做出的實際評估。為了評估預測模型,就必須使用客觀無偏(unbiased)的測試集。

決策樹若長得太大,分支到更多更小的區隔,就會出現過度學習。除非我們能細心照料,不讓決策樹任意生長,否則決策樹最後便無法發揮效力。

簡單講就是,讓決策樹盡量開枝散葉,然後再加以修剪。訣竅在於,不依據決定決策樹生長的訓練資料,而是依據能透露生長變異的測試資料來做修剪。這是相當簡練確切的解決方案,能在學習不足與過度學習之間取得一個巧妙平衡。

修剪決策樹就是進行回溯,把後來證實為錯誤的一些機器學習修改步驟回復。藉由這些回復動作,修剪掉一些枝葉,就能找出一個濃纖合度的平衡模型。有效的預測模型也是這樣存在於決策樹之中。

留言

這個網誌中的熱門文章

小褶 Life(3) 古亭景美線段

經過上周的總統大選後,想說可以好好地規劃路線,這週末再來享受我的Bike Life,沒想到天氣預報一直恐嚇著我:「週末會下雨,週末會下雨,週末會下雨......。」 哇靠,早上起來,天色是有些陰暗,查了yahoo天氣,竟然下雨機率僅20%,趕緊重新考慮騎車的路線。 這次的目標是新店溪。 想說從哪邊切入比較好,唔,從師大路那邊進古亭河濱公園看來是不錯的選擇,要是下午真的下雨,就在師大路那邊晃一下午也比較安全。 查了google map,怪怪的,不知哪邊是公園的入口處。 不管了,到那附近再說,總有路口的。 結果是......迷路了。 -___-||| 到師大路跟兒童交通博物館那邊,就是看不到古亭河濱公園的入口。 沒辦法,走確定知道的路,以前新店上班時,總是從思源街接到景美堤外便道,果然,從那邊進去就對了。 (後來從古亭河濱公園也騎到中正河濱公園,才發現,那邊只有很小一條汽車進來的道路,真的很難找。 建議從思源街沿自來水廠那邊進來比較方便。) 就目前騎的3個線段而言,沿景美溪新店溪的河濱是最好騎的了,路又寬廣又平直,要飆車也容易。 看看地圖,只到舊橋就沒了,不知什麼時候才會完工咧...... 這樣,之後還可以直接騎到動物園咧!! 這個線段有較多的網球場地,靠古亭河濱公園那邊還有羽球場地,騎車的族群跟前兩次的線段比較起來,嗯,在地居民比較多(關渡到淡水則是遊客特多),應該是方便的緣故吧,騎Dahoon折疊車的人也比較多,莫非這附近有Dahoon專賣店?! 終點出來就到景美夜市一帶。 不錯的塗鴉作品。北市很多自行車道旁的圍牆,是開放給民眾塗鴉的。 (旁邊有 borther的簽名,莫非這是傳說中塗鴉客brother先生的作品?! 但......割腕的少女 ...... 繪在自行車道的旁邊,想表達什麼咧!?) 在終點處有很大的Taipei Cycling Mark。 雖然一開始有些小迷路,但也剛好繞到了兒童交通博物館......的外面,跟小丸子的看板合照。 門票太貴了,也聽有人說其實有些不值得,所以也不打算買票進去。 >___...

明天是晴天嗎(明日晴れるかな)

因為最近的日劇:求婚大作戰,才聽到這首歌的。 桑田佳祐的"明日晴れるかな"。 歌詞的內容跟劇情還蠻貼切,求婚大作戰就劇情而言不是頂好的,但題材相當有趣,令人反省的地方也頗多。 很多時候很多事,如果再來一次,我們會怎麼選擇怎麼做? 這MV不同於日劇的片尾MV: 中文歌詞如下: 明天是晴天嗎 作詞:桑田佳祐  作曲:桑田佳祐  編曲:桑田佳祐 島健 炙熱的淚呼喚著愛 曾經閃爍的歲月 也迷失了方向 明天我依舊徘徊在街頭 沒有回頭路可走 側耳傾聽 心靈深處是什麼在私語 獨自躲在昏暗的街頭 回首當日的天空  上帝賜予我們孤獨與試煉 想哭就要放聲大哭 難道是命中注定 叫人不敢面對 日覆一日 不可思議 Oh baby No maybe 愛已走遠 情已不再 我只能佯裝嘆息 將怨恨拋給這世界 Oh baby you are maybe 憂喜交織 幸福的feeling 抱緊我 one more time 珍惜曾經的我 讓回憶刻骨銘心 往事已經隨風 人生路還漫長 只為見證夢想 誰來開啟奇跡之扉? 多想再一次觸碰你的笑顏 不知你是否發現命運的鑰匙 就握在你手中 Why baby? Oh tell me 愛恨纏綿 假裝視而不見 只為能守護在愛人身邊 Oh baby you are maybe 距離勝負僅一步之遙 站在崩潰邊緣的feeling 我想穿越 one more chance I talk to myself Oh baby No maybe 愛已走遠 情已不再 輕輕的嘆息背後 只留下深深的悔恨 Oh baby Smile baby 生命轉瞬即逝 每個人都在心中默默祈禱 明天是晴天嗎 在那遙遠的天空下 這些是有趣的文章: 釋日劇《求婚大作戰》中的「哈利路亞」 劇情解釋

GLOOMY BEAR 暴力熊

Gloomy Bear身世背景: Gloomy是一隻在路邊被遺棄的粉紅色小熊 , 被小朋友Pity發現,並將牠帶回家中收養, 並為小熊取名為Gloomy。 可惜.....Gloomy外表可愛,但因為被拋棄的緣故~卻有著一般熊的暴力性格, 長大長出爪子後就時常向主人用暴力招數打招呼, 而Pity就慘被Gloomy日日夜夜地欺負!悲慘ㄉ人生就這樣子開始囉!! 暴力熊喜好~咬主人頭, 而牠的主人,復原能力極高...打不死喔~厲害厲害! 暴力熊顏色:粉紅色,金色,銀色,紅色,藍色,黃色,還有罕見的綠色與混色。 粉紅色暴力熊性別:女 頭大身細,眼珠黑色,爪白色兼尖利,具有殺傷力,她多數用口爪殺人,殺完人後喜歡在街上徘徊。 小主人每次都被暴力熊揍得半死兼頭破血流, 但仍然不離不棄地緊緊抱住這隻血腥的寵物; Pity就算受到傷害亦要讓開心的回憶遮掩,然後繼續微笑期待小熊再次跟他一起溫習/做功課/看書;相信等待他的會是小熊的溫柔而非暴力傷害; 暴力熊和他小主人之間微妙的情感讓人感動又心酸; 這次轉輪科技所推出的暴力熊,內容包含小男孩Pity與粉紅熊Gloomy兩支一組。造形上善用Gloomy胖胖的軀體,將轉輪關節隱藏其中,全身有14處可動。可替換配件包含小男孩被打的表情,還有防止熊熊咬人的口罩以及牠嘴角流下來的血,原型制作為山口勝久。