跳到主要內容

預測分析時代

 

getImage

預測分析時代:讓數據告訴你,誰會買、誰說謊、誰會離職、誰會死!

Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die


這本書其實不如預期中的好看,當初是看在「Amazon 商業分類 No.1」的廣告下買的,不過在machine learning的不少觀念確實改變了我舊有的思維,幫助不可謂不大。

對於big data有興趣的,可順便參閱舊文「統計學,最強的商業武器 - 筆記」。


預測建模流程是一種從訓練實例學習,自動處理資料的作業,所以必須將肯定個案和否定個案都包含在內。

預測分析的目標是改善作業效率,而不是為了搞清楚人們的意圖。  ==> 這有巧妙的避開倫理爭議

每個組織必須決定資料的人、事、時、地、儲存期間和原因:
保留--儲存什麼及儲存多久。
取用--哪些員工、哪類人員或團體成員可以取得並檢視哪些資料要素。
分享--要散播什麼資料、散播給組織裡的哪些團體和哪些外部組織。
合併--哪些資料要素可以加以彙整或結合。
反應--如何依據各項資料要素決定組織的反應、對外拓展或其他行為。

偏見有循環性,是一種自我應驗的預言,而且這種循環會因為運用預測分析而受到強化。

扼殺機器學習的元凶就是過度學習(或稱過度擬合〔overfitting〕)。過度學習是指誤把雜訊當資訊,對於資料已顯示的訊息做過多的報設。如果你針對數字做過多的解讀,你就會過度學習,越走越偏,無法發現資料潛藏的事實。

機器學習的目的是歸納(induction) :歸納----從詳細事實到一般通則的推論。

不過,可別把歸納跟演繹(deduction)混為一談,因為兩著恰好相反:

演繹----從通則到特定個案的提論(或說是從因到果的推論)。

演繹通常比較直截了當,只是應用已知知規則。舉例來說,如果所友人都會死,蘇格拉底是人,演繹法告訴我們,蘇格控底也會死。

歸納是一種藝術形式,我們手中握有世界如何運作的縮影:資料把發生過的事情詳實記錄下來。我們設法能資料中尋找概論,獲得重要推論,找出在未知的情況中一樣適用的模式。

雖然歸納是一輯推論,但是歸納總讓人覺得不合理。這是因為歸納必須依據過度簡化的假設假設是我們設法在歸納上有問突破的關鍵。沒有假設,你根本無法設計學習方法。我們對於世界運作方式的了解,還不足以讓我們設計出完美的學習。如果我們對世界運作方式有足夠的了解,就不需要機器學習來進行預測

建模方式各有不同,卻全都面臨同樣的挑戰:盡可能多學習,但不要過度學習。

大多數學習方法的目的都是要找出一個有效的預測模型,起初通常是以一個瑣碎、簡單、笨拙的模型開始,經過反覆修改,猶如應用「基因突變」直到找出一館有效的預測模型。

如果是以數學公式為主的方式,即是挑選隨機變數,以一個隨機模型為起點,然接重複微調變數,直至公式能做出準確的預測。

對於所有學習技術,訓練資料會引導每次修改,設法改善整個資料集的預測績效。

測試機器是否過度學習,那就是保留一些資料測試模型。隨機挑選一個測試集(test set),並將這些資料跟其他資料加以隔離。只用剩餘的資料當成訓練集,來設計預測模型。然後,利用測試集評估機器學習產生的模型。由於測試集並未用來設計模型,因此模型不可能理解這部分資料的特性。這樣一來,模型針對測試集做出的預測結果。就能當成模型對一般資料的合理績效評估,也就是對模型預測能力做出的實際評估。為了評估預測模型,就必須使用客觀無偏(unbiased)的測試集。

決策樹若長得太大,分支到更多更小的區隔,就會出現過度學習。除非我們能細心照料,不讓決策樹任意生長,否則決策樹最後便無法發揮效力。

簡單講就是,讓決策樹盡量開枝散葉,然後再加以修剪。訣竅在於,不依據決定決策樹生長的訓練資料,而是依據能透露生長變異的測試資料來做修剪。這是相當簡練確切的解決方案,能在學習不足與過度學習之間取得一個巧妙平衡。

修剪決策樹就是進行回溯,把後來證實為錯誤的一些機器學習修改步驟回復。藉由這些回復動作,修剪掉一些枝葉,就能找出一個濃纖合度的平衡模型。有效的預測模型也是這樣存在於決策樹之中。

留言

這個網誌中的熱門文章

小褶 Life(3) 古亭景美線段

經過上周的總統大選後,想說可以好好地規劃路線,這週末再來享受我的Bike Life,沒想到天氣預報一直恐嚇著我:「週末會下雨,週末會下雨,週末會下雨......。」 哇靠,早上起來,天色是有些陰暗,查了yahoo天氣,竟然下雨機率僅20%,趕緊重新考慮騎車的路線。 這次的目標是新店溪。 想說從哪邊切入比較好,唔,從師大路那邊進古亭河濱公園看來是不錯的選擇,要是下午真的下雨,就在師大路那邊晃一下午也比較安全。 查了google map,怪怪的,不知哪邊是公園的入口處。 不管了,到那附近再說,總有路口的。 結果是......迷路了。 -___-||| 到師大路跟兒童交通博物館那邊,就是看不到古亭河濱公園的入口。 沒辦法,走確定知道的路,以前新店上班時,總是從思源街接到景美堤外便道,果然,從那邊進去就對了。 (後來從古亭河濱公園也騎到中正河濱公園,才發現,那邊只有很小一條汽車進來的道路,真的很難找。 建議從思源街沿自來水廠那邊進來比較方便。) 就目前騎的3個線段而言,沿景美溪新店溪的河濱是最好騎的了,路又寬廣又平直,要飆車也容易。 看看地圖,只到舊橋就沒了,不知什麼時候才會完工咧...... 這樣,之後還可以直接騎到動物園咧!! 這個線段有較多的網球場地,靠古亭河濱公園那邊還有羽球場地,騎車的族群跟前兩次的線段比較起來,嗯,在地居民比較多(關渡到淡水則是遊客特多),應該是方便的緣故吧,騎Dahoon折疊車的人也比較多,莫非這附近有Dahoon專賣店?! 終點出來就到景美夜市一帶。 不錯的塗鴉作品。北市很多自行車道旁的圍牆,是開放給民眾塗鴉的。 (旁邊有 borther的簽名,莫非這是傳說中塗鴉客brother先生的作品?! 但......割腕的少女 ...... 繪在自行車道的旁邊,想表達什麼咧!?) 在終點處有很大的Taipei Cycling Mark。 雖然一開始有些小迷路,但也剛好繞到了兒童交通博物館......的外面,跟小丸子的看板合照。 門票太貴了,也聽有人說其實有些不值得,所以也不打算買票進去。 >___

能力並非來自於神來之筆

建立深度關係的關鍵是投入,經由時間與精力的累計,你與這一事物的關係日益深厚,你逐漸掌握了它,與它相遇,而能力,是你的存在與它的存在相遇的副產品。 事實上,能力差的人,常是太期待神來之筆的人。 具體來說就是,他們覺得,一旦某個事物被自己掌握,那首先是因為我掌握了自己;如果它沒有被掌握,那是因為我沒有掌握好自己。即,我狀態好,就可以讓周圍世界如我所願;我狀態不好,周圍世界就不能如我所願——倒推後其實是這句:當外界不如自己所願時,他們會在自己身上找原因,因他們認定,自己是能輕鬆掌控世界的,而狀態不好,就是能找到的最直接原因。 因這一邏輯,他們花很大力氣去調整狀態,還會花很多時間去等待自己狀態好,而不懂得,關鍵是持續投入,瑣細努力即可累積出成功。 能力是建立深度關係的副產品,而建立關係時,比努力更為關鍵的一點是,你不是自戀地將自己意願強加在這一事物之上的,而是臣服於這一事物。不是你個人太牛逼,所以掌握了這一事物,而是你臣服,放下自戀,放下預期和判斷,放空自己,然後你就可以與這一事物的存在相遇了。 能持續努力的人,是有了相對成熟的心理:我未必能立即掌握一個事物,但只要我持續努力,並且尊重這一事物自身的規律,我會與這一事物建立起很好的關係。 一旦有“我這個人失敗了”的感覺,一個人就會體驗到,伴隨著自我崩塌感的,是無力感,即你感覺暫時發不出力量了。其實,只是你暫時控制不了外部事物而已。 成功者會相對擁有更多神來之筆,但絕非“一直擁有”,且“神來之筆”之所以會有,是大量投入而與事物建立了關係的結果。 總結一下,要破除對“神來之筆”過於期待而不受挫的心理,需要懂得這樣幾點: 一、能力是建立了深度關係的結果; 二、建立深度關係需要持續的投入; 三、建立深度關係的關鍵,不是將你的自戀強加於事物之上,而是放下自戀想像,尊重事物本身的真實規律; 四、一件外部事物能否被我控制,取決於那一刻我的內部狀態,這是嬰兒式全能自戀心理的殘留; 五、一受挫,就覺得“我整個人不好”,也源自全能自戀心理——我和整個世界是一體的,所以我能控制一切,否則就意味著一切都是我控制不了的; 六、關鍵不是要神來之筆這種好的感覺,而是如何處理挫敗感。 -- 《巨嬰國》

GLOOMY BEAR 暴力熊

Gloomy Bear身世背景: Gloomy是一隻在路邊被遺棄的粉紅色小熊 , 被小朋友Pity發現,並將牠帶回家中收養, 並為小熊取名為Gloomy。 可惜.....Gloomy外表可愛,但因為被拋棄的緣故~卻有著一般熊的暴力性格, 長大長出爪子後就時常向主人用暴力招數打招呼, 而Pity就慘被Gloomy日日夜夜地欺負!悲慘ㄉ人生就這樣子開始囉!! 暴力熊喜好~咬主人頭, 而牠的主人,復原能力極高...打不死喔~厲害厲害! 暴力熊顏色:粉紅色,金色,銀色,紅色,藍色,黃色,還有罕見的綠色與混色。 粉紅色暴力熊性別:女 頭大身細,眼珠黑色,爪白色兼尖利,具有殺傷力,她多數用口爪殺人,殺完人後喜歡在街上徘徊。 小主人每次都被暴力熊揍得半死兼頭破血流, 但仍然不離不棄地緊緊抱住這隻血腥的寵物; Pity就算受到傷害亦要讓開心的回憶遮掩,然後繼續微笑期待小熊再次跟他一起溫習/做功課/看書;相信等待他的會是小熊的溫柔而非暴力傷害; 暴力熊和他小主人之間微妙的情感讓人感動又心酸; 這次轉輪科技所推出的暴力熊,內容包含小男孩Pity與粉紅熊Gloomy兩支一組。造形上善用Gloomy胖胖的軀體,將轉輪關節隱藏其中,全身有14處可動。可替換配件包含小男孩被打的表情,還有防止熊熊咬人的口罩以及牠嘴角流下來的血,原型制作為山口勝久。