9.06.2014

預測分析時代

 

getImage

預測分析時代:讓數據告訴你,誰會買、誰說謊、誰會離職、誰會死!

Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die


這本書其實不如預期中的好看,當初是看在「Amazon 商業分類 No.1」的廣告下買的,不過在machine learning的不少觀念確實改變了我舊有的思維,幫助不可謂不大。

對於big data有興趣的,可順便參閱舊文「統計學,最強的商業武器 - 筆記」。


預測建模流程是一種從訓練實例學習,自動處理資料的作業,所以必須將肯定個案和否定個案都包含在內。

預測分析的目標是改善作業效率,而不是為了搞清楚人們的意圖。  ==> 這有巧妙的避開倫理爭議

每個組織必須決定資料的人、事、時、地、儲存期間和原因:
保留--儲存什麼及儲存多久。
取用--哪些員工、哪類人員或團體成員可以取得並檢視哪些資料要素。
分享--要散播什麼資料、散播給組織裡的哪些團體和哪些外部組織。
合併--哪些資料要素可以加以彙整或結合。
反應--如何依據各項資料要素決定組織的反應、對外拓展或其他行為。

偏見有循環性,是一種自我應驗的預言,而且這種循環會因為運用預測分析而受到強化。

扼殺機器學習的元凶就是過度學習(或稱過度擬合〔overfitting〕)。過度學習是指誤把雜訊當資訊,對於資料已顯示的訊息做過多的報設。如果你針對數字做過多的解讀,你就會過度學習,越走越偏,無法發現資料潛藏的事實。

機器學習的目的是歸納(induction) :歸納----從詳細事實到一般通則的推論。

不過,可別把歸納跟演繹(deduction)混為一談,因為兩著恰好相反:

演繹----從通則到特定個案的提論(或說是從因到果的推論)。

演繹通常比較直截了當,只是應用已知知規則。舉例來說,如果所友人都會死,蘇格拉底是人,演繹法告訴我們,蘇格控底也會死。

歸納是一種藝術形式,我們手中握有世界如何運作的縮影:資料把發生過的事情詳實記錄下來。我們設法能資料中尋找概論,獲得重要推論,找出在未知的情況中一樣適用的模式。

雖然歸納是一輯推論,但是歸納總讓人覺得不合理。這是因為歸納必須依據過度簡化的假設假設是我們設法在歸納上有問突破的關鍵。沒有假設,你根本無法設計學習方法。我們對於世界運作方式的了解,還不足以讓我們設計出完美的學習。如果我們對世界運作方式有足夠的了解,就不需要機器學習來進行預測

建模方式各有不同,卻全都面臨同樣的挑戰:盡可能多學習,但不要過度學習。

大多數學習方法的目的都是要找出一個有效的預測模型,起初通常是以一個瑣碎、簡單、笨拙的模型開始,經過反覆修改,猶如應用「基因突變」直到找出一館有效的預測模型。

如果是以數學公式為主的方式,即是挑選隨機變數,以一個隨機模型為起點,然接重複微調變數,直至公式能做出準確的預測。

對於所有學習技術,訓練資料會引導每次修改,設法改善整個資料集的預測績效。

測試機器是否過度學習,那就是保留一些資料測試模型。隨機挑選一個測試集(test set),並將這些資料跟其他資料加以隔離。只用剩餘的資料當成訓練集,來設計預測模型。然後,利用測試集評估機器學習產生的模型。由於測試集並未用來設計模型,因此模型不可能理解這部分資料的特性。這樣一來,模型針對測試集做出的預測結果。就能當成模型對一般資料的合理績效評估,也就是對模型預測能力做出的實際評估。為了評估預測模型,就必須使用客觀無偏(unbiased)的測試集。

決策樹若長得太大,分支到更多更小的區隔,就會出現過度學習。除非我們能細心照料,不讓決策樹任意生長,否則決策樹最後便無法發揮效力。

簡單講就是,讓決策樹盡量開枝散葉,然後再加以修剪。訣竅在於,不依據決定決策樹生長的訓練資料,而是依據能透露生長變異的測試資料來做修剪。這是相當簡練確切的解決方案,能在學習不足與過度學習之間取得一個巧妙平衡。

修剪決策樹就是進行回溯,把後來證實為錯誤的一些機器學習修改步驟回復。藉由這些回復動作,修剪掉一些枝葉,就能找出一個濃纖合度的平衡模型。有效的預測模型也是這樣存在於決策樹之中。

沒有留言: