預測分析時代:讓數據告訴你,誰會買、誰說謊、誰會離職、誰會死!Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die |
這本書其實不如預期中的好看,當初是看在「Amazon 商業分類 No.1」的廣告下買的,不過在machine learning的不少觀念確實改變了我舊有的思維,幫助不可謂不大。
對於big data有興趣的,可順便參閱舊文「統計學,最強的商業武器 - 筆記」。
預測建模流程是一種從訓練實例學習,自動處理資料的作業,所以必須將肯定個案和否定個案都包含在內。
預測分析的目標是改善作業效率,而不是為了搞清楚人們的意圖。 ==> 這有巧妙的避開倫理爭議
每個組織必須決定資料的人、事、時、地、儲存期間和原因:
保留--儲存什麼及儲存多久。
取用--哪些員工、哪類人員或團體成員可以取得並檢視哪些資料要素。
分享--要散播什麼資料、散播給組織裡的哪些團體和哪些外部組織。
合併--哪些資料要素可以加以彙整或結合。
反應--如何依據各項資料要素決定組織的反應、對外拓展或其他行為。
偏見有循環性,是一種自我應驗的預言,而且這種循環會因為運用預測分析而受到強化。
扼殺機器學習的元凶就是過度學習(或稱過度擬合〔overfitting〕)。過度學習是指誤把雜訊當資訊,對於資料已顯示的訊息做過多的報設。如果你針對數字做過多的解讀,你就會過度學習,越走越偏,無法發現資料潛藏的事實。
機器學習的目的是歸納(induction) :歸納----從詳細事實到一般通則的推論。
不過,可別把歸納跟演繹(deduction)混為一談,因為兩著恰好相反:
演繹----從通則到特定個案的提論(或說是從因到果的推論)。
演繹通常比較直截了當,只是應用已知知規則。舉例來說,如果所友人都會死,蘇格拉底是人,演繹法告訴我們,蘇格控底也會死。
歸納是一種藝術形式,我們手中握有世界如何運作的縮影:資料把發生過的事情詳實記錄下來。我們設法能資料中尋找概論,獲得重要推論,找出在未知的情況中一樣適用的模式。
雖然歸納是一輯推論,但是歸納總讓人覺得不合理。這是因為歸納必須依據過度簡化的假設。假設是我們設法在歸納上有問突破的關鍵。沒有假設,你根本無法設計學習方法。我們對於世界運作方式的了解,還不足以讓我們設計出完美的學習。如果我們對世界運作方式有足夠的了解,就不需要機器學習來進行預測。
建模方式各有不同,卻全都面臨同樣的挑戰:盡可能多學習,但不要過度學習。
大多數學習方法的目的都是要找出一個有效的預測模型,起初通常是以一個瑣碎、簡單、笨拙的模型開始,經過反覆修改,猶如應用「基因突變」直到找出一館有效的預測模型。
如果是以數學公式為主的方式,即是挑選隨機變數,以一個隨機模型為起點,然接重複微調變數,直至公式能做出準確的預測。
對於所有學習技術,訓練資料會引導每次修改,設法改善整個資料集的預測績效。
測試機器是否過度學習,那就是保留一些資料測試模型。隨機挑選一個測試集(test set),並將這些資料跟其他資料加以隔離。只用剩餘的資料當成訓練集,來設計預測模型。然後,利用測試集評估機器學習產生的模型。由於測試集並未用來設計模型,因此模型不可能理解這部分資料的特性。這樣一來,模型針對測試集做出的預測結果。就能當成模型對一般資料的合理績效評估,也就是對模型預測能力做出的實際評估。為了評估預測模型,就必須使用客觀無偏(unbiased)的測試集。
決策樹若長得太大,分支到更多更小的區隔,就會出現過度學習。除非我們能細心照料,不讓決策樹任意生長,否則決策樹最後便無法發揮效力。
簡單講就是,讓決策樹盡量開枝散葉,然後再加以修剪。訣竅在於,不依據決定決策樹生長的訓練資料,而是依據能透露生長變異的測試資料來做修剪。這是相當簡練確切的解決方案,能在學習不足與過度學習之間取得一個巧妙平衡。
修剪決策樹就是進行回溯,把後來證實為錯誤的一些機器學習修改步驟回復。藉由這些回復動作,修剪掉一些枝葉,就能找出一個濃纖合度的平衡模型。有效的預測模型也是這樣存在於決策樹之中。
留言