預測分析時代

預測分析時代：讓數據告訴你，誰會買、誰說謊、誰會離職、誰會死！

Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die

這本書其實不如預期中的好看，當初是看在「Amazon 商業分類 No.1」的廣告下買的，不過在machine learning的不少觀念確實改變了我舊有的思維，幫助不可謂不大。

對於big data有興趣的，可順便參閱舊文「統計學，最強的商業武器 - 筆記」。

預測建模流程是一種從訓練實例學習，自動處理資料的作業，所以必須將肯定個案和否定個案都包含在內。

預測分析的目標是改善作業效率，而不是為了搞清楚人們的意圖。 ==> 這有巧妙的避開倫理爭議

每個組織必須決定資料的人、事、時、地、儲存期間和原因:
保留--儲存什麼及儲存多久。
取用--哪些員工、哪類人員或團體成員可以取得並檢視哪些資料要素。
分享--要散播什麼資料、散播給組織裡的哪些團體和哪些外部組織。
合併--哪些資料要素可以加以彙整或結合。
反應--如何依據各項資料要素決定組織的反應、對外拓展或其他行為。

偏見有循環性，是一種自我應驗的預言，而且這種循環會因為運用預測分析而受到強化。

扼殺機器學習的元凶就是過度學習（或稱過度擬合〔overfitting〕）。過度學習是指誤把雜訊當資訊，對於資料已顯示的訊息做過多的報設。如果你針對數字做過多的解讀，你就會過度學習，越走越偏，無法發現資料潛藏的事實。

機器學習的目的是歸納（induction) :歸納----從詳細事實到一般通則的推論。

不過，可別把歸納跟演繹（deduction）混為一談，因為兩著恰好相反：

演繹----從通則到特定個案的提論（或說是從因到果的推論）。

演繹通常比較直截了當，只是應用已知知規則。舉例來說，如果所友人都會死，蘇格拉底是人，演繹法告訴我們，蘇格控底也會死。

歸納是一種藝術形式，我們手中握有世界如何運作的縮影：資料把發生過的事情詳實記錄下來。我們設法能資料中尋找概論，獲得重要推論，找出在未知的情況中一樣適用的模式。

雖然歸納是一輯推論，但是歸納總讓人覺得不合理。這是因為歸納必須依據過度簡化的假設。假設是我們設法在歸納上有問突破的關鍵。沒有假設，你根本無法設計學習方法。我們對於世界運作方式的了解，還不足以讓我們設計出完美的學習。如果我們對世界運作方式有足夠的了解，就不需要機器學習來進行預測。

建模方式各有不同，卻全都面臨同樣的挑戰：盡可能多學習，但不要過度學習。

大多數學習方法的目的都是要找出一個有效的預測模型，起初通常是以一個瑣碎、簡單、笨拙的模型開始，經過反覆修改，猶如應用「基因突變」直到找出一館有效的預測模型。

如果是以數學公式為主的方式，即是挑選隨機變數，以一個隨機模型為起點，然接重複微調變數，直至公式能做出準確的預測。

對於所有學習技術，訓練資料會引導每次修改，設法改善整個資料集的預測績效。

測試機器是否過度學習，那就是保留一些資料測試模型。隨機挑選一個測試集(test set)，並將這些資料跟其他資料加以隔離。只用剩餘的資料當成訓練集，來設計預測模型。然後，利用測試集評估機器學習產生的模型。由於測試集並未用來設計模型，因此模型不可能理解這部分資料的特性。這樣一來，模型針對測試集做出的預測結果。就能當成模型對一般資料的合理績效評估，也就是對模型預測能力做出的實際評估。為了評估預測模型，就必須使用客觀無偏(unbiased)的測試集。

決策樹若長得太大，分支到更多更小的區隔，就會出現過度學習。除非我們能細心照料，不讓決策樹任意生長，否則決策樹最後便無法發揮效力。

簡單講就是，讓決策樹盡量開枝散葉，然後再加以修剪。訣竅在於，不依據決定決策樹生長的訓練資料，而是依據能透露生長變異的測試資料來做修剪。這是相當簡練確切的解決方案，能在學習不足與過度學習之間取得一個巧妙平衡。

修剪決策樹就是進行回溯，把後來證實為錯誤的一些機器學習修改步驟回復。藉由這些回復動作，修剪掉一些枝葉，就能找出一個濃纖合度的平衡模型。有效的預測模型也是這樣存在於決策樹之中。

Krilo Life

搜尋此網誌

預測分析時代

預測分析時代：讓數據告訴你，誰會買、誰說謊、誰會離職、誰會死！

標籤

留言

這個網誌中的熱門文章

Alison Krauss的『When you say nothing at all』

GLOOMY BEAR 暴力熊

明天是晴天嗎(明日晴れるかな)