大演算：機器學習的終極演算法將如何改變我們的未來，創造新紀元的文明 notes

大演算：機器學習的終極演算法將如何改變我們的未來，創造新紀元的文明？

這本《大演算》，500頁的書，完整筆記就做了兩萬五千字，讓我受益匪淺的一本書，絕對是我2016 Top 10選書。

★亞馬遜AI與機器學習類暢銷榜　第1名
★亞馬遜數學與統計類暢銷榜　第1名
★亞馬遜資訊理論類暢銷榜　第1名
★CNN、《新科學人》、《經濟學人》、《柯克斯書評》等多家媒體推薦報導
★比爾．蓋茲年度選書！

如果你已瞭解了一些 machine learning的演算法原理，像是SVM / bayes / tree ...，就更能瞭解作者多明戈斯的天才，也更能享受本書帶來的知識及想法。

多明戈斯認為，如果有人可以成功整合這些演算法的優點，就能發展出「終極演算法」，便可以從大數據與人工智慧中，獲得世界上過去、現在與未來的所有知識，將創造新紀元的文明。

本書主要的思想學派共分成五個，將為每個學派開闢一個章節專門介紹。

符號理論學派( Symbolists ）將學習視為是一種逆向演繹法，是從哲學、心理學和邏輯思路方面取得概念。
類神經網路學派（ Connectionists ）會進行大腦的反向工程（ reverse engineer ），主要是受到神經科學和物理學的啟發，模擬人腦思考行為。
演化論學派（ Evolutionaries ）會在電腦上模擬演化演變，澈底運用遺傳學（ genetics ）和演化生物學(evolutionary biology ）理論。
貝氏定理學派（ Bayesians ）相信學習是機率推理的一種形式，是根據統計學做為理論的依據。
而類比推理學派（ Analogizers ）則是透過從相似度判斷進行推論學習，並且受到心理學和數學的最佳化影響。

當我們在認識每一種思想學派時，我們的目標是蒐集完整的機器學習拼圖，並詳加解讀每一類型演算法適合應用的地方。要注意的是，沒有一位盲人可以正確摸熟整隻大象身軀。

並非所有機器學習演算法的運作都一樣，其差異也會產生不同的影響。以亞馬遜和Netflix 的推薦系統（ recommenders ）為例，每家公司都試圖經由網站流程介面引導「適合你」的採購行為，試圖確認什麼是你「需要」的商品，亞馬遜系統會推薦你瀏覽以前經常光顧的貨架﹔ Netflix 系統則會帶你瀏覽商店中你尚未瀏覽、陌生且看似新奇特異的部分，協助你找到最終會喜歡的影片。

有些學習器是學習知識，有的學習器是學習技能。

電腦科學歷來都是關於確定性（ deterministically ）的思維，但機器學習則是需要統計的思維。

事實上所有主要的學習器，包括最近鄰居演算法、決策樹、貝氏網路，一種概括的簡單貝氏演算法等，都具有以下普遍的意義：如果你給予學習器足夠數量的適當資料，學習器就可提供密切近似的任何函數(function)，這是學習任何事物的一種數學說詞。唯一美中不足的，所謂「足夠的資料」可能是極為龐大。因為從有限的數據資料中學習，必然需要做出假設，因此我們可以看到，不同的學習器會做出不同的假設，這使得它們只能做好某些事情，而不適用於各種情況。

這本書的核心假設:
透過一個單一、通用的機器學習演算法，可以從數據資中，推論出過去、現在和未來的所有知識。

有些事情是可以預測的，有些則無法預測，機器學習專家的首要責任，就是區分這兩類。
在一般的情況下，大多數銀行的模型都無法做出精準的預測，然而這是由於這些模型本身所具有的局限，並不是機器學習的限制。

為了使用一種技術，我們不需要精通它的內部運作原理，但我們的確需要針對這項技術，擁有一個好的概念模型。例如：我們不需要了解收音機的內部構造，只需要知道如何在收音機上找到一個廣播電臺，或是改變音量。
也許最重要的是，一旦我們也了解，一個特定的學習器是如何成其推論，那麼我們才會知道如何去看待這些資訊，要相信什麼、要反饋給製造商什麼修正意見，以及如何在下一次得到更好的結果。

貝氏定理(Bayes' theorem)，就是告訴我們當你觀察到新的事證時，如何依此更新你的信念。貝氏定理學習器(Bayesian learner)是從提出一系列關於這個世界的假設開始。當學習器觀察到新的數據資料時，原本已推導出的假設就會變得更具可能性，而且這些假設不會變得不太可能，甚至是不可能的。當學習器觀察到足夠的數據資料後，一個單一假設或是少數假設就會占有重要的地位。

大演算使採用一種歸納法(induction)，而圖靈機(Turing Machine，指的是寫程式的方法)採用的是演繹法(deduction)。

理論的力量在於它能簡化多少我們對世界的描述。

一個相關、經常聽到的反對意見是「數據資料不能取代人類的直覺」。事實上卻是相反，因為人類的直覺不能取代數據資料。通常當你不知道事情的真相時，你會使用直覺去判斷，而且因為你往往並不知道，所以直覺是很寶貴的。但當證據都擺放在你面前時，你為什麼會否認它呢?

對於符號理論學派來說，所有的智慧可以被簡化成操縱符號，就像數學家求解方程式的過程，是透過用其他表達式來替換表達式的方法。符號理論學派明白，你不能從頭學起，你需要一些初步的知識，與數據資料相配合。符號理論學派們已經找到了如何將先前存在的知識納入學習，以及如何快速地將不同的知識進行結合，以解決新的問題。他們的主要演算法是逆向的演繹法，透過這種演算法可以找出哪些知識是欠缺的，以便能做出邏輯的演繹推論，然後使其盡可能地被通則應用。

對於類神經網路學派來說，學習就是人類大腦所做的事情，所以我們需要做的，就是對大腦進行反向工程。大腦的學習是透過調整神經元之間的連結強度，而關鍵的問題是找出哪些神經元的連接，必須對哪些錯誤負責，並依此對應地改變它們。類神經網路學派的主要演算法是倒傳遞理論演算法(Back propagation)，它會比較系統的輸出與期望的輸出，然後依次改變一層又一層的神經元連結，以便使得輸出結果可以更接近於它應該呈現的。

演化論學派則認為，所有學習之母就是物競天擇。如果物競天擇可以造就我們，那麼它就可以造就任何事情，而我們所需要做的，就是在電腦上模擬它。演化論學派所解決的關鍵性問題就是學習的結構，不只是調整參數而已，就像倒傳遞理論演算法所做的，可以創建一種能夠讓這些調整進行微調的大腦。演化論學派的主要演算法是一種遺傳程式規劃(genetic programming)，就像人自然會交配與演化生物一樣;同樣地，遺傳程式規劃也會以相同的方式，繁衍與演化電腦程式系統。

貝氏定理學派最關注的課題就是不確定性。這門學派主張所有學到的知識都是不確定的，而且學習本身就是一種不確定的推理形式。那麼這個問題就變成如何處理雜訊、不完整，以及相互矛盾的資訊，而不會造成分崩離析。解決的辦法就是機率推理，而主要的演算法是貝氏定理與其衍生物。貝氏定理告訴我們如何把新證據轉化為信念，而機率推理演算法則盡可能有效地做到這一點。

對於類比推理學派而言，學習的關鍵是認識各種情況之間的相似之處，從而推斷其他情境的相似地方。如果兩位患者都有相似的症狀，也許他們患有相同的疾病，問題的關鍵是要判斷兩件事情之間是如何相似。類比推理學派的主要演算法就是支持向量機(Support Vector Machine，簡稱SVM)，它可以找出哪些經驗是需要記住的，以及如何結合這些經驗，做出新的預測。

在機器學習領域，先入為主的觀念影響甚巨，只有排除偏見才可能進行學習。

如何從原始資料中探勘出規則定律。標準的解決方式，是假設我們知道真相的形式，而學習器的工作就是不斷地充實它。

資料探勘的意思是指「拷問數據資料，直到它供認為止。」
雜訊（ noise ）嚴重加劇了過度擬合的問題。雜訊在機器學習中，只是意謂著在數據資料裡的錯誤，或是你無法預測的隨機事件。
當你有太多的假設，而且沒有足夠的數據資料可以區分它們時，便會發生過度擬合。壞消息是，即使是簡單的合取學習器，假設數會隨著屬性數呈指數倍增。
學習器嘗試越多的定義，就越有可能在偶然機會下，從它們之中找到一個可以符合所有案例的定義。

科學不只是關於預測而已，它也是關於解釋和理解。但如果你的模型，最終無法對新的數據資料進行準確的預測，你便不能確定自己是否已經能真正了解或解釋這個潛在現象。對於機器學習來說，利用未曾見過的數據資料進行測試，是不可少的驗證過程，因為這是唯一可以告訴我們學習器是否產生過度擬合的現象。

在貝氏定理的核心觀念中，它只是一個簡單的規則，用於當你取得新事證時，更新你對已有假設的信念程度（ degree of belief) ，如果證據與假設一致，這些假設的機率就會上升﹔如果沒有，機率就會下降。

機率並不是一個頻率，但卻是一個主觀的信念程度。因此它取決於你決定要把它設定成多少，而且所有的貝氏定理的推理，就是要讓你可以利用新的證據來更新你的先驗信念，以便獲得你的後驗信念，這也被稱為「激起對貝氏定理的興趣」（ turning the Bayesian crank ）。

對於最近鄰居演算法來說，分類邊界就是暗指資料點的位置與測量的距離，而唯一的成本便是查詢的時間。

形成一個局部模型，而不是一個整體模型的相同概念，也適用在許多分類以外的問題上。科學家們經常使用線性迴歸預測連續變數，但大多數的現象都不是線性的問題。幸運的是，它們是局部線性的問題，因為平滑的曲線可以說是局部近似於直線。因此如果不能嘗試運用一條直線來對應分類所有的數據資料，那麼我們只能把它修正為用查詢點附近的點來進行對應分類，如此一來，你便可以擁有一個非常強大的非線性迴歸演算法。

k-means 演算法的缺點是我們需要提前確認集群的數目，但在現實世界中，總是會意外的遇到新類型的物件。一種選擇是假如這個新的物件與現有的集群差異太大，那麼就讓這個新的物件重新產生一個新的集群﹔另一種選擇是當我們繼續往下執行時，中途允許集群拆分和合併。無論哪種方式，我們可能希望演算法要包含產生較少集群的偏好，免得最後造成每一個物件都產生其自己的集群。

每一個機器學習演算法的三個組成部分：表示法、評估和最佳化。學習器的表示法會限制它可以學習的東西。如果我們想讓學習器成為一個功能非常強大的機器學習演算法，就像馬可夫邏輯網路一樣，那麼原則上學習器便可以學習任何東西。然後最佳化程式會竭盡一切力量，來最大化評估函數，不能多也不能少，而評估函數則是由我們決定的。

機器將會給予我們所要求的事情，而不是我們想要的事情。

......

這本書的內容真的很精彩，學習 Machine learning的朋友千萬不要錯過。

所有的筆記就不 po上來了，有興趣的可以一起來討論。

Krilo Life

搜尋此網誌

大演算：機器學習的終極演算法將如何改變我們的未來，創造新紀元的文明 notes

大演算：機器學習的終極演算法將如何改變我們的未來，創造新紀元的文明？

標籤

留言

這個網誌中的熱門文章

Alison Krauss的『When you say nothing at all』

永遠的少年：村上春樹與海邊的卡夫卡

GLOOMY BEAR 暴力熊