2.08.2014

精準預測 - 筆記

getImage

若要我選出2013年對我思考有幫助的20本書,這本一定在其中。
(當然不是說我去年只看20本書  XD,去年的閱讀總量有紀錄的是283本……)


預測最難的部分:從巨量資料中分辨出雜訊和真正的信號。

無論統計的結果如何,如果你沒辦法找到它背後的道理,那就代表這次的分析出了問題。

人總是照自己的意思解釋事情,完全錯失了這些事情本身真正的意義。 --莎士比亞

我們永遠不可能做出完全客觀的預測。預測永遠都會受到我們主觀看法的影響。

對卡爾.波普(科學哲學家)來說,一個假設,除非可以被證明為偽,不然就是不科學的。

風險與不確定性的差別:風險可以標上價格,像是發生的機率為1/10,不確定性是難以衡量的風險,對於潛藏其中的魔鬼,或許有些模糊的印象,但你不清楚到底有多少魔鬼,也不知道它們什麼時候要攻擊。
評等機構做的就是粉飾不確定性,使之看起來或感覺像是風險。

預測模型三原則:
1. 用機率思考
    不是丟出一個數字,宣稱會知道什麼事,而是提出一個範圍的可能結果。
    (如果什麼因素多了五個百分點,那成功的機率就多了xx%。)

2.今天的預測就是你餘生的第一個預測
   正確的態度就是你應該做出今天最有可能的預測。
   (不管之前說過了什麼。『事實改變的時候,我就改變我的想法』--凱恩斯)

3.尋求共識
   集體或團體的預測通常比單獨的預測更準確,但這不表示團體的預測就是好的。

做好預測的關鍵在於不要限制自己只看量化的資訊,關鍵在於適切評估資訊的良好過程。
(亦即發展工具和習慣。)

因為電腦程式對氣象系統中自然發生的反饋過度敏感,會開始產生自己的反饋。這不只是在雜訊中再也找不到訊號而已,雜訊還被放大了。

預報最重要的檢驗標準之一,稱為校準(calibration)。(也就是好好利用回饋。)

在統計學上,把雜訊當作訊號的動作稱為過度配適(overfitting)。

如果我們不知道、或是不在乎關係的真實狀況,就會有很多理由讓我們傾向於將模型過度配適。

過度配適代表的是雙重打擊:這樣會讓我們的模型在書面上看起來比較好,但在現實世界的表現比較糟。因為後面這項特質,所以過度配適的模型如果拿來做真實的預測,最終還是會得到應有的懲罰。而由於前面那項,所以模型表面上看起來比較今人印象深刻,號稱可以做出非常正確、有報導價值的預測,代表比之前運用過的技術更進步,直到遭到懲罰為止。這樣會議這個模型比較容易登上學術期刊,或是賣給客戶,把比較誠實的模型排擠出市場之外。但如果這個模型配適的是雜訊,就有可能會傷害到科學。

沒有脈絡,資料就沒有用。

我們的社會對專家有需求,但是我們對於正確的預測其實沒那麼大的需求。

外推法(extrapolation)是非常基本的預測方法——通常來說,太過基本了。這個方法包含的假設是:目前的趨勢會無限的延續下去,直到未來。有些最知名的預測失誤都是太過隨意應用這個假設所造成的。

預測這個動作本身就可以改變人們的行為方式。
有時候,這些行為改變會影響預測本身的結果,可能會讓預測失效。

一個好的模型就算失誤了也會很有用。「想當然爾,不管我們做什麼樣的預測,平均來說都會是錯的。」奧佐諾夫告訴我。「所以重點通常在於了解是怎麼錯的,錯了的時候該做什麼,還有錯了的時候要怎麼把我們的代價減到最低。」

關鍵在於要記得,模型是種工具,幫助我們了解宇宙的複雜,而永遠不能代替宇宙本身。這一點不止在我們做預測時候很重要。

貝耶斯的主張不是說這個世界本質上就是機率性的或不確定的。
他們的主張應該說是種陳述--用數學和哲學的方式表達--我們如何認識這個宇宙:我們用趨近法認識宇宙,隨著我們收集的證據越多,我們越來越接近真理。
貝氏定理與條件機率有關。也就是說,這個定理會告訴我們如果某些事件發生之後,某個理論或假設為真的機率有多少。

貝氏定理背後的概念不是要我們只要更新一次機率的估計就好。而是說,隨著我們看到新的證據出現,我們就應該不斷地這樣做。

在人生大部分的領域中,最重要的是想出機率,而不是提出是與否。

任何預測模型的目標都在於捕捉到的訊號要盡量的多,雜訊要盡量的少。

「你的模型越複雜,預測就越差。」

在正式的用法上,「共識」(consensus)跟「一致同意」(unanimity)並不是同義字」」不是達到了單純的多數。共識隱含的是經過商議的過程後大體上意見一致」」在這段時間中,團體的大多數成員會統整成某個特定的想法或替代方案。(例如:「我們達成共識,要吃中國菜當午餐,但是賀拉修決定要吃披薩。」)
事實上,以共識為導向的過程通常代表的是投票的替代方案。

貝氏定理鼓勵我們,對自己衡量新資訊的方式要自我要求。要是我們的想法值得,我們就應該願意建立可以證偽的假設,用這些想法來提出預測,檢驗它。大多數的時候,我們不會去意識到資料中有多少雜訊,所以我們的偏差是會去太過著重最新的資料點。

但是我們如果在個人層面或專業層面上投注太多心力在某個問題上,也會有相反的偏差,在事實向我們提出挑戰的時候,沒有去挑戰自己的想法。

你越是經常願意去檢驗你的想法,你就越快會開始去避開這些問題,從你的錯誤中學習。

…… (其餘筆記放至google Docs上。)

沒有留言: