2.02.2016

學習Big Data 的幾本書


兩年內看了幾十本
Big Data 技術相關書籍,試了十幾個技術框架,把覺得對我有幫助的書籍分享一下。

clip_image002

clip_image004

clip_image006

clip_image008

clip_image010

clip_image012

clip_image014

clip_image016

clip_image018

clip_image020

clip_image022

clip_image024

clip_image026

clip_image028

clip_image030

Big Data 系統環境的建置,觀念都在這三本說了:
  • 巨量資料的下一步:Big Data新戰略、技術及大型網站應用實錄
  • Big data principles and best practices of scalable realtime data systems (by Nathan Marz)
  • NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence
主架構上就是使用 HadoopMongoDB,不寫為什麼不是Cassandra或是HBase,有故事的。
Real-Timeprocess則是使用Storm / Fluentd / Kafka / Redis,也不用問為什麼不是flume / logstash / Spark,都有用過,一樣有故事,先選如上架構就是。

也不解釋Storm vs. Spark ,會這樣問的都是兩種架構都沒玩過的人,試過就知道,各有其擅長場景,Spark目前個人還是先用在 MLETL部分。
  • MongoDB: The Definitive Guide
  • Hadoop: The Definitive Guide , 4th
  • Scaling MongoDB - 50 Tips and Tricks for MongoDB Developers
  • Hadoop实战(第2版)  陆嘉恒
  • Storm Blueprints: Patterns for Distributed Real-time Computation
  • Storm Real-time Processing Cookbook
  • Learning Apache Kafka - Second Edition
  • Redis入门指南(第2版)
資料分析,先試了R,嚴格說起來,R看的書還比Python的多,這邊推薦的只是個人偏好問題。
  • Agile Data Science: Building Data Analytics Applications with Hadoop
  • Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython
  • Machine Learning in Action
  • Machine Learning with R


為了快速部署及設定,於是又去搞了Docker,發現尚未成熟(當時使用 ver 1.5),所以還是先回Vagrant使用,加上Ansible,可以加速實驗環境的產生及配置。(好吧,我就是看puppet / chef 不習慣......)

clip_image002[4]clip_image004clip_image006

  • The Docker Book: Containerization is the new virtualization
  • Vagrant: Up and Running
  • Ansible: Up and Running
Big Data System 太深了,花了近18個月,弄了幾十個實驗,才有架構設計上的sense,至於數據分析方面,花了幾個月,也只能說「略懂」、「略懂」。
耗了不少精力,只能說公司若要搞Big Data,起碼需要一個小隊。

一般大數據商業應用思考的書,可看:
  • 大數據的獲利模式
  • 大數據的關鍵思考
  • 大數據時代的致勝決策
  • BigData讓你看見真實慾望
  • 精準預測:如何從巨量雜訊中,看出重要的訊息?
  • 大數據
  • 開放資料大商機
  • 預測分析時代

clip_image002[6] clip_image004[4]clip_image006[4] clip_image008[4]

另外,哈佛商業評論某期中有一篇:誰需要巨量資料,也很值得閱讀。

沒有留言: