兩年內看了幾十本 Big Data 技術相關書籍,試了十幾個技術框架,把覺得對我有幫助的書籍分享一下。
Big Data 系統環境的建置,觀念都在這三本說了:
- 巨量資料的下一步:Big Data新戰略、技術及大型網站應用實錄
- Big data principles and best practices of scalable realtime data systems (by Nathan Marz)
- NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence
主架構上就是使用 Hadoop、MongoDB,不寫為什麼不是Cassandra或是HBase,有故事的。
Real-Timeprocess則是使用Storm / Fluentd / Kafka / Redis,也不用問為什麼不是flume / logstash / Spark,都有用過,一樣有故事,先選如上架構就是。
也不解釋Storm vs. Spark ,會這樣問的都是兩種架構都沒玩過的人,試過就知道,各有其擅長場景,Spark目前個人還是先用在 ML或ETL部分。
- MongoDB: The Definitive Guide
- Hadoop: The Definitive Guide , 4th
- Scaling MongoDB - 50 Tips and Tricks for MongoDB Developers
- Hadoop实战(第2版) 陆嘉恒
- Storm Blueprints: Patterns for Distributed Real-time Computation
- Storm Real-time Processing Cookbook
- Learning Apache Kafka - Second Edition
- Redis入门指南(第2版)
資料分析,先試了R,嚴格說起來,R看的書還比Python的多,這邊推薦的只是個人偏好問題。
- Agile Data Science: Building Data Analytics Applications with Hadoop
- Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython
- Machine Learning in Action
- Machine Learning with R
- The Docker Book: Containerization is the new virtualization
- Vagrant: Up and Running
- Ansible: Up and Running
Big Data System 太深了,花了近18個月,弄了幾十個實驗,才有架構設計上的sense,至於數據分析方面,花了幾個月,也只能說「略懂」、「略懂」。
耗了不少精力,只能說公司若要搞Big Data,起碼需要一個小隊。
一般大數據商業應用思考的書,可看:
- 大數據的獲利模式
- 大數據的關鍵思考
- 大數據時代的致勝決策
- BigData讓你看見真實慾望
- 精準預測:如何從巨量雜訊中,看出重要的訊息?
- 大數據
- 開放資料大商機
- 預測分析時代
另外,哈佛商業評論某期中有一篇:誰需要巨量資料,也很值得閱讀。
留言