{首页主词},&

接著前兩篇對大數據的介紹之后，本篇從實際操作的角度分享大數據內部關鍵的運作機制，這是在真正開始學習大數據之前對大數據的一個概覽。為的是讓我們成為大數據的主人。以下是小編為你整理的怎么樣學大數據分析 ?

大數據運行機制 ?

這是對大數據運行機制的概覽，如果你閱讀過上一篇(OODA)，就會感覺非常熟悉。不錯，他們在概念上是如出一撤的!不過實際操作卻又有巨大的不同。

怎么樣學大數據分析

收集數據： ?

大數據的*站就是收集和存儲海量數據(公開/隱私)。現在每個人都是一個巨大的數據源，通過智能手機和個人筆記本釋放出大量的個人行為信息。獲取數據似乎已經變得越來越容易，數據收集這一模塊*的挑戰在于獲取海量數據的高速要求以及數據的全面性考慮。 ?

清洗數據： ?

傳統商業智能在數據清洗處理的做法(ETL)是，把準確的數據放入定義好的格式中，通過基礎的抽取統計生成高維度的數據，方便直接使用。然而大數據有個最突出的特征——數據非結構化或者半結構化。因為數據有可能是圖片，二進制等等。數據清洗的*挑戰來了——如何轉化處理大量非結構數據，便于分布式地計算分析。 ?

硬件： ?

這是大家都很熟悉的概念，和大數據相關的是虛擬化。主要包括存儲虛擬化，計算虛擬化。因此又說虛擬化存儲和云計算是大數據的“左膀右臂”!!大數據還需要支持多種類型的數據庫，因此一個支持擴展的數據倉庫是大數據中的基礎。 ?

HBase/Sqoop/Flume(數據導入與導出): ?

HBase是運行在HDFS架構上的列存儲數據庫，并且已經與Pig/Hive很好地集成。通過Java API可以近無縫地使用HBase。 ?

Sqoop設計的目的是方便從傳統數據庫導入數據到Hadoop數據集合(HDFS/Hive)。 ?

Flume設計的目的是便捷地從日志文件系統直接把數據導到Hadoop數據集合(HDFS)中。 ?

以上這些數據轉移工具都極大的方便了使用的人，提高了工作效率，把經歷專注在業務分析上! ?

ZooKeeper/Oozie(系統管理架構)： ?

ZooKeeper是一個系統管理協調架構，用于管理分布式架構的基本配置。它提供了很多接口，使得配置管理任務簡單化! ?

Oozie服務是用于管理工作流。用于調度不同工作流，使得每個工作都有始有終。 ?

這些架構幫助我們輕量化地管理大數據分布式計算架構。 ?

7 ?

Ambari/Whirr(系統部署管理)： ?

Ambari幫助相關人員快捷地部署搭建整個大數據分析架構，并且實時監控系統的運行狀況。 ?

Whirr的主要作用是幫助快速的進行云計算開發。

Mahout(機器學習)： ?

Mahout旨在幫助我們快速地完成高智商的系統。其中已經實現了部分機器學習的邏輯。這個架構可以讓我們快速地集成更多機器學習的智能!! ?

大數據服務對比 ?

不同大數據服務提供商有不同的產品線，因此不同提供商的產品適用場景也會有所不同。我們重點分析三大服務提供商的大數據服務架構。 ?

亞馬遜 ?

擁有大量關于大數據處理的經驗。初期大數據使用者大部分都使用亞馬遜打造的Hadoop架構服務(EC2)。 ?

經過厚重沉淀之后，Amazon在2009年提供開發EMR大數據服務。EMR服務提供了多種大數據處理分析方案，比如簡單查詢服務，關聯數據分析服務。EMR服務可以使用Hadoop語言繼續開發，并且訪問EMR服務的步驟也相當簡單并且安全。 ?

亞馬遜使用托管DynamoDB代替HBase，作為易于擴展的NoSQL數據庫。

谷歌 ?

谷歌云服務平臺出類拔萃，它所提供的并非虛擬化解決方案，而是提供由API定義的服務和應用程序。程序員無需顧慮硬件，甚至不需要關心后臺的運作行為。 ?

當然這從某種程度也限制了程序員的工作，不過如果谷歌的服務適合業務，那么使用起來將是全世界*效快捷的大數據架構服務。 ?

谷歌的AppEngine作為云平臺管理服務，提供了基于MapReduce的大數據并行計算服務。所有的這些服務都可以通過REST風格的API訪問。 ?

BigQuery作為分析的數據庫，提供了類SQL的查詢語法。它的性能要比Apache Hive來得快! ?

微軟 ?

微軟在大數據中屬于后來居上者。通過Microsoft Azure大數據服務平臺，微軟融合自身海量成熟的軟件，例如SQL Server，提供了多種IaaS服務。 ?

微軟的服務面向更多的程序員，使得可以使用不同語言來對接大數據平臺Azure。Azure旨在提供一個生態的大數據分析開發環境，使得普通研究員也可以施展自己對大數據的理解! ?

Hadoop大比較 ?

為什么選擇Hadoop，而不是其他數據處理架構，比如傳統關系型數據庫或者其他。Hadoop在我的眼里，更像是在“暴力解鎖”，它可以處理每一條數據，乃至每一種可能的設想。Hadoop的巨大貢獻在于快速分析大數據所隱藏的事實，這在過去也許需要幾天甚至幾個月的時間才能完成，而Hadoop很可能只需要幾分鐘甚至幾秒鐘的時間就可以很完整地做好! ?

關系型數據庫的幾個特點使得它無緣大數據分析，當然它也有自己擅長的領域。 ?

(1)磁盤可以存儲大量內容，卻無法快速存取!并且存儲空間的擴展是有限度的。 ?

(2)在更新一小部分數據的同時，會對整張表乃至整個數據庫都會產生影響。 ?

(3)要求存儲的數據都是結構化的，能處理的數據也都是結構化。 ?

網格計算嘗試通過多臺機器(不同的任務)處理和管理共享文件系統，最終達到大數據計算的目的。這樣的嘗試以網絡帶寬的約束而失敗告終。因為數據量達到GB級別以上時，網格計算的方法顯得力不從心。不過網格計算用在中小型科研實驗確實是說一不二的選擇! ?

天才領路者

終于知道怎么樣學大數據分析