隨著互聯網的發展,大數據、云計算等名詞也進入我們的生活的方方面面,那么什么是大數據?什么又是云計算?以下是小編為你整理的如何學好大數據分析 ?
大數據是什么? ?
就字面意思理解就是大量的數據的意思;深入理解大數據是對信息資源和數據的集合,利用這些數據和信息資源分析出有用的資源,這就是大數據。 ?
容量大數據作為信息的集合,它包含了很多潛在的信息,以及各個不同行業的信息,這些信息就是大數據的容量和價值。 ?
大數據的種類有很多,因為它是一個信息的合集,因此它包含多種類別的分析。
大數據不是一成不變的,隨著時間和空間的變化,大數據也會跟著變化。 ?
由于大數數量巨大,來源的渠道有很多,因此它表現出很強的復雜性。 ?
利用大數據可以分析和反映一個行業或者一個市場的一些規律,抓住這些規律,就可以產生價值。 ?
學大數據用什么語言 ?
Linux:因為大數據相關軟件都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置,能少踩很多坑,學會shell就能看懂腳本,這樣能更容易理解和配置大數據集群。 ?
Hadoop:這是現在流行的大數據處理平臺,幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop里面包括幾個組件HDFS、MapReduce和YARN。 ?
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以后的Hbase也會用到它。它一般用來存放一些相互協作的信息。 ?
Hbase:這是Hadoop生態體系中的NOSQL數據庫,他的數據是按照key和value的形式存儲的并且key是*的,所以它能用來做數據的排重。 ?
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理。 ?
Spark:它是用來彌補基于MapReduce處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合做迭代運算。 ?
大數據技術的具體內容 ?
分布式存儲計算架構(強烈推薦:Hadoop) ?
分布式程序設計(包含:Apache Pig或者Hive) ?
分布式文件系統(比如:Google GFS) ?
多種存儲模型,主要包含文檔,圖,鍵值,時間序列這幾種存儲模型(比如:BigTable,Apollo, DynamoDB等) ?
數據收集架構(比如:Kinesis,Kafla) ?
集成開發環境(比如:R-Studio) ?
程序開發輔助工具(比如:大量的第三方開發輔助工具) ?
調度協調架構工具(比如:Apache Aurora) ?
機器學習(常用的有Apache Mahout 或 H2O) ?
托管管理(比如:Apache Hadoop Benchmarking) ?
安全管理(常用的有Gateway) ?
大數據系統部署(可以看下Apache Ambari)
?
搜索引擎架構( 學習或者企業都建議使用Lucene搜索引擎) ?
多種數據庫的演變(MySQL/Memcached) ?
商業智能(大力推薦:Jaspersoft ) ?
數據可視化(這個工具就很多了,可以根據實際需要來選擇) ?
大數據處理算法(經典算法) ?
掌握基于Spark的核心框架使用 ?
1、掌握基于Spark上的核心框架的使用系列課程1: Spark SQL ?
1.1 Spark SQL原理和實現 ?
1.2 使用Spark SQL操作文本文件和DSL ?
1.3 Spark SQL操作JSON和Hive ?
2、掌握基于Spark上的核心框架的使用系列課程2:Spark的圖計算 ?
2.1 Spark GraphX原理和實現 ?
2.2 Table operator和Graph Operator ?
2.3 Verticies、Edges、Triplets ?
2.4 動手編寫GraphX實例 ?
2.5圖操作之Property Operator、Structural Operator ?
2.6圖操作之Computing Degree、Computing Neighbors ?
2.7 圖操作之Join Operators、Map Reduce Triplets ?
2.8 Pregel API ?
2.9 ShortestPaths ?
2.10 PageRank ?
2.11 TriangleCount ?
3、掌握基于Spark上的核心框架的使用系列課程3: Spark實時流處理 ?
3.1 DStream ?
3.2 transformation ?
3.3 checkpoint ?
3.4 案例實戰之一 ?
3.5 案例實戰之二 ?
3.6 案例實戰之三 ?
3.7 案例實戰之四 ?
4、掌握基于Spark上的核心框架的使用系列課程4: Spark的機器學習 ?
4.1 LinearRegression ?
4.2 K-Means ?
4.3 Collaborative Filtering ?
5、掌握基于Spark上的核心框架的使用系列課程5:Spark作為云服務 ?
5.1 JobServer的架構設計 ?
5.2 JobServer提供的接口 ?
5.3 JobServer*實踐 ?
6、掌握基于Spark上的核心框架的使用系列課程6:Spark on Yarn ?
6.1 Spark on Yarn的架構原理 ?
6.2 Spark on Yarn的*實踐 ?
7、掌握基于Spark上的核心框架的使用系列課程7:Tachyon ?
7.1 Tachyon架構剖析 ?
7.2 Tachyon操作詳解 ?
7.3 Spark下的Tachyon使用解析 ?