大數據是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬件和軟件工具進行處理。該數據集通常是萬億或EB的大小。以下是小編為你整理的大數據該怎么學習 ?
HADOOPP 是一個能夠對大量數據進行分布式處理的軟件框架。但是HADOOPP 是以一種可靠、高效、可伸縮的方式進行處理的。HADOOPP 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。 ?
HPCC高性能計算與 通信”的報告。開發可擴展的計算系統及相關軟件,以支持太位級網絡傳輸性能,開發千兆 比特網絡技術,擴展研究和教育機構及網絡連接能力。
Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用于處理HADOOPP的批量數據。 ?
為了幫助企業用戶尋找更為有效、加快HADOOPP數據查詢的方法,Apache發起了一項名為“Drill”的開源項目。 ?
Pentaho BI 平臺不同于傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。 ?
RapidMiner是*的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。 ?
學大數據的必備知識 ?
Java基礎** ?
數據類型 ?
運算符、循環 ?
順序結構程序設計 ?
程序結構 ?
數組及多維數組 ?
面向對象** ?
構造方法、控制符、封裝 ?
繼承** ?
多態** ?
抽象類、接口** ?
常用類、集合Collection、list** ?
HashSet、TreeSet、Collection ?
集合類Map** ?
異常 ?
File ?
文件/流** ?
數據流和對象流 ?
線程(理解即可) ?
網絡通信(理解即可) ?
如果如果你已經是脫離小白生涯,你理大數據不遠了,需要學習一些額外的小知識(數據結構、關系型數據庫、linux系統操作)第二階段以夯實基礎,之后就可以進入大數據學習了; ?
大數據需要學什么 ?
分類。分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。 ?
回歸分析。回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。
?
聚類。聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。 ?
關聯規則。關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。 ?
Mahout(數據挖掘算法庫) ?
Mahout起源于2008年,最初是Apache Lucent的子項目,它在極短的時間內取得了長足的發展,現在是Apache的頂級項目。 ?
Mahout的主要目標是創建一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。 ?
Mahout現在已經包含了聚類、分類、推薦引擎(協同過濾)和頻繁集挖掘等廣泛使用的數據挖掘方法。 ?
除了算法,Mahout還包含數據的輸入/輸出工具、與其他存儲系統(如數據庫、MongoDB 或Cassandra)集成等數據挖掘支持架構。 ?
10、Oozie(工作流調度器) ?
Oozie是一個可擴展的工作體系,集成于Hadoop的堆棧,用于協調多個MapReduce作業的執行。它能夠管理一個復雜的系統,基于外部事件來執行,外部事件包括數據的定時和數據的出現。 ?
Oozie工作流是放置在控制依賴DAG(有向無環圖 Direct Acyclic Graph)中的一組動作(例如,Hadoop的Map/Reduce作業、Pig作業等),其中指定了動作執行的順序。 ?
Oozie使用hPDL(一種XML流程定義語言)來描述這個圖。 ?
11、 Yarn(分布式資源管理器) ?
YARN是下一代MapReduce,即MRv2,是在*代MapReduce基礎上演變而來的,主要是為了解決原始Hadoop擴展性較差,不支持多計算框架而提出的。 ?
Yarn是下一代 Hadoop 計算平臺,yarn是一個通用的運行時框架,用戶可以編寫自己的計算框架,在該運行環境中運行。 ?
用于自己編寫的框架作為客戶端的一個lib,在運用提交作業時打包即可。該框架為提供了以下幾個組件: ?
- 資源管理:包括應用程序管理和機器資源管理 ?
- 資源雙層調度 ?
- 容錯性:各個組件均有考慮容錯性 ?
- 擴展性:可擴展到上萬個節點 ?