相信大家經常聽到“大數據”這個詞,仿佛帶了一個“大”字我們就難以理解其中的含義。都說當今世界是大數據的時代,只有掌控大數據才能贏得這場各行各業之間的戰爭。其實簡單而言,我們現在所知的電商,諸如淘寶、京東等無不靠著大數據支撐,具體而言,大數據是什么意思?以下是小編為你整理的現在學習大數據怎么樣學 ?
大數據(bigdata,megadata)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。 ?
大數據的4個“V”,或者說特點有四層面:*,數據體量巨大,從TB級別,躍升到PB級別。第二,數據類型繁多,前文提到的網絡日志、視頻、圖片、地理位置信息等等。 ?
第三,價值密度低,以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快,1秒定律。*這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。 ?
大數據的價值體現在以下幾個方面:1、對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷。2、做小而美模式的中長尾企業可以利用大數據做服務轉型。3、面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。 ?
大數據的學習階段 ?
*階段:大數據前沿知識及hadoop入門,大數據前言知識的介紹,課程的介紹,Linux和unbuntu系統基礎,hadoop的單機和偽分布模式的安裝配置。 ?
第二階段:hadoop部署進階。Hadoop集群模式搭建,hadoop分布式文件系統HDFS深入剖析。使用HDFS提供的api進行HDFS文件操作。Mapreduce概念及思想。 ?
第三階段:大數據導入與存儲。mysql數據庫基礎知識,hive的基本語法。hive的架構及設計原理。hive部署安裝與案例。sqoop安裝及使用。sqoop組件導入到hive。
?
第四階段:Hbase理論與實戰。Hbase簡介。安裝與配置。hbase的數據存儲。項目實戰。 ?
第五階段:Spaer配置及使用場景。scala基本語法。spark介紹及發展歷史,spark stant a lone模式部署。sparkRDD詳解。 ?
第六階段:spark大數據分析原理。spark內核,基本定義,spark任務調度。sparkstreaming實時流計算。sparkmllib機器學習。sparksql查詢。 ?
Spark(內存DAG計算模型) ?
Spark是一個Apache項目,它被標榜為“快如閃電的集群計算”。它擁有一個繁榮的開源社區,并且是目前最活躍的Apache項目。 ?
最早Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架。 ?
Spark提供了一個更快、更通用的數據處理平臺。和Hadoop相比,Spark可以讓你的程序在內存中運行時速度提升100倍,或者在磁盤上運行時速度提升10倍 ?
Giraph(圖計算模型) ?
Apache Giraph是一個可伸縮的分布式迭代圖處理系統, 基于Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開發Giraph時采用了Google工程師2010年發表的論文《Pregel:大規模圖表處理系統》中的原理。后來,雅虎將Giraph捐贈給Apache軟件基金會。 ?
目前所有人都可以下載Giraph,它已經成為Apache軟件基金會的開源項目,并得到Facebook的支持,獲得多方面的改進。 ?
GraphX(圖計算模型) ?
Spark GraphX*是伯克利AMPLAB的一個分布式圖計算框架項目,目前整合在spark運行框架中,為其提供BSP大規模并行圖計算能力。 ?
MLib(機器學習庫) ?
Spark MLlib是一個機器學習庫,它提供了各種各樣的算法,這些算法用來在集群上針對分類、回歸、聚類、協同過濾等。 ?