在維基百科中對數據挖掘的解釋是:數據挖掘(英語:data mining)是一個跨*的計算機科學分支 它是用人工智能、機器學習、統計學和數據庫的交叉方法在相對較大型的數據集中發現模式的計算過程。數據挖掘過程的總體目標是從一個數據集中提取信息,并將其轉換成可理解的結構,以進一步使用。以下是小編為你整理的大數據都學習什么 ?
分類。分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。 ?
回歸分析。回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。
聚類。聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。 ?
關聯規則。關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。 ?
導入/預處理 ?
雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。 ?
挖掘 ?
與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的K-Means、用于統計學習的SVM和用于分類的Naive Bayes,主要使用的工具有HadoopMahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,還有,常用數據挖掘算法都以單線程為主。 ?
Hadoop和Hive ?
一群基于Java的工具被開發出來以滿足數據處理的巨大需求。Hadoop作為*的基于Java的框架用于批處理數據已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用于后端分析。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結對工作。 ?
Scala ?
Scala是另一種基于Java的語言,并且和Java相同的是,它正日益成為大規模機器學習,或構建高層次算法的工具。它富有表現力,并且還能夠構建健壯的系統。 ?
“Java就像是建造時的鋼鐵,而Scala則像黏土,因為你之后可以將之放入窯內轉變成鋼鐵,”Driscoll說。
?
Kafka和Storm ?
那么,當你需要快速實時的分析時又該怎么辦呢?Kafka會成為你的好朋友。它大概5年前就已經出現了,但是直到最近才成為流處理的流行框架。 ?
Kafka,誕生于LinkedIn內部,是一個超快速的查詢消息系統。Kafka的缺點?好吧,它太快了。在實時操作時會導致自身出錯,并且偶爾地會遺漏東西。 ?
“有精度和速度之間有一個權衡,”Driscoll說, “因此,硅谷所有的大型高科技公司都會使用兩條管道:Kafka或Storm用于實時處理,然后Hadoop用于批處理系統,此時雖然是緩慢的但超級準確。” ?
Storm是用Scala編寫的另一個框架,它在硅谷中因為流處理而受到了大量的青睞。它被Twitter納入其中,勿庸置疑的,這樣一來,Twitter就能在快速事件處理中得到巨大的裨益。 ?
大數據該如何去學
要想聽懂寬客在說什么,*記得*統計學的基本內容,否則需要去補補回歸分析、統計推斷和實驗設計的課,或者報考項目數據分析師進行學習。你應該理解推出結論的過程,并適時質疑模型假設是否站得住腳。 ?
卡爾·肯普夫(KarlKempf)是英特爾工程決策團隊的負責人之一,人稱“超級寬客”。他常常說,高質量的定量決策“無關數學”,而全在于“關系”。分析師和決策者需要深層次的相互信任,能夠自由地交換信息,溝通想法。 ?
不過眾所周知,溝通往往不是技術人員的強項。有人曾打趣說,“你跟寬客說話的時候,十個有九個盯著自己的鞋,剩下那一個盯著你的鞋”。話雖如此,能正常溝通的分析師大有人在:寬客不都是數學狂人,也愿意在商界大顯身手。 ?
正確提出問題是大數據決策最重要的一環,最考驗你的經驗和直覺。但假設終歸只是假設。嚴謹的分析方法能檢驗,你提出的假設是否如實描述了世界的運轉。 ?
此外,還需關注大數據管理流程中的*一步:向其他高管呈現分析結果。很多分析師不注重溝通,有時你必須親自出馬。數據分析實際就是“用數據講故事”。