“大數據”是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那么,什么是大數據呢,大數據時代怎么理解呢,一起來看看吧。 ?
互聯網時代的大數據 ?
大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。 ?
大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
大數據的采集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的采集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。 ?
大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單臺的計算機進行處理,必須采用分布式計算架構,依托云計算的分布式處理、分布式數據庫、云存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到云技術。 ?
大數據的應用。大數據可應用于各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由于數據量龐大,這就需要采用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。 ?
大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。 ?
什么是大數據 ?
從技術上看,大數據[1]與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數據的挖掘,但它必須依托云計算的分布式處理、分布式數據庫、云存儲和/或虛擬化技術。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代[4]》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。 ?
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為第三次浪潮的華彩樂章。不過,大約從2009年開始,大數據才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。 ?
大數據的意義是由人類日益普及的網絡行為所伴生的,受到相關*、企業采集的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據 。2013年5月10日,阿里巴巴集團董事局主席馬云在淘寶十周年晚會上,將卸任阿里集團CEO的職位,并在晚會上做卸任前的演講,馬云說,大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。 ?
大數據的常用公式 ?
跨粒度計算(In-DatabaseComputing) ?
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益于跨粒度計算技術,Z-Suite數據分析引擎將找尋出*化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。 ?
并行計算(MPP Computing) ?
Z-Suite是基于MPP架構的商業智能平臺,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是服務器還是普通的PC,她對網絡條件也沒有嚴苛的要求。作為橫向擴展的大數據平臺,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
?
列存儲 (Column-Based) ?
Z-Suite是列存儲的。基于列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據占有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。 ?
內存計算 ?
得益于列存儲技術和并行計算技術,Z-Suite能夠大大壓縮數據,并同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁盤訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁盤上讀取數據并對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。 ?
分析其含義 ?
首先簡介一下大數據能夠干什么:首先舉個例子,大家都喜歡上淘寶買東西,淘寶網站會記錄每個人在它網站上都買了什么,瀏覽了什么。。。等等一系列信息。然后分析什么產品賣的火爆,哪個客戶喜歡買什么,那個商家盈利高等等,挖掘一系列有潛在價值 ?
其次分析一下大數據的含義,大數據既然含有數據這個詞匯,就表明他是和數據相關的,而數據無非就是如何存儲數據和如何使用存儲的數據這兩個問題 ?
首先說一下如何存儲:傳統的數據都是保存在關系型數據庫,比如oracle和mysql等,這些數據庫存儲空間是有限的,并且數據庫的東西多了之后,查詢存取的速度會變得很慢,根本做數據分析等。此外傳統數據都安裝在一臺服務器上,一旦服務器宕機了,數據庫的內容就全部銷毀了,無法恢復 ?
大數據的含義就是說數據量很大,數據量達到pb級別,大公司也許需要幾千臺服務器才能存儲,用的是分布式存儲技術。所謂的分布式存儲技術是指,同樣一份文件,分別存儲在3臺不同的服務器上,假設其中服務器掛機了,還有另外兩臺服務器工作,并且迅速備份一份文件,始終保證相同文件有3臺服務器提供工作 ?
大數據的使用主要是指根據公司需求,對現有的數據進行挖掘分析。而挖掘分析做的最多的就是查詢數據,大數據的查詢速度是非常快的,因為底層用的是類似于lucene技術。但是大數據不適合修改存儲的文件。因為大數據存儲數據是以文件的形式存儲的,如果想修改數據,它會把原先的文件刪掉,然后重新寫入。 ?