在 中級數據分析師的基礎上要求掌握 JAVA 語言和 linux 操作系統知識,能夠掌握運用Hadoop、Spark、Storm 等至少一門專業大數據分析軟件,從海量數據中提取相關信息,并能夠結合 R、Python 等軟件,形成嚴密的數據分析報告。就業方向:通常在*、金融、電信、零售、互聯網、電商、醫學等行業專門從事數據分析與云端大數據的人員。以下是小編為你整理的學習大數據先學什么 ?
java基礎: ?
1. Java 語言的發展史、java 開發環境搭建以及環境變量的配置,java 語言跨平臺的原理,java 程序初次開發 ?
2. Java 語法格式,關鍵字,標識符,注釋,常量,數據類型,數據類型轉換,運算符 ?
3. 程序流程控制語句以及其應用場景 ?
4. 數組的應用及其常見操作 ?
5. 類和對象的概念、類和對象之間的關系
6. 類的組成部分(成員變量,構造方法,成員方法)及其詳細講解 ?
7. 面向對象的三大特性:繼承、封裝 及其特點剖析 ?
8. 接口和抽象類及其特點分析 ?
9. java 的異常處理機制 ?
10. jdk API 常用類的講解:Math,Random、String,StringBuffer,Date ?
11. Java I/O 體系介紹:File 類的介紹和常用操作,字節流 InputStream 和OutputStream,字符流 Reader 和 Writer,以及相應實現類的介紹和使用,緩沖流和序列化流的的詳解,IO 性能分析,字節和字符的轉化流,包裝流的概念,以及常用包裝類。 ?
數據來源 ?
大數據分析的數據來源有很多種,包括公司或者機構的內部來源和外部來源。分為以下幾類: ?
1.交易數據。包括POS機數據、信用卡刷卡數據、電子商務數據、互聯網點擊數據、“企業資源規劃”(ERP)系統數據、銷售系統數據、客戶關系管理(CRM)系統數據、公司的生產數據、庫存數據、訂單數據、供應鏈數據等。 ?
2.移動通信數據。能夠上網的智能手機等移動設備越來越普遍。移動通信設備記錄的數據量和數據的立體完整度,常常優于各家互聯網公司掌握的數據。移動設備上的軟件能夠追蹤和溝通無數事件,從運用軟件儲存的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更即報告一個新的地理編碼)等。 ?
3.人為數據。人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產生的數據流。這些數據大多數為非結構性數據,需要用文本分析功能進行分析。 ?
4.機器和傳感器數據。來自感應器、量表和其他設施的數據、定位/GPS系統數據等。這包括功能設備會創建或生成的數據,例如智能溫度控制器、智能電表、工廠機器和連接互聯網的家用電器的數據。來自新興的物聯網(Io T)的數據是機器和傳感器所產生的數據的例子之一。來自物聯網的數據可以用于構建分析模型,連續監測預測性行為(如當傳感器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)等。 ?
利用黑名單和灰名單識別風險 ?
互聯網金融公司面臨的主要風險為惡意欺詐,70%左右的信貸損失來源于申請人的惡意欺詐。客戶逾期或者違約貸款中至少有30%左右可以收回,另外的一些可以通過催收公司進行催收,M2逾期的回收率在20%左右。 ?
市場上有近百家的公司從事個人征信相關工作,其主要的商業模式是反欺詐識別,灰名單識別,以及客戶征信評分。反欺詐識別中,重要的一個參考就是黑名單,市場上領先的大數據風控公司擁有將近1000萬左右的黑名單,大部分黑名單是過去十多年積累下來的老賴名單,真正有價值的黑名單在兩百萬左右。
?
黑名單來源于民間借貸、線上P2P、信用卡公司、小額借貸等公司的歷史違約用戶,其中很大一部分不再有借貸行為,參考價值有限。另外一個主要來源是催收公司,催收的成功率一般小于于30%(M3以上的),會產生很多黑名單。 ?
灰名單是逾期但是還沒有達到違約的客戶(逾期少于3個月的客戶),灰名單也還意味著多頭借貸,申請人在多個貸款平臺進行借貸。總借款數目遠遠超過其還款能力。 ?
黑名單和灰名單是很好的風控方式,但是各個征信公司所擁有的名單僅僅是市場總量的一部分,很多互聯網金融公司不得不接入多個風控公司,來獲得更多的 黑名單來提高查得率。央行和上海經信委正在聯合多家互聯網金融公司建立統一的黑名單平臺,但是很多互聯網金融公司都不太愿意貢獻自家的黑名單,這些黑名單 是用真金白銀換來的教訓。另外如果讓外界知道了自家平臺黑名單的數量,會影響其公司聲譽,降低公司估值,并令投資者質疑其平臺的風控水平。 ?
大數據會帶來哪些安全隱患 ?
數據收集時帶來的風險:在大數據環境中,可以通過用戶的網址搜索記錄、手機上網記錄、淘寶購物記錄等信息來獲取用戶的信息,如興趣愛好、日常生活等。但是,這些數據的收集其實都是在用戶未知的情況下進行的,用戶是不清楚自己的這些信息是被用于哪些用途,亦或是誰用了這些信息,也不清楚這些信息泄露以后是由誰來負責。因此,在這樣的情況下,用戶的個人信息隱私安全是非常危險的。 ?
安全漏洞多,數據泄露風險大:部分大型公司的安全漏洞比較多,而且這些公司也可能會存在對用戶數據的違規使用,其安全協議過于寬松。因此,一旦泄露,就非常危險,因為不少公司掌握的用戶數據不僅僅是一個號碼一個地址那么簡單,而是可能是銀行卡信息。 ?
在數據分析和挖掘的時候,可能會分析出用戶的隱私信息,匿名就再無作用:在分析與挖掘有價值的信息時,很大可能會分析出用戶的隱私信息,不但有泄露隱私的風險,同時也可能導致隱私保護的方法失效,例如匿名。 ?
無意識歧視:其實這樣的情況目前已經非常普遍,當你申請貸款、工作招聘等時候,決策者非常依賴大數據來幫助他們做出決定,因此很可能會出現無意識地根據種族、性別或者年齡篩選,出現歧視的情況。 ?
數據相互融合能夠推理出個人所有的敏感信息:數據的融合使多個數據融合在一體,從而識別出相應的實體。通常從一些非常簡單的數據收集,如用戶的購物記錄、網上搜索記錄等。殊不知,在數據融合的時候,非常容易地能夠推測出一個人所有的敏感信息,甚至能推測出你的性格,預測你的動向,給個人安全帶來非常大的威脅。 ?