大數據學以下內容:
階段一:JavaSE基礎核心
1.深入理解Java面向對象思想
2.掌握開發中常用基礎API
3.熟練使用集合框架、IO流、異常
4.能夠基于JDK8開發
5.熟練使用MySQL,掌握SQL語法
階段二:Hadoop生態體系架構
1.Linux系統的安裝和操作
2.熟練掌握Shell腳本語法
3.Idea、Maven等開發工具的使用
4.Hadoop組成、安裝、架構和源碼深度解析,以及API的熟練使用
5.Hive的安裝部署、內部架構、熟練使用其開發需求以及企業級調優
6.Zookeeper的內部原理、選舉機制以及大數據生態體系下的應用
7.Flume的架構原理、組件自定義、監控搭建,熟練使用Flume開發實戰需求
8.Kafka的安裝部署以及框架原理,重點掌握Kafka的分區分配策略、數據可靠性、數據一致性、數據亂序處理、零拷貝原理、高效讀寫原理、消費策略、再平衡等內容
9.統籌Hadoop生態下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等諸多框架,搭建數據采集系統,熟練掌握框架結構和企業級調優手段
階段三:Spark生態體系架構
1.Spark的入門安裝部署、Spark Core部分的基本API使用熟練、RDD編程進階、累加器和廣播變量的使用和原理掌握、Spark SQL的編程掌握和如何自定義函數、Spark的內核源碼詳解(包括部署、啟動、任務劃分調度、內存管理等)、Spark的企業級調優策略
2.DophineScheduler的安裝部署,熟練使用進行工作流的調度執行
3.了解數據倉庫建模理論,充分熟悉電商行業數據分析指標體系,快速掌握多種大數據技術框架,了解認識多種數據倉庫技術模塊
4.HBase和Phoenix的部署使用、原理架構講解與企業級優化
5.開發工具Git&Git Hub的熟練使用
6.Redis的入門、基本配置講解、jedis的熟練掌握
7.ElasticSearch的入門安裝部署及調優
8.充分理解用戶畫像管理平臺的搭建及使用、用戶畫像系統的設計思路,以及標簽的設計流程及應用,初步了解機器學習算法
9.項目實戰。貼近大數據的實際處理場景,多維度設計實戰項目,能夠更加廣泛的掌握大數據需求解決方案,全流程參與項目打造,短時間提高學生的實戰水平,對各個常用框架加強認知,迅速累積實戰經驗
階段四:Flink生態體系架構
1.熟練掌握Flink的基本架構以及流式數據處理思想,熟練使用Flink多種Soure、Sink處理數據,熟練使用基本API、Window API 、狀態函數、Flink SQL、Flink CEP復雜事件處理等
2.使用Flink搭建實時數倉項目,熟練使用Flink框架分析計算各種指標
3.ClickHouse安裝、使用及調優
4.項目實戰。貼近大數據的實際處理場景,多維度設計實戰項目,能夠更廣泛的掌握大數據需求解決方案,全流程參與項目打造,短時間提高學生的實戰水平,對各個常用框架加強認知,迅速累積實戰經驗
5.可選掌握推薦和機器學習項目,熟悉并使用系統過濾算法以及基于內容的推薦算法等
6.采用阿里云平臺全套大數據產品重構電商項目,熟悉離線數倉、實時指標的阿里云解決方案