培訓背景
課程通過完整的大數據開發項目及一組實際項目訓練與實戰案例,完全覆蓋Hadoop與Spark生態系統平臺的應用開發與運維實踐。課堂實踐項目以項目小組的形式進行沙盤實操練習,重點強化理解Hadoop與Spark大數據項目各個階段的工作重點,同時掌握作為大數據項目管理者的基本技術與業務素養。
培訓收益
1.掌握業界最流行的MapReduce分布式計算框架關鍵技術、工作機制與編程模型,以及MapReduce最佳實踐開發技術,包括cominber、partition和shuffle優化;
2.掌握基于內存的大數據統一編程框Spark核心技術、RDD數據模型、DAG圖執行模式、緩存機制、容錯機制、分布式系統架構,以及基于Scala的編程開發模型、常用數據處理函數、性能優化技術;
3.掌握大數據分布式文件系統HDFS關鍵機制、分布式系統架構、高可用方案、擴容方案、運維參數與性能優化;
4.掌握Hadoop分布式集群部署、參數設置與運維關鍵技術;
5.掌握YARN框架工作機制、關鍵組件,以及資源調度器的工作原理、常用調度策略和優化方向;
6.掌握NoSQL分布式數據庫HBase工作機制、分布式系統架構、數據組織方式、讀寫機制,以及HBase表模式設計最佳實踐;
7.掌握基于MapReduce和Spark的大數據倉庫Hive與SparkSQL的工作原理,常見SQL操作,存儲格式優化,分區/分桶技術;
8.掌握經典數據挖掘與機器學習算法,掌握基于Spark的機器學習算法庫MLlib,及其數據模型和編程開發模型,掌握基于大數據的推薦技術與協同過濾算法;
9.掌握大數據分布式協同管理系統Zookeeper原理知識和應用場景;
10.深入理解大數據平臺主流技術架構和各關鍵組件適用場景;
11.嫻熟運用Hadoop與Spark大數據技術體系規劃解決方案滿足實際項目需求;
12.通過實戰操作熟練地掌握基于Hadoop與Spark大數據平臺進行應用程序開發、集群運維管理和性能調優技巧。
培訓特色
本課程的授課師資都是有著多年在一線從事Hadoop與Spark大數據項目的資深講師,采用原理技術剖析和實戰案例相結合的方式開展互動教學、強化以建立大數據項目解決方案為主體的應用開發、技術討論與交流咨詢,在學習的同時促進講師學員之間的交流,讓每個學員都能在課程培訓過程中學到實實在在的大數據技術知識體系,以及大數據技術應用實戰技能,具備實際大數據應用項目的動手開發實踐與運維管理部署能力。
課程大綱
日程 | 培訓模塊 | 培訓內容 |
---|---|---|
第一天 上午 | 大數據存儲系統與技術應用 | 1.分布式文件系統HDFS產生背景與適用場景 2.HDFS master-slave系統架構與讀寫工作原理 3.HDFS核心組件技術講解,NameNode與fsimage、editslog,DataNode與數據塊 4.HDFS Federation機制,viewfs機制,使用場景講解 5.HDFS高可用保證機制,SecondaryNameNode,NFS冷備份,基于zookeeper的HA方案 6.HDFS運維參數調優與性能優化 |
大數據計算框架(一) 批處理框架MapReduce | 1.MapReduce產生背景與適用場景 2.MapReduce計算模型的基本原理 3.MapReduce作業執行流程 4.MapReduce編程模型: Map處理和Reduce處理 5.MapReduce處理流程:數據讀取collect、中間數據sort、中間數據spill、中間數據shuffle、聚合分析reduce 6.MapReduce開發高級應用:Combiner技術與應用場景、Partitioner技術與應用場景、多Reducers應用 7.應用案例:基于HDFS+MapReduce集成的服務器日志分析采集、存儲與分析MapReduce程序實例開發與運行 8.MapReduce參數調優與性能優化技巧 | |
第一天 下午 |
Hadoop YARN工作機制 與資源管理 | 1.Hadoop的發展歷程 2.Hadoop 1.0的核心組件Jobtracker,Tasktracker,以及適用范圍 3.Hadoop 2.0的核心組件YARN工作原理,以及與Hadoop 1.0的聯系與區別 4.YARN 關鍵機制:任務推測執行,任務容錯,任務選擇執行,心跳機制 5.Hadoop YARN的資源管理與作業調度機制:FIFO調度,Capacity調度器,Fair調度器 6.Hadoop YARN常用運維參數調優與性能優化技術 |
大數據實戰練習一 |
1. Hadoop分布式集群搭建、部署與應用實踐,包含HDFS分布式文件系統,YARN資源管理軟件,MapReduce計算框架軟件 2. HDFS 文件、目錄創建、上傳、下載等命令操作,HDFS合并、歸檔操作,HDFS監控平臺使用 3. MapReduce程序在YARN上運行,YARN監控平臺使用 4. 面向HDFS文件系統的數據采集實踐 | |
大數據計算模型(二) 實時處理/內存計算 Spark |
1.MapReduce計算模型的瓶頸 2.Spark產生動機、基本概念與適用場景 3.Spark編程模型與RDD彈性分布式數據集的工作原理與機制 4.Spark實時處理平臺運行架構與核心組件 5.Spark RDD主要transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey 6.Spark RDD主要action:count,collect,reduce,saveAsTextFile 7.Spark寬、窄依賴關系與DAG圖分析 8.Spark容錯機制 9.Spark作業調度機制 10.Spark緩存機制:Cache操作,Persist操作與存儲級別 11.Spark作業執行機制:執行DAG圖、任務集、executor執行模型、 BlockManager管理 12.Spark standardalone,Spark on YARN運行模式 13.Scala開發介紹與函數編寫 14.Spark常用transformation函數介紹 15.Spark調優:序列化機制、RDD復用、Broadcast機制、高性能算子、資源參數調優 | |
第二天 下午 |
大數據數據倉庫查詢工具 Hive與SparkSQL剖析 |
1.基于MapReduce的大型分布式數據倉庫Hive基礎知識與應用場景 2.Hive數據倉庫的平臺架構與核心技術剖析 3.Hive metastore的工作機制與應用 4.Hive內部表和外部表 5.Hive 分區、分桶機制 6.Hive行、列存儲格式 7.Hive結果保存與新表生成 8.基于Spark的大型分布式數據倉庫SparkSQL基礎知識與應用場景 9.Spark SQL實時數據倉庫的實現原理與工作機制 10.SparkSQL數據模型DataFrame 11.基于DataFrame的SparkSQL程序開發 12.Spark-sql shell使用,共享使用Hive表進行SQL查詢分析 13.SparkSQL數據讀取與結果保存:json,Hive table,Parquet file,RDD 14.SparkSQL和Hive的區別與聯系 15.制造行業Hive與SparkSQL應用案例介紹 |
大數據實戰練習二 |
1.Spark分布式集群平臺搭建、部署與配置Spark集群,Spark shell環境實踐操作,Spark案例程序分析 2.基于sbt的Spark程序編譯、開發與提交運行 3.應用案例一:基于Spark的服務器運行日志TopN分析、程序實例開發 4.應用案例二: 基于Spark的搜索引擎日志熱詞與用戶分析、程序實例開發 5.Hive數據倉庫實踐,Hive集群安裝部署,基于文件的Hive數據倉庫表導入導出與分區操作,Hive SQL操作,Hive客戶端操作 6.SparkSQL數據倉庫實戰:shell實踐操作:數據表讀取、查詢與結果保存 | |
第三天 上午 |
分布式NoSQL數據庫關鍵 技術及應用實踐 |
1.關系型數據庫瓶頸,以及NoSQL數據庫的發展,概念,分類,及其在半結構化和非結構化數據場景下的適用范圍 2.列存儲NoSQL數據庫HBase簡介 3.HBase數據模型剖析:row key、列簇、單元格和時間戳版本號 4.HBase分布式集群系統架構:HMaster、RegionServer和Zookeeper 5.HBase LSM數據組織結構與讀寫機制,以及HBase讀寫性能特性 6.HBase表設計模式與primary key設計規范 7.HBase基本操作:數據插入、修改與刪除,單鍵查詢與范圍查詢 |
大數據分布式系統管理 系統zookeeper |
1.Zookeeper工作原理 2.Zookeeper系統架構:服務器集群和客戶端 3.Zookeeper數據結構 4.Zookeeper watch機制 5.Zookeeper適用場景 | |
第三天 下午 |
數據挖掘與 大數據機器學習技術 |
1.機器學習發展歷程 2.機器學習與大數據關聯與區別 3.數據挖掘經典算法 4.回歸算法:線性回歸與應用場景,非線性回歸與應用場景 5.分類算法:邏輯回歸與應用場景,決策樹與應用場景,樸素貝葉斯算法與應用場景,支持向量機算法與應用場景 6.聚類算法; k-means與應用場景 7.大數據推薦技術:協同過濾,距離計算;基于物品的協同過濾算法,基于用戶的協同過濾算法 8.基于Spark的機器學習庫Spark MLlib 9.Spark MLlib支持的數據挖掘算法 10.Spark MLlib數據模型與使用 11.Spark MLlib編程模型與開發 |
大數據實戰練習三 |
1.大數據機器學習實戰:基于Spark MLlib的數據分類;基于Spark MLlib的聚類 2.大數據推薦實戰:基于用戶產品購買記錄,使用Spark進行數據清洗與預處理,使用Spark MLlib進行協同過濾與推薦 | |
大數據項目選型、實施、 優化等問題交流討論 | 大數據項目的需求分析、應用實施、系統優化,以及解決方案等咨詢與交流討論 |