您現(xiàn)在的位置：首頁 > 企業(yè)內(nèi)訓(xùn) > 大數(shù)據(jù) > 大數(shù)據(jù)計(jì)算框架Spark+Storm+Flink

大數(shù)據(jù)計(jì)算框架Spark+Storm+Flink

2022-04-29 11:37:03　|　來源：中培企業(yè)IT培訓(xùn)網(wǎng)

一、培訓(xùn)簡述
全面掌握大數(shù)據(jù)Spark、Storm和Flink的理論基礎(chǔ)和實(shí)現(xiàn)原理，以及基于大數(shù)據(jù)架構(gòu)的數(shù)據(jù)倉庫的實(shí)現(xiàn)，通過具體的實(shí)操和練習(xí)讓學(xué)員全面實(shí)戰(zhàn)大數(shù)據(jù)。通過此次課程培訓(xùn)，可使學(xué)習(xí)者獲得如下收益：

數(shù)據(jù)倉庫的核心概念、數(shù)據(jù)倉庫與大數(shù)據(jù)
大數(shù)據(jù)中心平臺(tái)的整體架構(gòu)
徹底理解Spark為代表的大數(shù)據(jù)處理引擎的運(yùn)行機(jī)制和原理，包括：
- Spark Core
掌握Spark生態(tài)體系架構(gòu)（原理、安裝、使用），包括：
- Spark Core、Spark SQL、Spark Streaming
- Spark Shell、Spark集群、RDD
掌握Spark、Hadoop協(xié)同工作，能夠通過Spark、Hadoop輕松應(yīng)對(duì)大數(shù)據(jù)的業(yè)務(wù)需求；
掌握以實(shí)時(shí)計(jì)算框Storm為代表的大數(shù)據(jù)實(shí)時(shí)計(jì)算引擎的運(yùn)行機(jī)制和原理，包括：
- Storm的體系架構(gòu)
- Storm的數(shù)據(jù)處理流程與編程模型
- 集成Storm實(shí)時(shí)計(jì)算引擎
掌握Flink的生態(tài)圈體系架構(gòu)，包括：
- 了解Flink大數(shù)據(jù)架構(gòu)，互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)應(yīng)用
- 深度了解Flink DataSet API
- 深度了解DataStream API
- 集成Kafka與Flink
- 熟悉Table API
- 大數(shù)據(jù)安全認(rèn)證框架Kerberos。

二、培訓(xùn)特色

PPT+教材+參考資料，理論講解
提供配套的實(shí)驗(yàn)環(huán)境
場景+案例+模擬環(huán)境，動(dòng)手實(shí)踐
手把手解決問題+解決問題經(jīng)驗(yàn)分享。

三、培訓(xùn)收益

掌握基于大數(shù)據(jù)的體系架構(gòu)、管理、部署，以及相應(yīng)組件的原理和應(yīng)用場景。
讓學(xué)員具備部署基于企業(yè)大數(shù)據(jù)平臺(tái)環(huán)境的能力。

四、培訓(xùn)時(shí)長
共計(jì)4 天，每天6課時(shí)

五、培訓(xùn)大綱

模塊一：大數(shù)據(jù)實(shí)時(shí)計(jì)算引擎Storm
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Storm	大數(shù)據(jù)實(shí)時(shí)計(jì)算框架簡介 Apache Storm體系結(jié)構(gòu) Apache Storm的偽分布模式的搭建 Apache Storm的全分布模式和HA Storm的Demo演示 Storm集群在ZooKeeper上保存的數(shù)據(jù)結(jié)構(gòu) WordCount數(shù)據(jù)流動(dòng)的過程開發(fā)自己的Storm的WordCount程序部署和運(yùn)行Storm任務(wù) Storm任務(wù)執(zhí)行的過程與通信機(jī)制流式計(jì)算系統(tǒng)的典型的架構(gòu)與集成Storm 集成Redis 集成HDFS 集成HBase	使用Storm進(jìn)行大數(shù)據(jù)的實(shí)時(shí)計(jì)算	掌握Storm的體系架構(gòu)和功能。掌握大數(shù)據(jù)實(shí)時(shí)計(jì)算的典型架構(gòu) 京東大數(shù)據(jù)平臺(tái)的架構(gòu)

模塊二：Spark基礎(chǔ)之Scala編程語言
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Scala編程語言	Scala語言基礎(chǔ) Scala語言的面向?qū)ο?/li> Scala語言的函數(shù)式編程 Scala中的集合 Scala語言的高級(jí)特性	編程Scala程序	掌握Scala編程語言

模塊三：大數(shù)據(jù)執(zhí)行引擎Spark Core
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Spark Core	什么是Spark？ Spark的體系結(jié)構(gòu)與安裝部署 Spark的主從架構(gòu) 什么是ZooKeeper Spark HA的實(shí)現(xiàn) 執(zhí)行Spark Demo程序 Spark運(yùn)行機(jī)制及原理分析 Spark的算子 Spark RDD的高級(jí)算子 Spark基礎(chǔ)編程案例 Spark性能診斷和優(yōu)化案例系統(tǒng)死鎖的診斷和分析系統(tǒng)內(nèi)存溢出的診斷和分析案例分享基于Spark的大數(shù)據(jù)平臺(tái)架構(gòu)	搭建Spark環(huán)境使用Spark Core處理數(shù)據(jù)	掌握Spark的體系架構(gòu)和功能 Spark與Hadoop的對(duì)比

模塊四：數(shù)據(jù)分析引擎Spark SQL
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Spark SQL	Spark SQL基礎(chǔ) Spark SQL簡介基本概念：Datasets和DataFrames 測(cè)試數(shù)據(jù) 創(chuàng)建DataFrames DataFrame操作 Global Temporary View 創(chuàng)建Datasets Datasets的操作案例使用數(shù)據(jù)源通用的Load/Save函數(shù) Parquet文件 JSON Datasets 使用JDBC 使用Hive Table 性能優(yōu)化在IDEA中開發(fā)Spark SQL程序	使用Spark SQL處理數(shù)據(jù)	掌握Spark SQL的體系架構(gòu)和功能。典型的大數(shù)據(jù)分析引擎的對(duì)比 Hive Spark SQL Flink SQL

模塊五：流式計(jì)算引擎Spark Streaming
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Spark Streaming	Spark Streaming基礎(chǔ) Spark Streaming簡介 Spark Streaming的特點(diǎn) Spark Streaming的內(nèi)部結(jié)構(gòu) 第一個(gè)小案例：NetworkWordCount 開發(fā)自己的NetworkWordCount Spark Streaming進(jìn)階 StreamingContext對(duì)象詳解離散流（DStreams）：Discretized Streams DStream中的轉(zhuǎn)換操作（transformation）窗口操作輸入DStreams和接收器 DStreams的輸出操作 DataFrame和SQL操作緩存/持久化檢查點(diǎn)支持高級(jí)數(shù)據(jù)源 Spark Streaming接收Flume數(shù)據(jù) Spark Streaming接收Kafka數(shù)據(jù) 性能優(yōu)化減少批數(shù)據(jù)的執(zhí)行時(shí)間設(shè)置正確的批容量內(nèi)存調(diào)優(yōu)	使用Spark Streaming處理數(shù)據(jù)	掌握Spark Streaming的體系架構(gòu)和功能典型的大數(shù)據(jù)實(shí)時(shí)引擎的對(duì)比 Storm Spark Streaming Flink DataStream

模塊六：機(jī)器學(xué)習(xí)MLLib
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
Spark MLLib	什么是MLLib？ MLLib中的常見算法 MLlib的應(yīng)用案例：推薦系統(tǒng)的實(shí)現(xiàn) 基于用戶的協(xié)同過濾基于物品的協(xié)同過濾基于ALS的協(xié)同過濾邏輯回歸算法		掌握電商環(huán)境中推薦系統(tǒng)的實(shí)現(xiàn)。

模塊七：新一代大數(shù)據(jù)處理引擎Flink
章	節(jié)		練習(xí)	學(xué)習(xí)目標(biāo)與案例
第3章：Flink的體系架構(gòu)與部署	Flink簡介 Flink的體系架構(gòu) Flink的安裝與部署 Flink的分布式緩存對(duì)比：Flink、Storm和Spark Streaming		安裝與部署Flink環(huán)境	掌握Flink的體系架構(gòu)與生態(tài)圈組件
第4章：Flink on Yarn的實(shí)現(xiàn)	什么是Yarn？與Yarn的體系架構(gòu) 部署Yarn Flink on Yarn的兩種模式內(nèi)存集中管理模式內(nèi)存Job管理模式 Flink on Yarn兩種模式的區(qū)別		部署Flink on Yarn	理解并掌握Flink on Yarn的兩種模式的特點(diǎn)
第5章：Flink HA的實(shí)現(xiàn)	什么是HA？為什么需要HA？大數(shù)據(jù)分布式協(xié)調(diào)框架ZooKeeper 什么是ZooKeeper 搭建ZooKeeper環(huán)境 ZooKeeper的特性實(shí)現(xiàn)分布式鎖部署Flink HA高可用架構(gòu)環(huán)境		部署Flink HA環(huán)境	什么是HA？Flink HA的架構(gòu)
第6章：Flink開發(fā)入門	Flink批處理開發(fā) Java版本W(wǎng)ordCount Scala版本W(wǎng)ordCount Flink流處理開發(fā) Java版本W(wǎng)ordCount Scala版本W(wǎng)ordCount 使用Flink Scala Shell Flink的并行度分析		搭建Flink開發(fā)環(huán)境并開發(fā)應(yīng)用程序	掌握基本的Flink API編程
第7章：Flink DataSet API開發(fā)	Map、FlatMap與MapPartition Filter與Distinct Join操作笛卡爾積 First-N 外鏈接操作	基于DataSet API開發(fā)Flink離線計(jì)算應(yīng)用		掌握常用的Flink DataSet API算子的作用
第8章：Flink DataStreaming API開發(fā)	DataSources 基本的數(shù)據(jù)源示例自定義數(shù)據(jù)源內(nèi)置的Connector DataStream Transformation 轉(zhuǎn)換操作 Data Sinks 集成Flink與Kafka	基于DataSet Stream開發(fā)Flink離線計(jì)算應(yīng)用		掌握常用的Flink DataStream API算子的作用
第9章：狀態(tài)管理和恢復(fù)	狀態(tài)：State Keyed State Operator State 檢查點(diǎn)：Checkpoint 檢查點(diǎn)的配置： state backend存儲(chǔ)模式修改State Backend的兩種方式示例 Restart Strategies（重啟策略）	開發(fā)應(yīng)用進(jìn)行Flink的有狀態(tài)計(jì)算		理解并掌握Flink的狀態(tài)管理機(jī)制
第10章：Window和Time	窗口：Window Time Window示例 Count Window示例 Time：時(shí)間 WaterMark：水位線 Watermark的原理 Watermark的三種使用情況設(shè)置Watermark的核心代碼窗口的allowedLateness			什么是Flink的窗口操作
第11章：Flink Table & SQL	Flink Table & SQL簡介開發(fā)Flink Table & SQL程序使用Flink SQL Client	使用Flink SQL分析處理數(shù)據(jù)		掌握Flink的數(shù)據(jù)分析模塊

模塊八：大數(shù)據(jù)安全認(rèn)證框架
章	節(jié)	練習(xí)	學(xué)習(xí)目標(biāo)與案例
第1章：大數(shù)據(jù)安全框架	大數(shù)據(jù)安全問題大數(shù)據(jù)安全管控措施 Kerberos安全認(rèn)證機(jī)制 Sentry安全授權(quán)組件