培訓(xùn)背景
大數(shù)據(jù)平臺技術(shù)已經(jīng)給新興互聯(lián)網(wǎng)企業(yè)(如電子商務(wù)網(wǎng)站、搜索引擎、社交網(wǎng)站、互聯(lián)網(wǎng)廣告服務(wù)提供商等)、銀行金融證券企業(yè)、電信運(yùn)營商行業(yè)、高端裝備制造企業(yè)、IT基礎(chǔ)設(shè)施提供商等帶來了巨大的商業(yè)機(jī)遇,大數(shù)據(jù)平臺在整個(gè)企業(yè)的價(jià)值增值鏈中發(fā)揮著至關(guān)重要的決定性作用。
培訓(xùn)收益
1.讓學(xué)員充分掌握大數(shù)據(jù)處理平臺(Hadoop和內(nèi)存型實(shí)時(shí)計(jì)算Spark)技術(shù)架構(gòu)、以及平臺的安裝部署、運(yùn)維配置、應(yīng)用開發(fā)實(shí)戰(zhàn)技能,熟悉國內(nèi)外主流的大數(shù)據(jù)處理解決方案、以及大數(shù)據(jù)應(yīng)用案例;
2.本課程強(qiáng)調(diào)主流的大數(shù)據(jù)關(guān)鍵技術(shù)與大數(shù)據(jù)處理平臺及其在不同行業(yè)中企業(yè)的實(shí)際應(yīng)用,立足于實(shí)際的行業(yè)應(yīng)用需求,旨在讓企業(yè)學(xué)員能夠掌握大數(shù)據(jù)平臺技術(shù)及應(yīng)用如何落地,以及基于大數(shù)據(jù)平臺的應(yīng)用程序開發(fā),以及大數(shù)據(jù)集群的運(yùn)維技術(shù),讓學(xué)員掌握業(yè)界主流的大數(shù)據(jù)平臺的應(yīng)用和部署,并且結(jié)合當(dāng)前(移動(dòng))互聯(lián)網(wǎng)環(huán)境下產(chǎn)生的大規(guī)模結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)管理以及分析處理需求,詳細(xì)講解有機(jī)地集成大數(shù)據(jù)平臺各個(gè)功能組件(大數(shù)據(jù)收集、大數(shù)據(jù)存儲、大數(shù)據(jù)管理、大數(shù)據(jù)挖掘、大數(shù)據(jù)分析和大數(shù)據(jù)可視化組件)設(shè)計(jì)大數(shù)據(jù)項(xiàng)目,并分享大數(shù)據(jù)項(xiàng)目應(yīng)用實(shí)施案例;
3.讓學(xué)員掌握主流大數(shù)據(jù)Hadoop平臺和Spark實(shí)時(shí)處理平臺的技術(shù)架構(gòu)和實(shí)際應(yīng)用,并用結(jié)合實(shí)際的生產(chǎn)系統(tǒng)案例進(jìn)行教學(xué),講解利用Hadoop+Spark對行業(yè)大數(shù)據(jù)進(jìn)行存儲管理和分析挖掘的技術(shù)應(yīng)用,掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫分布式系統(tǒng)平臺應(yīng)用,以及主流的大數(shù)據(jù)平臺產(chǎn)品剖析;
4.讓學(xué)員掌握業(yè)界最流行的Hadoop與Spark大數(shù)據(jù)平臺,深入講解Hadoop生態(tài)系統(tǒng)組件,包括HDFS,MapReduce,HIVE,HBase,Mahout,Spark,GraphX,MLib,Shark,ElasticSearch等大數(shù)據(jù)存儲管理、大型數(shù)據(jù)倉庫、大數(shù)據(jù)查詢與搜索、大數(shù)據(jù)分析挖掘與分布式處理技術(shù)的實(shí)踐應(yīng)用;
5.引導(dǎo)學(xué)員利用Hadoop大數(shù)據(jù)技術(shù)解決企業(yè)中存在的問題,掌握運(yùn)用Hadoop開展大數(shù)據(jù)項(xiàng)目解決方案思路;
6.本課程采用技術(shù)原理與項(xiàng)目實(shí)戰(zhàn)相結(jié)合的方式進(jìn)行教學(xué),在講授原理的過程中,穿插實(shí)際的系統(tǒng)操作,講師精心準(zhǔn)備實(shí)際的應(yīng)用案例供學(xué)員動(dòng)手訓(xùn)練。
培訓(xùn)特色
本次培訓(xùn)從案例分析與行業(yè)應(yīng)用穿插;專家精彩內(nèi)容解析、學(xué)員專題討論、分組研究;通過全面知識理解、專題技能演示和實(shí)踐引導(dǎo)學(xué)員掌握課程內(nèi)容。
課程大綱
時(shí)間 | 授課內(nèi)容 | 現(xiàn)場實(shí)戰(zhàn)訓(xùn)練說明 |
---|---|---|
第一天 |
1.大數(shù)據(jù)技術(shù)的發(fā)展歷程和應(yīng)用背景、大數(shù)據(jù)產(chǎn)業(yè)鏈概況,以及大數(shù)據(jù)技術(shù)在通信運(yùn)營商、互聯(lián)網(wǎng)金融業(yè)、網(wǎng)上銀行、電子商務(wù)、零售業(yè)、制造業(yè)、電子政務(wù)、移動(dòng)互聯(lián)網(wǎng)、教育信息化等行業(yè)中的應(yīng)用實(shí)踐; 2.解析目前業(yè)界主流的標(biāo)準(zhǔn)化大數(shù)據(jù)平臺Hadoop+Spark平臺架構(gòu),重點(diǎn)講解它們在大數(shù)據(jù)存儲、管理、分析處理方面的應(yīng)用方案,以及在大數(shù)據(jù)離線分析、近線分析、實(shí)時(shí)在線分析處理方面的優(yōu)化組合方案及其優(yōu)勢; 3.Hadoop大數(shù)據(jù)平臺的生態(tài)系統(tǒng)組件、平臺架構(gòu)以及工作原理,以及不同發(fā)行版本的Hadoop比較; 4.HDFS的技術(shù)原理及應(yīng)用實(shí)戰(zhàn),核心關(guān)鍵技術(shù)、設(shè)計(jì)精髓、基本工作原理、系統(tǒng)架構(gòu)、文件存儲模式、數(shù)據(jù)壓縮、工作機(jī)制、存儲擴(kuò)容與吞吐性能擴(kuò)展; 5.WebHDFS應(yīng)用實(shí)踐; 6.大數(shù)據(jù)平臺中的并行計(jì)算處理與函數(shù)式編程技術(shù)原理,以及數(shù)據(jù)并行技術(shù)—MapReduce技術(shù)的工作機(jī)制、工作原理、作業(yè)調(diào)度、性能調(diào)優(yōu)和大數(shù)據(jù)處理架構(gòu),以及MapReduce技術(shù)的發(fā)展趨勢; 7.Hadoop MapReduce和Yarn并行處理平臺的系統(tǒng)架構(gòu)、核心功能模塊、MapReduce編程應(yīng)用開發(fā)實(shí)踐、MapReduce程序Debug調(diào)試與任務(wù)調(diào)度技術(shù); 8.常見的Hadoop平臺故障錯(cuò)誤分析策略以及監(jiān)控工具詳解,云文件存儲系統(tǒng)狀態(tài)以及海量作業(yè)執(zhí)行狀態(tài)監(jiān)控與故障解決經(jīng)驗(yàn)介紹; |
1.VMware環(huán)境下部署配置CentOS虛擬機(jī)集群模擬真實(shí)的物理集群; 2.在CentOS虛擬集群上部署ClouderaHadoop集群平臺、配置管理、部署HUE監(jiān)控系統(tǒng); 3.基于HDFS實(shí)現(xiàn)大規(guī)模在線文件存儲程序; 4.基于Hadoop MapReduce實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)統(tǒng)計(jì)程序; |
第二天 |
9.目前業(yè)界行業(yè)云數(shù)據(jù)中心的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)實(shí)現(xiàn)與平臺應(yīng)用,以及SQL、NoSQL和NewSQL關(guān)鍵技術(shù)詳解,系統(tǒng)平臺技術(shù)概述以及適合的應(yīng)用場景; 10.Hadoop半結(jié)構(gòu)化與非結(jié)構(gòu)化大數(shù)據(jù)管理系統(tǒng)HBase集群的應(yīng)用及其發(fā)展趨勢,HBase半結(jié)構(gòu)化大數(shù)據(jù)管理集群管理、運(yùn)維監(jiān)控、性能優(yōu)化、負(fù)載均衡,以及與Hadoop核心組件HDFS和MapReduce的數(shù)據(jù)協(xié)同操作應(yīng)用; 11.HBase數(shù)據(jù)模型,HBase數(shù)據(jù)表、列族設(shè)計(jì),以及數(shù)據(jù)的讀Get、寫Put、掃描Scan、刪除Delete操作;HBase數(shù)據(jù)模型的特殊屬性:版本、元數(shù)據(jù)管理、Join查詢、計(jì)數(shù)器、原子操作、ACID事務(wù)處理、行鎖、自動(dòng)分區(qū)技術(shù)、HMaster與HRegionServer工作機(jī)制與調(diào)優(yōu); 12.HBase表結(jié)構(gòu)設(shè)計(jì),半結(jié)構(gòu)化數(shù)據(jù)的模式創(chuàng)建、行鍵的設(shè)計(jì)、列族定義方法,以及HBase應(yīng)用表結(jié)構(gòu)設(shè)計(jì); 13.利用HBase的原生Java客戶端的開發(fā)包進(jìn)行創(chuàng)建表、刪除表、插入數(shù)據(jù)、查詢數(shù)據(jù)、刪除數(shù)據(jù)和過濾查詢;使用Thrift和REST客戶端API操作HBase數(shù)據(jù)庫,利用MapReduce批量操作HBase表的技術(shù); 14.HBase集群運(yùn)維管理工具應(yīng)用,包括:文件檢測修復(fù)、文件查看工具、WAL日志查看、壓縮測試工具、數(shù)據(jù)遷移、數(shù)據(jù)導(dǎo)入與導(dǎo)出、日志回放工具,以及HBase性能指標(biāo)度量以及HBase性能優(yōu)化技術(shù); 15.大型數(shù)據(jù)倉庫HIVE集群的技術(shù)原理及應(yīng)用,Hive文件與記錄存儲格式、HiveServer2原理與應(yīng)用部署、Hive大數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)、Hive功能操作實(shí)踐,以及云計(jì)算數(shù)據(jù)中心的Hive大型數(shù)據(jù)倉庫集群在BAT公司和通信運(yùn)營商中的案例分析; 16.HIVE大數(shù)據(jù)倉庫應(yīng)用案例; 17.HBase和數(shù)據(jù)倉庫HIVE的框架整合技術(shù)及其應(yīng)用; |
5. ClouderaManager軟件部署與 配置; 6.部署HBase大數(shù)據(jù)管理系統(tǒng),配置、參數(shù)調(diào)優(yōu)、性能監(jiān)控, HBase數(shù)據(jù)表操作,以及項(xiàng)目應(yīng)用開發(fā)實(shí)踐; 7.配置部署HIVE數(shù)據(jù)倉庫集群,以及性能調(diào)優(yōu)實(shí)戰(zhàn); 8.基于給定的實(shí)驗(yàn)數(shù)據(jù)集加載至HIVE以及HBase中,并且根據(jù)實(shí)驗(yàn)要求設(shè)計(jì)實(shí)現(xiàn)應(yīng)用程序; |
第三天 |
18.HadoopKerberos安全機(jī)制原理,訪問控制配置、認(rèn)證機(jī)制,以及實(shí)踐操作部署; 19.Hadoop集群的更新升級應(yīng)用與操作步驟; 20.基于Hadoop+Mahout大數(shù)據(jù)分析挖掘處理平臺技術(shù)架構(gòu),以及大數(shù)據(jù)挖掘在互聯(lián)網(wǎng)電商和電信行業(yè)中的應(yīng)用案例分析; 21.Mahout大數(shù)據(jù)協(xié)同過濾分析、頻繁模式挖掘分析、聚類分析、分類分析、推薦分析的應(yīng)用程序開發(fā)實(shí)現(xiàn); 22.大數(shù)據(jù)分析引擎Apache Flink的工作原理、核心技術(shù)架構(gòu)、安裝部署和應(yīng)用配置; 23.Storm大數(shù)據(jù)實(shí)時(shí)流數(shù)據(jù)處理平臺的技術(shù)原理、集群架構(gòu)、安裝部署、程序開發(fā)及其實(shí)際應(yīng)用案例分析; 24.Spark大數(shù)據(jù)實(shí)時(shí)處理平臺的技術(shù)原理、集群架構(gòu)及其在大型互聯(lián)網(wǎng)公司和運(yùn)營商企業(yè)中的應(yīng)用實(shí)踐案例; 25.Spark分布式集群的安裝部署,Spark分布式實(shí)時(shí)處理框架及工作原理,以及Spark集群的平臺架構(gòu)及其生態(tài)系統(tǒng)組件剖析,SparkSQL應(yīng)用技巧; 26.VMware虛擬化集群管理軟件,以及Hadoop+ HBase + HIVE + Storm +Spark的大數(shù)據(jù)平臺集成解決方案的應(yīng)用實(shí)踐案例分享; 27.基于真實(shí)的互聯(lián)網(wǎng)數(shù)據(jù)和實(shí)驗(yàn)指導(dǎo)手冊在講師的引導(dǎo)下完成實(shí)際的項(xiàng)目案例,鞏固學(xué)過的大數(shù)據(jù)平臺技術(shù)知識以及應(yīng)用技能。 |
9.結(jié)合云計(jì)算與大數(shù)據(jù)平臺實(shí)現(xiàn)一個(gè)真實(shí)的互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)搜索系統(tǒng),以及搜索日志分析與推薦系統(tǒng)應(yīng)用案例,構(gòu)建一個(gè)Hadoop, MapReduce, Storm, HBase, HIVE, Spark, Mahout的大數(shù)據(jù)平臺集成解決方案。 |