您現(xiàn)在的位置：首頁 > 企業(yè)內(nèi)訓(xùn) > 大數(shù)據(jù) > R語言與Hadoop環(huán)境下大數(shù)據(jù)分析與挖掘

R語言與Hadoop環(huán)境下大數(shù)據(jù)分析與挖掘

2020-07-03 09:01:35　|　來源：中培企業(yè)IT培訓(xùn)網(wǎng)

培訓(xùn)背景

針對貴方培訓(xùn)需求之R語言與Hadoop環(huán)境下大數(shù)據(jù)分析與挖掘課程，特編制此課程的方案。課程要點應(yīng)答方案包括課程目標(biāo)設(shè)計、課程實施大綱與框架、師資隊伍配備、課程訓(xùn)后評估及手段、課程質(zhì)量控制流程、課程后期服務(wù)承諾、課程培訓(xùn)承諾、課程培訓(xùn)優(yōu)勢、課程成功案例等內(nèi)容。

培訓(xùn)收益

1.本課程盡量避開數(shù)學(xué)公式，按照“講清思想方法原理—結(jié)合具體案例—R語言實現(xiàn)細(xì)節(jié)”思路，讓即使是幾乎沒有什么基礎(chǔ)的學(xué)員，掌握R語言數(shù)據(jù)挖掘的基本思路和模式，打下未來深入的良好基礎(chǔ)，能在工作和學(xué)習(xí)中結(jié)合具體問題立馬上手操作解決；

2.課程注重學(xué)練結(jié)合的方法，會采取小組討論的方法，充分調(diào)動大家思考的積極性，在做中掌握相關(guān)知識和技能；

3.課程緊緊抓住R語言和數(shù)據(jù)挖掘的重點和難點，詳細(xì)的分析和講解，在理解難、容易出錯的地方反復(fù)提醒，以便學(xué)員在課后容易的進(jìn)行自己復(fù)習(xí)和相關(guān)拓展；

4.本課程讓學(xué)員領(lǐng)略大數(shù)據(jù)技術(shù)的魅力和廣闊前景，使學(xué)員掌握主流的大數(shù)據(jù)（包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)）的表示、建模、存儲、管理、分析處理、挖掘、推薦技術(shù)、匹配技術(shù)與關(guān)聯(lián)分析技術(shù)，以及機(jī)器學(xué)習(xí)平臺的原理與應(yīng)用實戰(zhàn)；

5.課程緊密結(jié)合行業(yè)市場需求和國際國內(nèi)最新技術(shù)發(fā)展潮流，讓學(xué)員掌握大數(shù)據(jù)分析挖掘平臺架構(gòu)和應(yīng)用部署，分享成功的大數(shù)據(jù)應(yīng)用項目實施經(jīng)驗，學(xué)習(xí)大數(shù)據(jù)分析應(yīng)用項目解決方案咨詢服務(wù)；

6.讓學(xué)員掌握常見的大數(shù)據(jù)分析方法和數(shù)據(jù)挖掘算法使用方法，以及大數(shù)據(jù)開發(fā)與運(yùn)維技術(shù)。讓學(xué)員掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘平臺Mahout、MLbase機(jī)器學(xué)習(xí)算法庫應(yīng)用、數(shù)據(jù)倉庫HIVE、實時分析平臺Spark、實時挖掘平臺Shark、分布式機(jī)器學(xué)習(xí)與推薦系統(tǒng)平臺Oryx的入門、中級以及高級應(yīng)用，并對主流的大數(shù)據(jù)分析建模與挖掘推薦平臺產(chǎn)品剖析。

培訓(xùn)特色

本次培訓(xùn)從案例分析與行業(yè)應(yīng)用穿插；專家精彩內(nèi)容解析、學(xué)員專題討論、分組研究；通過全面知識理解、專題技能演示和實踐引導(dǎo)學(xué)員掌握課程內(nèi)容。

課程大綱

日程	培訓(xùn)模塊	內(nèi)容
第一天上午	大數(shù)據(jù)概述	1.大數(shù)據(jù)基本概念、技術(shù)梗概、技術(shù)沿革，以及大數(shù)據(jù)技術(shù)是如何改變?nèi)斯ぶ悄芗夹g(shù)、語音識別技術(shù)、圖像識別/視頻理解、自然語言處理技術(shù)等，以及大數(shù)據(jù)技術(shù)在政府、金融、石油、教育、交通、醫(yī)療衛(wèi)生等行業(yè)的成功案例； 2.Hadoop大數(shù)據(jù)平臺的生態(tài)系統(tǒng)組件、平臺架構(gòu)以及工作原理；分布式文件系統(tǒng)HDFS、并行處理系統(tǒng)Hadoop MapReduce的系統(tǒng)架構(gòu)、核心功能模塊、工作原理以及應(yīng)用開發(fā)； 3.大數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)模型、半結(jié)構(gòu)化模型和非結(jié)構(gòu)化數(shù)據(jù)的存儲模型，邏輯模型，以及分析建模工具的常用方法。
第一天下午	數(shù)據(jù)挖掘及Mahout	1.十大常用的并行數(shù)據(jù)挖掘算法、原理、應(yīng)用場景，以及技術(shù)實戰(zhàn)； 2.并行數(shù)據(jù)挖掘平臺Mahout的技術(shù)架構(gòu)、核心組件的工作原理以及技術(shù)； 3.Mahout應(yīng)用開發(fā)技術(shù)； 4.Mahout項目實戰(zhàn)。
第二天上午	R語言精要	本著循序漸進(jìn)而又覆蓋R語言重要而有用的基本內(nèi)容原則，本講從R語言入門開始，以前期的數(shù)據(jù)處理為核心，以實際案例為載體，內(nèi)容包括R語言的向量、數(shù)據(jù)框、矩陣運(yùn)算、缺失值和零值的處理、特別注重用R語言構(gòu)造函數(shù)編程解決實際問題，詳細(xì)介紹強(qiáng)大的數(shù)據(jù)清洗整理plyr、zoo、car等常用包和強(qiáng)大的作圖ggplot2包，為使用R語言進(jìn)行數(shù)據(jù)挖掘打下扎實的工具基礎(chǔ)。主要案例：案例1：如何用R語言plyr等包合并、排序、分析數(shù)據(jù)并編制香農(nóng)-威納指數(shù)；案例2：如何用R語言編程同時實現(xiàn)幾十個高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出；案例3：如何使用R語言進(jìn)行分層或者整群抽樣構(gòu)建訓(xùn)練集與測試集；案例4：使用ggplot2畫出各種復(fù)雜的圖形。
第二天下午	Logistic回歸與商業(yè)大數(shù)據(jù)建模	Logistic回歸是商業(yè)建模的常用重要數(shù)據(jù)挖掘方法，本講要講清楚Logistic回歸的建模原理、與多元線性模型的區(qū)別、R語言實現(xiàn)過程及回歸診斷注意事項、預(yù)測方法和結(jié)果解釋，讓學(xué)員徹底地掌握Logistic回歸解決問題的R語言方法。主要案例：案例1：利用Logistic回歸幫助商業(yè)銀行完成對客戶提前還貸款情況的預(yù)測；案例2：利用Logistic回歸幫助醫(yī)生對病人選擇最佳治療方案；案例3：利用Logistic回歸幫助廠家分析顧客做出購買決策的重要因素；案例4：利用Logistic回歸幫助壽險公司進(jìn)行目標(biāo)客戶精準(zhǔn)電話營銷；案例5：利用Logistic回歸幫助商業(yè)銀行完成對客戶的信用評分；案例6：利用Logistic回歸幫助公司分析客戶流失的原因并做好預(yù)測。
第三天上午	關(guān)聯(lián)規(guī)則和 R語言實現(xiàn)	關(guān)聯(lián)規(guī)則（著名的“啤酒和尿布”）是數(shù)據(jù)挖掘的基礎(chǔ)和核心技術(shù)之一，本講將著重圍繞經(jīng)典的Apriori算法和eclat算法，闡明關(guān)聯(lián)規(guī)則的支持、置信和提升程度與控制，使用R語言快速完成關(guān)聯(lián)規(guī)則分析。主要案例：案例1：使用R語言關(guān)聯(lián)規(guī)則方法幫助各個超市實現(xiàn)商品的最佳捆綁銷售方案（即“購物籃”分析）；案例2：泰坦尼克號乘客幸存的關(guān)聯(lián)規(guī)則分析；案例3：提高個人收入的關(guān)聯(lián)分析。
第三天下午	決策樹（回歸樹）分析和R語言實現(xiàn)	決策樹是數(shù)據(jù)挖掘的經(jīng)典方法，其原理容易被理解。本講主要講授兩種最為普遍的決策樹算法：CART和C4.5算法，使用rpart和J48函數(shù)進(jìn)行R語言分析。主要案例：案例1：對汽車耗油量進(jìn)行決策樹分析并完成相關(guān)目標(biāo)變量的預(yù)測；案例2：使用決策樹幫助電信局判斷和預(yù)測客戶辦理寬帶業(yè)務(wù)。
第四天上午	機(jī)器集成學(xué)習(xí)的 Bagging和AdaBoost算法	這兩種方法將許多分類器的預(yù)測結(jié)果進(jìn)行匯總分析，從而達(dá)到顯著提升分類效果。本講介紹這2種算法的思想，在R語言中構(gòu)造訓(xùn)練集和測試集進(jìn)一步進(jìn)行分析。主要案例：案例1：用R語言的Bagging和AdaBoost進(jìn)行商業(yè)銀行定期存款的分析和預(yù)測；案例2：用R語言的Bagging和AdaBoost識別有毒蘑菇。
第四天下午	R語言隨機(jī)森林（RandomForest）算法	在機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個包含多個決策樹的分類器，本講講清隨機(jī)森林方法的原理，以致在實際中幫助學(xué)員判斷適合進(jìn)行隨機(jī)森林分析的情況，最終熟練掌握R語言隨機(jī)森林分析的方法。主要案例：案例1：對皮膚病進(jìn)行隨機(jī)森林的分類和預(yù)測；案例2：對酒的品質(zhì)和種類進(jìn)行分類和評價。
第五天上午	支持向量機(jī)和 R語言的實現(xiàn)	本講將分析支持向量機(jī)的結(jié)構(gòu)風(fēng)險最小原理、間隔和核函數(shù)，從而幫助學(xué)員深刻理解支持向量機(jī)的思想和算法，以及使用中注意的問題，從而幫助學(xué)員靈活地應(yīng)用于各個領(lǐng)域。主要案例：案例1：對著名的鳶尾花數(shù)據(jù)進(jìn)行支持向量機(jī)的分析；案例2：使用支持向量機(jī)識別有毒蘑菇；案例3：使用支持向量機(jī)進(jìn)行股票指數(shù)預(yù)測。
第五天下午	神經(jīng)網(wǎng)絡(luò)和 R語言的實現(xiàn)	神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點和輸出函數(shù)構(gòu)成邏輯策略，本講介紹其原理，主要通過案例的方式講解R語言實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法的過程和注意的事項。主要案例：案例1：酒的品質(zhì)和種類的神經(jīng)網(wǎng)絡(luò)的分析和預(yù)測；案例2：公司財務(wù)預(yù)警建模。
	交叉驗證比較各個模型	對于同一個數(shù)據(jù)，可能有很多模型來擬合，如何衡量和比較模型的精度呢？本講將介紹交叉驗證訓(xùn)練集和測試集的方法來幫助大家在實際中選取最佳模型進(jìn)行擬合和預(yù)測。
	使用R語言結(jié)合KNN 算法進(jìn)行文本挖掘	文本挖掘，特別是對中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法，幫助大家使用R語言在大量的非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息，抽取潛在有用的數(shù)據(jù)，發(fā)現(xiàn)適合模式，實現(xiàn)可視化結(jié)果展示。主要案例：案例：使用R語言結(jié)合KNN算法對網(wǎng)頁（Web）進(jìn)行文本挖掘（含分詞、分類、可視化等）。

標(biāo)簽： R語言 Hadoop環(huán)境

上一篇：大數(shù)據(jù)技術(shù)Hadoop應(yīng)用實戰(zhàn)培訓(xùn)方案
下一篇：Vmware虛擬化高可用集群部署

日程	培訓(xùn)模塊	內(nèi)容
第一天上午	大數(shù)據(jù)概述	1.大數(shù)據(jù)基本概念、技術(shù)梗概、技術(shù)沿革，以及大數(shù)據(jù)技術(shù)是如何改變?nèi)斯ぶ悄芗夹g(shù)、語音識別技術(shù)、圖像識別/視頻理解、自然語言處理技術(shù)等，以及大數(shù)據(jù)技術(shù)在政府、金融、石油、教育、交通、醫(yī)療衛(wèi)生等行業(yè)的成功案例； 2.Hadoop大數(shù)據(jù)平臺的生態(tài)系統(tǒng)組件、平臺架構(gòu)以及工作原理；分布式文件系統(tǒng)HDFS、并行處理系統(tǒng)Hadoop MapReduce的系統(tǒng)架構(gòu)、核心功能模塊、工作原理以及應(yīng)用開發(fā)； 3.大數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)模型、半結(jié)構(gòu)化模型和非結(jié)構(gòu)化數(shù)據(jù)的存儲模型，邏輯模型，以及分析建模工具的常用方法。
第一天下午	數(shù)據(jù)挖掘及Mahout	1.十大常用的并行數(shù)據(jù)挖掘算法、原理、應(yīng)用場景，以及技術(shù)實戰(zhàn)； 2.并行數(shù)據(jù)挖掘平臺Mahout的技術(shù)架構(gòu)、核心組件的工作原理以及技術(shù)； 3.Mahout應(yīng)用開發(fā)技術(shù)； 4.Mahout項目實戰(zhàn)。
第二天上午	R語言精要	本著循序漸進(jìn)而又覆蓋R語言重要而有用的基本內(nèi)容原則，本講從R語言入門開始，以前期的數(shù)據(jù)處理為核心，以實際案例為載體，內(nèi)容包括R語言的向量、數(shù)據(jù)框、矩陣運(yùn)算、缺失值和零值的處理、特別注重用R語言構(gòu)造函數(shù)編程解決實際問題，詳細(xì)介紹強(qiáng)大的數(shù)據(jù)清洗整理plyr、zoo、car等常用包和強(qiáng)大的作圖ggplot2包，為使用R語言進(jìn)行數(shù)據(jù)挖掘打下扎實的工具基礎(chǔ)。主要案例：案例1：如何用R語言plyr等包合并、排序、分析數(shù)據(jù)并編制香農(nóng)-威納指數(shù)；案例2：如何用R語言編程同時實現(xiàn)幾十個高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出；案例3：如何使用R語言進(jìn)行分層或者整群抽樣構(gòu)建訓(xùn)練集與測試集；案例4：使用ggplot2畫出各種復(fù)雜的圖形。
第二天下午	Logistic回歸與商業(yè)大數(shù)據(jù)建模	Logistic回歸是商業(yè)建模的常用重要數(shù)據(jù)挖掘方法，本講要講清楚Logistic回歸的建模原理、與多元線性模型的區(qū)別、R語言實現(xiàn)過程及回歸診斷注意事項、預(yù)測方法和結(jié)果解釋，讓學(xué)員徹底地掌握Logistic回歸解決問題的R語言方法。主要案例：案例1：利用Logistic回歸幫助商業(yè)銀行完成對客戶提前還貸款情況的預(yù)測；案例2：利用Logistic回歸幫助醫(yī)生對病人選擇最佳治療方案；案例3：利用Logistic回歸幫助廠家分析顧客做出購買決策的重要因素；案例4：利用Logistic回歸幫助壽險公司進(jìn)行目標(biāo)客戶精準(zhǔn)電話營銷；案例5：利用Logistic回歸幫助商業(yè)銀行完成對客戶的信用評分；案例6：利用Logistic回歸幫助公司分析客戶流失的原因并做好預(yù)測。
第三天上午	關(guān)聯(lián)規(guī)則和 R語言實現(xiàn)	關(guān)聯(lián)規(guī)則（著名的“啤酒和尿布”）是數(shù)據(jù)挖掘的基礎(chǔ)和核心技術(shù)之一，本講將著重圍繞經(jīng)典的Apriori算法和eclat算法，闡明關(guān)聯(lián)規(guī)則的支持、置信和提升程度與控制，使用R語言快速完成關(guān)聯(lián)規(guī)則分析。主要案例：案例1：使用R語言關(guān)聯(lián)規(guī)則方法幫助各個超市實現(xiàn)商品的最佳捆綁銷售方案（即“購物籃”分析）；案例2：泰坦尼克號乘客幸存的關(guān)聯(lián)規(guī)則分析；案例3：提高個人收入的關(guān)聯(lián)分析。
第三天下午	決策樹（回歸樹）分析和R語言實現(xiàn)	決策樹是數(shù)據(jù)挖掘的經(jīng)典方法，其原理容易被理解。本講主要講授兩種最為普遍的決策樹算法：CART和C4.5算法，使用rpart和J48函數(shù)進(jìn)行R語言分析。主要案例：案例1：對汽車耗油量進(jìn)行決策樹分析并完成相關(guān)目標(biāo)變量的預(yù)測；案例2：使用決策樹幫助電信局判斷和預(yù)測客戶辦理寬帶業(yè)務(wù)。
第四天上午	機(jī)器集成學(xué)習(xí)的 Bagging和AdaBoost算法	這兩種方法將許多分類器的預(yù)測結(jié)果進(jìn)行匯總分析，從而達(dá)到顯著提升分類效果。本講介紹這2種算法的思想，在R語言中構(gòu)造訓(xùn)練集和測試集進(jìn)一步進(jìn)行分析。主要案例：案例1：用R語言的Bagging和AdaBoost進(jìn)行商業(yè)銀行定期存款的分析和預(yù)測；案例2：用R語言的Bagging和AdaBoost識別有毒蘑菇。
第四天下午	R語言隨機(jī)森林（RandomForest）算法	在機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個包含多個決策樹的分類器，本講講清隨機(jī)森林方法的原理，以致在實際中幫助學(xué)員判斷適合進(jìn)行隨機(jī)森林分析的情況，最終熟練掌握R語言隨機(jī)森林分析的方法。主要案例：案例1：對皮膚病進(jìn)行隨機(jī)森林的分類和預(yù)測；案例2：對酒的品質(zhì)和種類進(jìn)行分類和評價。
第五天上午	支持向量機(jī)和 R語言的實現(xiàn)	本講將分析支持向量機(jī)的結(jié)構(gòu)風(fēng)險最小原理、間隔和核函數(shù)，從而幫助學(xué)員深刻理解支持向量機(jī)的思想和算法，以及使用中注意的問題，從而幫助學(xué)員靈活地應(yīng)用于各個領(lǐng)域。主要案例：案例1：對著名的鳶尾花數(shù)據(jù)進(jìn)行支持向量機(jī)的分析；案例2：使用支持向量機(jī)識別有毒蘑菇；案例3：使用支持向量機(jī)進(jìn)行股票指數(shù)預(yù)測。
第五天下午	神經(jīng)網(wǎng)絡(luò)和 R語言的實現(xiàn)	神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點和輸出函數(shù)構(gòu)成邏輯策略，本講介紹其原理，主要通過案例的方式講解R語言實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法的過程和注意的事項。主要案例：案例1：酒的品質(zhì)和種類的神經(jīng)網(wǎng)絡(luò)的分析和預(yù)測；案例2：公司財務(wù)預(yù)警建模。
	交叉驗證比較各個模型	對于同一個數(shù)據(jù)，可能有很多模型來擬合，如何衡量和比較模型的精度呢？本講將介紹交叉驗證訓(xùn)練集和測試集的方法來幫助大家在實際中選取最佳模型進(jìn)行擬合和預(yù)測。
	使用R語言結(jié)合KNN 算法進(jìn)行文本挖掘	文本挖掘，特別是對中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法，幫助大家使用R語言在大量的非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息，抽取潛在有用的數(shù)據(jù)，發(fā)現(xiàn)適合模式，實現(xiàn)可視化結(jié)果展示。主要案例：案例：使用R語言結(jié)合KNN算法對網(wǎng)頁（Web）進(jìn)行文本挖掘（含分詞、分類、可視化等）。

无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

一站式企業(yè)數(shù)字化人才培養(yǎng)提供商

R語言與Hadoop環(huán)境下大數(shù)據(jù)分析與挖掘

相關(guān)閱讀

DAMA國際數(shù)據(jù)管理專業(yè)人士CDMP認(rèn)證&DAMA中國數(shù)據(jù)治理工程師CDGA認(rèn)證

國家注冊信息安全專業(yè)人員CISP-PTE滲透測試工程師認(rèn)證

國家注冊信息安全專業(yè)人員CISP認(rèn)證

DAMA中國數(shù)據(jù)治理專家CDGP認(rèn)證

PMP項目管理國際認(rèn)證

全國報名服務(wù)熱線

熱門課程咨詢

微信公眾號