无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 大數據平臺常見的相關步驟

大數據平臺常見的相關步驟

2017-02-15 17:06:16 | 來源:中培企業IT培訓網

在當今的大數據時代,大數據平臺的搭建也成為互聯網行業的熱門技術課題。中培偉業《大數據平臺搭建及高性能計算最佳實踐》專家蔣老師結合相關事件,在這里介紹了大數據平臺搭建的常見步驟及相關注意事項。

1. linux系統安裝 

一般使用開源版的Redhat系統--CentOS作為底層平臺。為了提供穩定的硬件基礎,在給硬盤做RAID和掛載數據存儲節點的時,需要按情況配置。例如,可以選擇給HDFS的namenode做RAID2以提高其穩定性,將數據存儲與操作系統分別放置在不同硬盤上,以確保操作系統的正常運行。 

2. 分布式計算平臺/組件安裝 

目前國內外的分布式系統的大多使用的是Hadoop系列開源系統。Hadoop的核心是HDFS,一個分布式的文件系統。在其基礎上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

3. 數據導入

前面提到,數據導入的工具是Sqoop。用它可以將數據從文件或者傳統數據庫導入到分布式平臺『一般主要導入到Hive,也可將數據導入到Hbase』。

4. 數據分析

數據分析一般包括兩個階段:數據預處理和數據建模分析。

(1)數據預處理是為后面的建模分析做準備,主要工作時從海量數據中提取可用特征,建立大寬表。這個過程可能會用到Hive SQL,Spark QL和Impala。

(2)數據建模分析是針對預處理提取的特征/數據建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網絡、TFIDF、協同過濾等,都已經在ML lib里面,調用比較方便。

5. 結果可視化及輸出API

可視化一般式對結果或部分原始數據做展示。一般有兩種情況,行數據展示,和列查找展示。在這里,要基于大數據平臺做展示,會需要用到ElasticSearch和Hbase。Hbase提供快速『ms級別』的行查找。 ElasticSearch可以實現列索引,提供快速列查找。

6. 平臺搭建主要問題: 

(1)穩定性 Stability 

理論上來說,穩定性是分布式系統最大的優勢,因為它可以通過多臺機器做數據及程序運行備份以確保系統穩定。但也由于大數據平臺部署于多臺機器上,配置不合適,也可能成為最大的問題。 曾經遇到的一個問題是Hbase經常掛掉,主要原因是采購的硬盤質量較差。硬盤損壞有時會到導致Hbase同步出現問題,因而導致Hbase服務停止。由于硬盤質量較差,隔三差五會出現服務停止現象,耗費大量時間。結論:大數據平臺相對于超算確實廉價,但是配置還是必須高于家用電腦的。

(2)可擴展性 Scalability 

如何快速擴展已有大數據平臺,在其基礎上擴充新的機器是云計算等領域應用的關鍵問題。在實際2B的應用中,有時需要增減機器來滿足新的需求。如何在保留原有功能的情況下,快速擴充平臺是實際應用中的常見問題。

想了解更多IT資訊,請訪問中培偉業官網:中培偉業

標簽: 大數據平臺
主站蜘蛛池模板: 四虎网址入口 | 天天爱天天操天天爽 | a日韩在线 | 亚洲自偷自拍另类第1页 | 久久av高潮av| 法国一级毛片 | 日韩不卡高清 | 色欲婬色婬香视频综合网 | 一区二区精品久久久 | 成年人在线视频观看 | av观看网| 美女毛片一区二区三区四区 | 污片在线观看视频 | 国产精品免费视频一区二区 | 国产精品原创av片 | 欧美成人精品一级 | 超碰亚洲| 91丨国产丨精品入口 | 美女高潮在线观看 | 国产成人无码WWW免费视频在线 | 亚洲一区三区在线观看 | 少妇爆乳无码AV无码波霸 | 在线观看日韩中文字幕 | 在线中文字幕乱码英文字幕正常 | 免费观看91视频 | 男人插女人骚视频 | 中文字幕日本一道 | 国产盗摄一区二区三区在线 | 女人久久久久久久 | 日韩视频网址 | 91精品成人久久 | 久久蜜月Aⅴ毛片免费看 | 国产精品久久久久久久久快鸭 | 奇米影音第四色 | 日本高清一二三不卡区 | 狠狠干天天 | 黄色国产免费看 | 亚洲精选99 | 私人毛片免费高清影视院 | 午夜看毛片 | 欧美性猛xxxx |