无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 大數(shù)據(jù) > HPCC 和 Hadoop 的詳細(xì)比較

HPCC 和 Hadoop 的詳細(xì)比較

2015-11-06 10:27:10 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

【中培偉業(yè)】通常使用基于Intel或AMD CPU的刀片服務(wù)器來構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過時硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過高速交換機(jī)相連(通常為千兆交換機(jī)),如果集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對等的(所有資源可以簡化為相同配置),但這一點(diǎn)并非必須。
  硬件環(huán)境
  通常使用基于Intel或AMD CPU的刀片服務(wù)器來構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過時硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過高速交換機(jī)相連(通常為千兆交換機(jī)),如果集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對等的(所有資源可以簡化為相同配置),但這一點(diǎn)并非必須。
  操作系統(tǒng)
  Linux或windows
  系統(tǒng)配置
  實(shí)現(xiàn)HPCC集群用兩種配置:數(shù)據(jù)加工(Thor)類似于Hadoop的MapReduce集群;數(shù)據(jù)分發(fā)引擎(Roxie)提供了獨(dú)立的高性能在線查詢 處理功能和數(shù)據(jù)倉庫功能。兩種配置都可以用做分布式文件系統(tǒng),不過它們試圖提高性能的實(shí)現(xiàn)方法不同。HPCC環(huán)境通常由兩種配置類型的多個集群組成。雖然 每個集群上的文件系統(tǒng)相互獨(dú)立,但是一個集群可以訪問同一環(huán)境下位于其他集群上的文件系統(tǒng)內(nèi)的文件。
  Hadoop系統(tǒng)軟件使用MapReduce處理范例實(shí)現(xiàn)了集群。這樣的集群也可以用做運(yùn)行HDFS的分布式文件系統(tǒng)。其他的功能都處Hadoop的MapReduce和Hbase,Hive等文件系統(tǒng)軟件之上。
  授權(quán)和維護(hù)費(fèi)用
  HPCC:社團(tuán)版本是免費(fèi)的。企業(yè)版授權(quán)費(fèi)用目前取決于集群大小和系統(tǒng)配置的類型。
  Hadoop:免費(fèi),不過有多個廠商提供不同的付費(fèi)的維護(hù)服務(wù)。
  核心軟件
  HPCC:如果使用了Thor配置,那么核心軟件包括安裝在集群每個節(jié)點(diǎn)上的操作系統(tǒng)和多種服務(wù),它們來實(shí)現(xiàn)任務(wù)的執(zhí)行和分布式文件系統(tǒng)的訪問。名字為 Dali的獨(dú)立服務(wù)器提供文件系統(tǒng)名字服務(wù)和管理HPCC環(huán)境下任務(wù)的工作單元。Thor集群可以配置為一個主節(jié)點(diǎn)和多個備用節(jié)點(diǎn)。Roxie集群是一個 對等連接的集群,它的每個節(jié)點(diǎn)可運(yùn)行服務(wù)器和執(zhí)行查詢以及密鑰和文件處理的任務(wù)代理。Roxie集群的文件系統(tǒng)使用分布式B+樹來存儲索引和數(shù)據(jù),并提供 對加密數(shù)據(jù)的訪問。要對Thor和Roxie集群進(jìn)行操作的話,附加的中間件組件是不可或缺的。
  Hadoop:核心軟件包括操作系統(tǒng)、Hadoop的MapReduce集群和HDFS軟件。每個備用節(jié)點(diǎn)包括任務(wù)跟蹤服務(wù)和數(shù)據(jù)節(jié)點(diǎn)服務(wù)。主節(jié)點(diǎn)包括任務(wù)追蹤服務(wù),任務(wù)追蹤服務(wù)可配置為獨(dú)立的硬件節(jié)點(diǎn)或者運(yùn)行在一個備用硬件節(jié)點(diǎn)。類似地,對HDFS來說,要提供名字服務(wù)的話,主名字節(jié)點(diǎn)服務(wù)也是必須的,并且可在一個備用的節(jié)點(diǎn)或者一個獨(dú)立的節(jié)點(diǎn)之上運(yùn)行這個服務(wù)。
  中間件
  HPCC:中間件包括在MySQL服務(wù)器上實(shí)現(xiàn)的ECL代碼倉庫、編譯ECL程序和查詢的ECL服務(wù)器、ECL代理即Thor集群上管理任務(wù)執(zhí)行的客戶端 程序,ESP服務(wù)器(企業(yè)服務(wù)平臺),它提供認(rèn)證、日志記錄、安全以及執(zhí)行任務(wù)和提供Web服務(wù)環(huán)境的其他服務(wù),Dali服務(wù)器,它可用作存儲任務(wù)工作單 元信息的系統(tǒng)數(shù)據(jù)和為分布式文件系統(tǒng)提供名字服務(wù)。中間件可以靈活地運(yùn)行在一個到幾個節(jié)點(diǎn)上。多個這樣的服務(wù)器可以提供冗余備份和提高性能。
  Hadoop:沒有中間件。客戶端軟件可以直接提交任務(wù)給集群主節(jié)點(diǎn)的任務(wù)追蹤器。作為服務(wù)器運(yùn)行的Hadoop工作流調(diào)度器(HWS)的管理需要多個MapReduce序列的任務(wù)的功能正在開發(fā)中。
  系統(tǒng)工具
  HPCC包括用于管理、維護(hù)和監(jiān)視HPCC配置和環(huán)境的客戶端和操作工具套件。這個套件包括ECL IDE、程序開發(fā)環(huán)境、屬性遷移工具、分布式文件應(yīng)用(DFU)、環(huán)境配置應(yīng)用和Roxie配置應(yīng)用。命令行版本也可用。ECLWatch是一個監(jiān)控 HPCC環(huán)境的基于Web的應(yīng)用程序,它包括隊(duì)列管理,分布式文件系統(tǒng)管理、任務(wù)監(jiān)視和系統(tǒng)性能監(jiān)視工具。其他工具是通過Web服務(wù)接口提供的。
  Hadoop:dfsadmin工具提供文件系統(tǒng)的狀態(tài)信息;fsck是一個檢查HDFS上文件的健康性的應(yīng)用;數(shù)據(jù)節(jié)點(diǎn)塊掃描器定時地驗(yàn)證數(shù)據(jù)節(jié)點(diǎn)上所 有的存儲塊;平衡器根據(jù)需要把超負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上的阻塞重新發(fā)布到低負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上。MapReduce的WEB用戶接口包括顯示正在運(yùn)行的和已經(jīng)完成 的任務(wù)信息的任務(wù)追蹤器頁面;對一個具體的任務(wù)再向下點(diǎn)擊的話就可以看到這個任務(wù)的詳細(xì)信息。還有顯示Map和Reduce任務(wù)信息的任務(wù)頁面。
  易部署
  HPCC:環(huán)境配置工具。源服務(wù)器有一個集中式倉庫,它分發(fā)操作系統(tǒng)級別的設(shè)置、服務(wù)和二進(jìn)制文件到配置中所有可網(wǎng)絡(luò)啟動的節(jié)點(diǎn)上。
  Hadoop:需要第三方應(yīng)用向?qū)峁┑脑诰€工具協(xié)助。需要手動部署RPM。
  分布式文件系統(tǒng)
  HPCC:Thor的分布式文件系統(tǒng)是面向記錄的,使用本地Linux文件系統(tǒng)存儲部分文件。文件是跨節(jié)點(diǎn)初始化裝載的(提取的),并且每個節(jié)點(diǎn)都有一個單獨(dú)的部分文件,對一個分布式文件來說,這個部分文件可為空。在由用戶指定的偶數(shù)個記錄/文檔范圍內(nèi)對文件進(jìn)行分割。主備結(jié)構(gòu)通過存儲在獨(dú)立服務(wù)器的名字服務(wù)和文件映射信息來分割。每個節(jié)點(diǎn)只需要一個本地文件來表示一個分布式文件。同一環(huán)境下多個集群之間也支持讀寫訪問權(quán)限設(shè)置。使用特定的適配器允許訪問 來自外部數(shù)據(jù)庫的比如MySQL的文件,允許事務(wù)數(shù)據(jù)與分布式文件數(shù)據(jù)合并且并入批處理的任務(wù)中。Roxie分布式文件系統(tǒng)使用了分布式B+樹索引文件, 這樣的文件包含了鍵值信息和存儲在每個節(jié)點(diǎn)的本地文件里的數(shù)據(jù)。
  Hadoop:面向塊的,大多數(shù)安裝使用大小為64MB或者128MB的塊。塊是以節(jié)點(diǎn)的本地Unix/Linux文件系統(tǒng)的獨(dú)立單元/本地文件存儲的。 每個塊的元數(shù)據(jù)信息存儲為一個獨(dú)立的文件。主備結(jié)構(gòu)使用了單獨(dú)的名字節(jié)點(diǎn)提供名字服務(wù)和塊映射,并且使用了多個數(shù)據(jù)節(jié)點(diǎn)。文件劃分為塊并且分布地存儲在集群的各個節(jié)點(diǎn)。跨節(jié)點(diǎn)存儲在一個節(jié)點(diǎn)上每個邏輯塊的多個本地文件(一個用來保存塊數(shù)據(jù)、一個用來保存元數(shù)據(jù))來表示一個分布式文件。
容錯性
  HPCC:Thor和Roxie的分布式文件系統(tǒng)(可配置)在其他節(jié)點(diǎn)上保存了部分文件的副本,以防止磁盤或者節(jié)點(diǎn)失效。Thor系統(tǒng)在一個節(jié)點(diǎn)失效之后 提供了要么自動要么手動的切換和熱啟動,任務(wù)從最近一次檢查點(diǎn)重新啟動或者繼續(xù)運(yùn)行。當(dāng)復(fù)制數(shù)據(jù)到一個新的節(jié)點(diǎn)的時候,副本的制作自動進(jìn)行。Roxie系 統(tǒng)在減少節(jié)點(diǎn)數(shù)而引起節(jié)點(diǎn)失效時繼續(xù)運(yùn)行。
  Hadoop:HDFS(可配置)在其他節(jié)點(diǎn)上存儲(用戶指定的)多個副本,以防止由于自動恢復(fù)出現(xiàn)的磁盤或節(jié)點(diǎn)失效。MapReduce架構(gòu)包括了試探性執(zhí)行,當(dāng)檢測到一個慢的或者失敗的Map任務(wù)時,其他Map任務(wù)將從失效的節(jié)點(diǎn)處開始恢復(fù)。
執(zhí)行任務(wù)的環(huán)境
  HPCC:Thor使用了主備處理結(jié)構(gòu)。ECL任務(wù)定義的處理步驟可以指定本地操作(數(shù)據(jù)在每個節(jié)點(diǎn)上獨(dú)立處理)或者全局(數(shù)據(jù)跨所有節(jié)點(diǎn)處理)操作。為了對編譯的ECL數(shù)據(jù)流程序的執(zhí)行進(jìn)行優(yōu)化,一個過程的多個處理步驟可作為一個單獨(dú)任務(wù)的一部分自動地執(zhí)行。如果每個節(jié)點(diǎn)的CPU和內(nèi)存資源可滿足要求的 話,那么為了減少時延,一個單獨(dú)的Thor集群可配置為并行地運(yùn)行多個任務(wù)。包括ECL代理、ECL服務(wù)器和Dali服務(wù)器的中間件提供了客戶端接口,并管理作為工作單元打包的任務(wù)的執(zhí)行。Roxie使用了多個服務(wù)器/代理的結(jié)構(gòu)處理ECL程序,每個查詢把服務(wù)器任務(wù)當(dāng)作管理者,多個代理任務(wù)在需要的時候 獲取和處理這個查詢的數(shù)據(jù)。
  Hadoop:對輸入的鍵值對數(shù)據(jù)使用MapReduce處理范例。是主備處理結(jié)構(gòu)。任務(wù)追蹤器運(yùn)行在主節(jié)點(diǎn)上,任務(wù)追蹤器運(yùn)行在每個備用節(jié)點(diǎn)上。給 Map任務(wù)指定輸入文件的輸入分支,通常一個塊一個任務(wù)。Reduce任務(wù)數(shù)由用戶指定。對指定的節(jié)點(diǎn)來說,Map處理是在本地執(zhí)行的。移動和排序操作是隨著Map的階段來進(jìn)行的,它用來分發(fā)和排序鍵值對給鍵區(qū)所對應(yīng)的Reduce任務(wù),這樣具有同一鍵的鍵值對由同一個Reduce任務(wù)處理。對大多數(shù)過程 來說,多個MapReduce處理步驟通常是必須的,并且一定是單獨(dú)由用戶或者語言比如Pig來排序和串接的。
  編程語言
  HPCC:ECL是HPCC環(huán)境的主要編程語言。ECL編譯為優(yōu)化的C++,然后再編譯為在Thor和Roxie平臺上可執(zhí)行的DLL。ECL的包括封裝在函數(shù)里的內(nèi)聯(lián)的C++代碼。外部服務(wù)可以用任何語言書寫,并且編譯為ECL可調(diào)用的函數(shù)共享庫。管道接口允許執(zhí)行用任何語言寫的合并到任務(wù)里的外部程序。
  Hadoop的MapReduce任務(wù)通常用Java書寫。其他語言的支持是通過流或者管道接口來實(shí)現(xiàn)的。其他處理環(huán)境是在Hadoop的 MapReduce之上執(zhí)行的,比如HBase和Hive,它們擁有自身的語言接口。Pig拉丁語言和Pig執(zhí)行環(huán)境提供了高級別的數(shù)據(jù)流語言,然后把這 種語言映射到到多個Java書寫的MapReduce任務(wù)上。
  集成編程開發(fā)環(huán)境
  HPCC平臺提供了ECL集成開發(fā)環(huán)境,一個綜合的特別針對ECL語言的集成開發(fā)環(huán)境。ECL集成開發(fā)環(huán)境提供了對共享源代碼倉庫的訪問,還提供了開發(fā) ECL數(shù)據(jù)流程序的完整的開發(fā)和測試環(huán)境。對ECLWatch工具的訪問是內(nèi)置的,它允許開發(fā)人員查看任務(wù)的執(zhí)行狀況。對當(dāng)前和歷史任務(wù)的工作單元的訪問 也提供了,它允許開發(fā)人員在開發(fā)周期期間很容易地對一個任務(wù)和下一個任務(wù)的結(jié)果進(jìn)行比較。
  Hadoop MapReduce使用了Java編程語言,有幾個優(yōu)秀的Java編程開發(fā)環(huán)境,包括NetBeans和Eclipse,它們提供了訪問Hadoop集群 的插件。Pig環(huán)境沒有自己的集成開發(fā)環(huán)境,不過可以使用Eclipse和其他編輯環(huán)境進(jìn)行語法檢查。Eclipse的pigPen附加組件提供了對Hadoop集群的訪問,這樣可以在Hadoop集群上運(yùn)行Pig程序和其他的開發(fā)功能。
  數(shù)據(jù)庫功能
  HPCC 平臺包括在分布式文件系統(tǒng)上構(gòu)建多個鍵、多個域(也就是復(fù)合)索引的功能。這些索引可以用來提高性能,并且提供了Thor系統(tǒng)上批處理任務(wù)的關(guān)鍵字訪問,或者用來支持部署到Roxie系統(tǒng)上的查詢的開發(fā)。ECL語言直接支持?jǐn)?shù)據(jù)的關(guān)鍵字訪問。
  基本的Hadoop的MapReduce不提供任何根據(jù)關(guān)鍵字訪問索引數(shù)據(jù)庫的功能。Hadoop附加的名字為HBase的系統(tǒng)提供了面向列關(guān)鍵字訪問的 數(shù)據(jù)庫功能。定制腳本語言和Java接口也提供了。Pig環(huán)境不直接支持對HBase的訪問,它需要用戶定義的函數(shù)或者各自的MapReduce過程。
  在線查詢和數(shù)據(jù)倉庫功能
  HPCC平臺上的Roxie系統(tǒng)配置特別設(shè)計用來為結(jié)構(gòu)化查詢和數(shù)據(jù)分析應(yīng)用提供數(shù)據(jù)倉庫的功能。Roxie是一個高性能的平臺,它能支持?jǐn)?shù)千用戶,并且提供取決于應(yīng)用的亞秒響應(yīng)時間。
  基本的Hadoop的MapReduce系統(tǒng)不提供任何數(shù)據(jù)倉庫功能。Hadoop的一個附加系統(tǒng)Hive提供數(shù)據(jù)倉庫功能,并且允許裝在HDFS到表 里,然后使用類SQL的語言訪問。Pig環(huán)境不直接支持對Hive的訪問,它需要用戶定義的函數(shù)或者各自的MapReduce過程。
  擴(kuò)展性
  HPCC:一個到幾千個節(jié)點(diǎn)。實(shí)際上,HPCC配置需要非常少的節(jié)點(diǎn)就可以提供Hadoop集群相同的處理性能。不過集群的大小可能取決于分布式文件系統(tǒng)的整體存儲需求。
  Hadoop:一個到數(shù)千個節(jié)點(diǎn)。
  性能
  已經(jīng)證明HPCC平臺在高性能的400個節(jié)點(diǎn)系統(tǒng)上102秒內(nèi)對1TB的數(shù)據(jù)完成排序。在最近一次對運(yùn)行在另外400個節(jié)點(diǎn)系統(tǒng)上的Hadoop進(jìn)行了實(shí) 力相當(dāng)?shù)幕鶞?zhǔn)測試,HPCC性能是6分27秒,而Hadoop的性能是25分鐘28秒,同樣的硬件配置的結(jié)果表明HPCC的基準(zhǔn)測試比Hadoop快3.95倍。
Hadoop:當(dāng)前唯一可用的標(biāo)準(zhǔn)性能基準(zhǔn)測試是由http://sorbenchmark.org所贊助的排序基準(zhǔn)測試。雅虎已經(jīng)證明在1460個節(jié)點(diǎn) 上排序1TB數(shù)據(jù)是62秒,3450個節(jié)點(diǎn)排序100TB的數(shù)據(jù)是173分鐘,3658個節(jié)點(diǎn)排序1PB數(shù)據(jù)是975分鐘。

標(biāo)簽: hadoop
主站蜘蛛池模板: 国产精品亚洲精品一区二区三区 | 国产精品久久久久久日本 | 精品人妻无码区在线视频 | 99视频在线免费播放 | 伊人久久大香线蕉av五月天 | 久久青青草原一区二区 | 黄在线观看免费 | 国产乱码精品一区二区三区av | 亚洲视频在线观看免费 | 高潮喷水在线观看 | 女同younv另类 | 又大又粗又硬又爽又黄毛片 | 欧美精品在线免费 | 饥渴少妇VIDEOS| 农村男女野外做爰毛片 | 国产高清成人久久 | 久久精品片 | 黄色一区二区在线 | 欧美亚洲精品中文字幕 | 91网站在线?看免费 日本午夜在线 | 免费一级毛片 | 久久久无码精品亚洲欧美 | 人妻仑乱a级毛片免费看 | 中文字幕在线视频网 | 妃子涨奶和侍卫h | 欧美性生交大片免费看 | 任你躁在线精品免费 | 夜夜操狠狠操 | 成人免费视频一区 | 91久久偷偷做嫩草影院电导演介绍 | 国产精品亚洲二区在线播放 | 精品久久久久久久久久久院品网 | 性色a∨精品高清在线观看 91n成人 | 亚洲AV无码乱码A片无码 | 国产又粗又猛又爽又黄的视频在线观看动漫 | 黑人巨大精品欧美一区二区区 | 1000部啪啪未满十八勿入免费 | 国产一区二区三区四区在线 | 无码免费一区二区三区 | 国产在线精品国自产拍影院同性 | 天下免费大全正版资料 |