隨著云時代的來臨,大數據 (BigData) 吸引了越來越多的關注,數據已成為一種資源,企業內部的經營交易信息、互聯網世界中的商品物流信息、人人交互信息、位置信息、物聯網、車聯網等產生的信息無時無刻不在產生著大量數據,其數量將遠遠超越現有企業 IT 架構的承載能力。中培偉業IT常青樹有關專家將在這里將重點分析傳統企業級分析系統向大數據分析系統演進的必然性。
傳統架構的約束與困局
數據尤其是大數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來,大數據的累積效應正給整個IT業帶來變革。特別是云概念和大數據技術的深入發展,日均GB、TB級的數據量對企業級大數據壓力與日俱增,而IDC的大規模建設更是加劇了這一趨勢。
目前,傳統的小型機+傳統盤陣+關系型數據庫的IOE架構存在著一定的弊端,無法適應當前企業級大數據平臺的需求,具體表現在:
數據源匱乏:數據主要來源于業務支撐域各系統、支撐服務對象較少,數據質量不高,無法滿足對企業管理、市場營銷支持、網絡生產管理等全面支撐;
維護費用偏高:不能滿足大數據時代低成本要求、傳統的小型機盤陣架構所占用的機房空間、耗電量、散熱量及每年高額的維保費用偏高,與綠色節能減排的宗旨相違背;
架構層面不夠靈活:擴展性不足,設備性能的提升依賴于設備硬件的擴展及軟件的升級,小型機的單機擴展能力有限,當應用資源需求超越小型機的極限時,小型機就變得無能為力。同時小型機價格比較昂貴,性價比差,多套主機共享一套存儲的集中處理模式對于系統的運行、I/O口讀寫速率都造成極大的負荷;
數據庫瓶頸:目前Gb和Gn等接口的部分信令數據,經過爬蟲系統提取的互聯網URL等數據存在著大量非結構化數據,而目前存在的數據庫多為Oracle和DB2類的關系型數據庫,非關系型數據庫技術并未被得到深化應用。
應用層缺乏實時性:目前上層應用多為離線處理或準實時性,影響用戶感知,支撐服務對象較少。
由此可見,現有的企業級分析系統的發展并不能與未來企業信息化發展的腳步同步;而分析系統的數據特點決定其與大數據技術的結合的必要性。因此,逐步完善企業級分析系統,構建數據融合的大數據平臺是今后企業大數據平臺的發展趨勢之一。
基于大數據企業級分析系統演進的必然性
基于大數據企業級分析系統是在現有的企業IT架構基礎上進行補充完善,滿足系統建設的平滑過渡;包括架構調整,數據源的擴充、整合、統一及平臺的對外開放等。傳統分析系統與基于大數據的分析系統的差異性如表一所示。
表一、分析系統比較
圖一是典型的基于大數據的企業級分析系統架構,包括數據源、采集層、數據層、能力層和應用層。
圖一、基于大數據的企業分析系統架構
對現有傳統的IT架構演進過程如圖二所示,主要包括如下步驟:
擴充數據源,沉淀企業數據資產:逐步打通B、M、O三域壁壘,構建IT共享資源池,具體可采用大二層技術來擴展二層網絡,逐步將三域納入同一個大二層范圍內,一方面有利于擴大分析系統數據源,另一方面更有利于同一個大二層下的云化實施,此外為用戶曾將基礎屬性數據,實現企業大數據平臺多維全量的用戶數據,包括:基礎屬性、位置信息、用戶喜好標簽,更便于實時精準營銷,提高用戶粘性,延長用戶生命周期。
采用云ETL替代傳統ETL,構建企業級的采集平臺。ETL指針對數據源進行提取(Extract)、轉置(Transform)、加載(Load)。在分析系統中原有ETL智能實現對業務單域數據的采集處理、為實現對全域數據的采集,構建企業級云ETL采集層。
圖二、分析系統演進過程
加大X86系統占比,逐步實現由小型機向X86服務器的遷移。根據分析系統定義的不同重要級別,例如可按照等級由高到低的順序對數據庫、采集、重要應用、一般應用等來逐步實施。并且,由于數據庫體量龐大,對設備要求較高且目前業界并無針對數據庫X86化的專有成熟技術,需謹慎考慮數據庫的X86 化。目前階段建議采用混搭、多架構并存的模式:對于不同的數據類型部署不同架構,除傳統基礎數據倉庫外,搭建適配各類數據庫的專有數據倉庫。針對關系型數據庫盡量部署MPP腳骨,以優化架構,針對非結構化數據庫實施Hadoop技術。對于關系型事務處理類數據,為保持系統的平滑過渡,可維持原有關系型數據庫,保持原有架構;互聯網信令類數據,由于隨機性加大,關聯性小,可采用非結構化數據庫技術(如Hadoop);分析挖掘類數據,如非實時性的歷史數據庫,需充分進行數據挖掘,關聯匯總,需調整原有架構,可部署MPP架構。
大數據時代已經到來,正促進著信息技術與各行業的深度融合;針對企業級數據分析系統的局限性和短板,提出應對的解決措施和今后建設思路。基于大數據技術的企業級分析系統的建設涉及范圍廣、影響意義深遠,并非短期可以實現。結合企業IT現狀,合理規劃、逐步演進。建企業級大數據分析系統,利用和深挖傳統IT系統把握機遇,迎接挑戰,釋放出數據的巨大能量是發展的重中之重,也無疑是大數據時代的發展任務之一。