大數據的誕生,引爆了這個時代一場深刻的互聯網革命,其對傳統的互聯網的格局帶來的影響也將是顛覆性的。中培偉業《大數據分析及可視化技術應用實戰》專家鐘老師指出,大數據之所以能夠產生如此深遠的影響,其中的一個重要原因就是它與傳統數據在價值上存在著明顯的差異。
大數據包括交易數據和交互數據集在內的所有數據集,具體由海量交易數據、海量交互數據和海量處理數據三種主要技術匯聚組成。
海量交易數據指企業內部的經營交易信息數據,主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什么。
海量交互數據來自社交平臺和門戶網站及其他來源的社交媒體數據。它包括呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸Manage File Transfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等。這些數據可以告訴我們未來會發生什么。
海量數據處理是一種應對復雜、海量數據的能力,大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的Apache Hadoop,難題在于以具備成本效益的方式快速可靠地從Hadoop中存取數據。
有人說,大數據是對傳統數據的終結和替代。這種觀點并不被學者們普遍接受。但大數據的價值和處理方式的確與傳統數據有很大程度的不同。
在宗旨上,傳統數據處理遵循的是固化業務優于高效,高效優于發現業務。整體上講這是一種求穩策略。而大數據處理卻將傳統方法的順序整體顛倒過來,首先是發現業務,其次是高效,最后是固化業務。
在數據特點上,傳統數據面對的一般是企業內部數據,數據量一般不會超過10億量級。大數據處理的卻是多樣化的數據,從數據來源上有內部和外部,數據結構上有結構化和非結構化,數據量可處理xPB級。
在技術手段上,傳統數據處理方法使用商務智能的開源RDBMS,昂貴的分析挖掘工具,甚至是商用集群。大數據處理方法則更多的是使用開源技術,更注重數據本身,使用多種技術解決業務問題。
在場景上,傳統數據主要處理實時、事務性、在線業務,而大數據則會處理大量的批量數據和少量的在線實時型數據??偠灾?,傳統數據是以業務為中心,大數據則是以數據為中心,數據為業務服務。