在當今的大數據時代,不僅IT(互聯網)行業的人們需要了解與大數據相關的知識,傳統行業的從業人員和普通大學生還應該了解大數據的知識,這些知識是由工業驅動的下,互聯網和新的基礎設施的計劃。未來,大數據技術將得到全面應用,大數據還將重塑整個產業結構。那說了這么多大數據,到底什么是大數據呢?通俗的說,大數據即為海量數據。
什么是大數據?
了解大數據首先要從大數據的概念開始,不同于人工智能概念,大數據概念還是相對比較明確的,而且大數據的技術體系也已經趨于成熟了。解釋大數據概念,可以從數據自身的特點入手,然后進一步從場景、應用和行業來逐漸展開。
大數據自身的特點往往集中在五個方面,分別是數據量、數據結構多樣性、數據價值密度、數據增長速度和可信度,對于這五個維度的理解和認知,是了解大數據概念的關鍵。當然,隨著大數據技術的發展和在行業領域的應用,關于數據自身的維度也有了一定程度的擴展,這些擴展本身也是對大數據概念的一種豐富和完善。
數據量大是大數據的一個重要特征,但是數據量本身是一個匯集的概念,并不是只有很大的數據才稱為大數據,傳統信息系統所產生的“小數據”也是大數據的一個重要組成部分,這一點一定要有清晰的認知。當前從大數據的數據來源來看,主要集中在三個渠道,包括互聯網、物聯網和傳統信息系統,物聯網數據當前占據的比例比較大,相信在5G時代,物聯網將依然是大數據的主要數據來源。
數據結構多樣性是大數據的另一個重要特點,不同于創新信息系統(ERP)當中的數據,大數據的數據類型是非常復雜的,既有結構化數據,也有非結構化數據和半結構化數據,這對于傳統的數據處理技術提出了巨大的挑戰,這也是推動大數據技術產生的一個重要原因。在工業互聯網時代,大數據的數據結構多樣性會進一步得到體現,這對于數據價值化過程也提出了新的挑戰。
數據價值密度往往是衡量數據價值的重要基礎,相對于傳統的信息系統來說,大數據當中的數據價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數據的價值化提取過程,而這也正是當前大數據平臺所關注的核心能力之一。實際上,早期的Hadoop、Spark平臺之所以能夠脫穎而出,一個重要的原因就是其數據處理(排序)速度比較快。
數據增長速度快是大數據的另一個重要表現,通常傳統信息系統的數據增量是可以預測的,或者說增長速度是可控的,但是在大數據時代,數據增長速度已經大大突破了傳統數據處理所能承載的極限。數據增長是一個相對的概念,相對于消費互聯網來說,產業互聯網所帶來的數據增量可能會更加客觀,因此產業互聯網時代會進一步打開大數據的價值空間。
最后,大數據還有一個特點就是數據本身的真實性,大數據時代所帶來的一個重要副作用就是數據真假難辨,這也是當前大數據技術所要重點解決的問題之一。從當前大型互聯網平臺所采用的方法來看,通常是技術和管理相結合的方式,比如通過為用戶認證就能夠解決一部分數據的真實性(專業性)問題。
什么是大數據通過上述介紹,相信大家已經清楚了吧,想了解更多關于大數據的信息,請繼續關注中培偉業。