2.大數(shù)據(jù)的特征
國際數(shù)據(jù)公司( IDC)從大數(shù)據(jù)的四大特征來對大數(shù)據(jù)進(jìn)行定義,即海量的數(shù)據(jù)規(guī)模( Volume),快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)以及巨大的數(shù)據(jù)價值( Value)。業(yè)界將這四大特征歸納為4個“V”:
1)海量的數(shù)據(jù)規(guī)模( Volume):近些年全球的數(shù)據(jù)量急劇增加,社交網(wǎng)絡(luò)、電子商務(wù)等將人們帶人了一個以PB為單位的新時代。
2)快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity):這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。信息通常具有時效性,所以必須從各種類型的數(shù)據(jù)中快速獲取信息,才能最大化地挖掘利用信息價值。
3)多樣的數(shù)據(jù)類型(Variety):相比較以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括日志、音頻、視頻、點擊流量、圖片、地理位置等,此外,還有一些半結(jié)構(gòu)化數(shù)據(jù),如電子郵件、辦公處理文檔等。
4)巨大的數(shù)據(jù)價值(Value):從大量的數(shù)據(jù)中挖掘發(fā)現(xiàn)具有高價值的信息,例如天氣預(yù)測等。這一特征也體現(xiàn)了大數(shù)據(jù)獲取數(shù)據(jù)價值的本質(zhì)。
此外,在傳統(tǒng)4V特征的基礎(chǔ)上提出了大數(shù)據(jù)體系架構(gòu)的5V特征。相比較4、,特征,其增加了真實性(Veracity)特征,真實性特性包括了可信性、真?zhèn)涡浴碓春托抛u(yù)、有效性和可審計性等子特性。