說(shuō)起大數(shù)據(jù),很多人模棱兩可,對(duì)于大數(shù)據(jù)的核心技術(shù)不清楚,其實(shí),從大數(shù)據(jù)的生命周期來(lái)看,大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析4部分共同組成了大數(shù)據(jù)生命周期里最核心的技術(shù),簡(jiǎn)單地說(shuō),就是如何拿數(shù)據(jù),算數(shù)據(jù),賣數(shù)據(jù)。
1、大數(shù)據(jù)采集
數(shù)據(jù)庫(kù)采集:流行的有Sqoop和ETL,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle 也依然充當(dāng)著許多企業(yè)的數(shù)據(jù)存儲(chǔ)方式。當(dāng)然了,目前對(duì)于開源的Kettle和Talend本身,也集成了大數(shù)據(jù)集成內(nèi)容,可實(shí)現(xiàn)hdfs,hbase和主流Nosq數(shù)據(jù)庫(kù)之間的數(shù)據(jù)同步和集成。
網(wǎng)絡(luò)數(shù)據(jù)采集:一種借助網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API,從網(wǎng)頁(yè)獲取非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其統(tǒng)一結(jié)構(gòu)化為本地?cái)?shù)據(jù)的數(shù)據(jù)采集方式。
文件采集:包括實(shí)時(shí)文件采集和處理技術(shù)flume、基于ELK的日志采集和增量采集等等。
2、大數(shù)據(jù)預(yù)處理
數(shù)據(jù)清理:指利用ETL等清洗工具,對(duì)有遺漏數(shù)據(jù)(缺少感興趣的屬性)、噪音數(shù)據(jù)(數(shù)據(jù)中存在著錯(cuò)誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)進(jìn)行處理。
數(shù)據(jù)集成:是指將不同數(shù)據(jù)源中的數(shù)據(jù),合并存放到統(tǒng)一數(shù)據(jù)庫(kù)的,存儲(chǔ)方法,著重解決三個(gè)問(wèn)題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理。
數(shù)據(jù)轉(zhuǎn)換:是指對(duì)所抽取出來(lái)的數(shù)據(jù)中存在的不一致,進(jìn)行處理的過(guò)程。它同時(shí)包含了~數(shù)據(jù)清洗的工作,即根據(jù)業(yè)務(wù)規(guī)則對(duì)異常數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果準(zhǔn)確性
數(shù)據(jù)規(guī)約:是指在最大限度保持?jǐn)?shù)據(jù)原貌的基礎(chǔ)上,最大限度精簡(jiǎn)數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作,包括:數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約、概念分層等。
3、大數(shù)據(jù)存儲(chǔ)
(1)基于MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群
(2)基于Hadoop的技術(shù)擴(kuò)展和封裝
(3)大數(shù)據(jù)一體機(jī)
4、大數(shù)據(jù)分析挖掘
從可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析、語(yǔ)義引擎、數(shù)據(jù)質(zhì)量管理等方面,對(duì)雜亂無(wú)章的數(shù)據(jù),進(jìn)行萃取、提煉和分析的過(guò)程。
關(guān)注中培偉業(yè),了解更多相關(guān)信息。