12.2.2 非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)
隨著互聯(lián)網(wǎng)的逐步發(fā)展,數(shù)據(jù)每天都在以驚人的速度增長(zhǎng),信息的種類也在不斷地?cái)U(kuò)展。IBM公司的研究部門調(diào)查發(fā)現(xiàn),全球大多數(shù)的信息是非結(jié)構(gòu)化的,包括紙上的文件、報(bào)告、視頻文件、音頻文件、照片、傳真件、信件等。由于內(nèi)容的表現(xiàn)形式存在多樣性,人們?cè)趯?duì)其進(jìn)行管理和利用方面耗費(fèi)了大量時(shí)間,所以迫切需要有效地將非結(jié)構(gòu)化數(shù)據(jù)管理起來(lái)。
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)以銀行結(jié)構(gòu)化數(shù)據(jù)為主,進(jìn)行異構(gòu)數(shù)據(jù)的整合、加工,進(jìn)而提供服務(wù)。在大數(shù)據(jù)時(shí)代下,新興的數(shù)據(jù)類型不斷涌現(xiàn),更多地呈現(xiàn)出一種非結(jié)構(gòu)化的狀態(tài),傳統(tǒng)關(guān)系型的數(shù)據(jù)倉(cāng)庫(kù)難以滿足此類數(shù)據(jù)的存儲(chǔ)及分析需求,因此涌現(xiàn)出了Hadoop、Spark等新型分布式數(shù)據(jù)庫(kù),相應(yīng)地,單純的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)體系架構(gòu)也逐漸向大數(shù)據(jù)服務(wù)體系架構(gòu)演變。各銀行紛紛啟動(dòng)面向海量非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)加工處理與分析系統(tǒng)的建設(shè),并注重傳統(tǒng)銀行數(shù)據(jù)與新興互聯(lián)網(wǎng)金融數(shù)據(jù)的綜合運(yùn)用。
銀行經(jīng)營(yíng)過(guò)程中產(chǎn)生和使用的數(shù)據(jù)主要分布于數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)集成系統(tǒng)、分析型系統(tǒng)三類系統(tǒng)中。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展、商業(yè)銀行的業(yè)務(wù)發(fā)展以及客戶接觸渠道的多樣化,銀行的數(shù)據(jù)種類和數(shù)據(jù)量劇增,銀行存儲(chǔ)的客戶數(shù)據(jù)、交易數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),以及電話語(yǔ)音、微博、即時(shí)通信等非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)都在飛速膨脹,尤其后者的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)大于前者。在強(qiáng)調(diào)數(shù)據(jù)即是價(jià)值的今天,任何一份數(shù)據(jù)都是銀行珍貴的資產(chǎn)。為了一點(diǎn)金子,需要保存全部沙子,又如何從沙子里找出這一點(diǎn)金子?這些都是擺在商業(yè)銀行前面的問(wèn)題。大數(shù)據(jù)加工處理技術(shù)則很好地解決了這些問(wèn)題。