7.3 非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理
非結(jié)構(gòu)化數(shù)據(jù)由于格式和內(nèi)容的多樣性,一般不會(huì)直接用于分析,即單個(gè)非結(jié)構(gòu)化數(shù)據(jù)難以產(chǎn)生價(jià)值。只有將非結(jié)構(gòu)化數(shù)據(jù)的相關(guān)元數(shù)據(jù)(或標(biāo)簽)、主要內(nèi)容抽取出來(lái),并以類似結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)后,才能發(fā)揮價(jià)值。因此,非結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量管理主要在于提升數(shù)據(jù)可用度,一般通過(guò)對(duì)數(shù)據(jù)的清洗、映射、關(guān)聯(lián)等機(jī)制,把繁雜的大數(shù)據(jù)變成能應(yīng)對(duì)的、有效的“小數(shù)據(jù)”,構(gòu)建干凈、完備的數(shù)據(jù)集,從而提高數(shù)據(jù)質(zhì)量。
1)通過(guò)清洗規(guī)則庫(kù)識(shí)別并標(biāo)識(shí)出非結(jié)構(gòu)數(shù)據(jù)的可疑或無(wú)效信息,必要時(shí)可結(jié)合數(shù)據(jù)生命周期管理策略及時(shí)清理。
2)通過(guò)與相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行映射,將非結(jié)構(gòu)化數(shù)據(jù)的“基本屬性”轉(zhuǎn)換為商業(yè)銀行的標(biāo)準(zhǔn)信息進(jìn)行存儲(chǔ)(如將“建行” “建設(shè)銀行” “中國(guó)建設(shè)銀行”等轉(zhuǎn)換成標(biāo)準(zhǔn)代碼JGOO01),并作為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在系統(tǒng)中。
3)通過(guò)關(guān)鍵信息與商業(yè)銀行其他結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián)(如通過(guò)客戶姓名、手機(jī)號(hào)等辨識(shí)其是否為本行客戶),提高非結(jié)構(gòu)化數(shù)據(jù)入庫(kù)質(zhì)量和數(shù)據(jù)價(jià)值。