國際數據管理協會(DAMA)給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合。
數據治理的最終目標是提升數據的價值,涉及到數據的整個生命周期管理、數據標準規范、數據質量管理、數據安全性和合規性管理等多個方面。
數據治理主要有以下5點:
1、理清數據資源
首先要明確企業內部的各類數據資源,包括結構化數據和非結構化數據等,以及這些數據的來源、質量和使用情況。這個步驟可以通過對業務部門的需求調研、對現有系統的了解和分析、以及對數據質量進行評估來完成。
2、制定治理規范
針對確認過的數據資源,需要制定相應的治理規范,包括數據清洗和整合的規則、數據格式和類型的定義、數據存儲和備份的方式等。需要考慮數據的完整性、準確性、一致性、可讀性和可維護性等方面的要求,同時還需要考慮數據的安全性和可靠性等方面的要求。
3、數據清洗整合
根據治理規范,對原始數據進行清洗和整合,包括去除重復和錯誤的數據、補充缺失的數據、將不同來源的數據進行合并和關聯等。數據清洗和整合可以提高數據的質量和可用性,同時還可以減少數據的冗余和重復。
4、數據資源存儲
將清洗和整合后的數據按照規定的格式和流程錄入到數據庫或數據倉庫中,同時進行數據的質量檢查和完整性驗證。并需要考慮數據的準確性、完整性和一致性等方面的要求,同時還需要考慮數據的可擴展性和可維護性等方面的要求。
5、數據維護監控
在數據存儲后,需要進行數據的維護和監控,包括定期的數據備份和恢復、數據質量的監控和管理等,以確保數據的安全性和可靠性。同時還需要對數據進行分類、分主題地進行整合,形成主題化的數據表,方便后續的數據分析和應用。