3)網絡數據的采集。隨著網絡信息的爆炸式增長,網絡已成為全球最大的、最重要的信息資源共享平臺,在網絡上每時每刻都在動態刷新的頁面中,蘊藏著大量的可用的數據。
未來,數據將被認為是與自然資源、人力資源一樣重要的戰略資源,隱含著巨大的經濟價值。目前,從網絡上采集到的數據多是非結構化和半結構化的數據,如何快速、準確地從中找到并提取商業銀行所需要的信息,是當前最熱門的研究課題之一。
無論是通用搜索引擎,還是主題搜索引擎,“網絡爬蟲”在其中都扮演著重要的角色。
網絡爬蟲是搜索引擎獲取網頁的主要工具,即使在企業內部,也是獲取企業中各類網頁中信息的重要手段。網絡爬蟲的搜索策略是網絡爬蟲的實現關鍵,是其核心技術。另外,還有部分網站會公開API,通過這種方式也可以從網站上獲取數據信息。通過網絡爬蟲或者API方式可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。除了網絡中包含的內容之外,對于網絡流量的采集還可以使用DPI或DFI等帶寬管理技術進行處理。
4)其他數據采集方法。對于銀行生產經營數據或科學研究數據等保密性要求比較高的數據,可以通過與企業或研究機構進行合作,使用特定系統接口等相關方式來采集數據。例如,商業銀行與中國人民銀行征信中心關于個人征信相關數據的采集。