2)以FTP等上傳方式保存到文件服務器中。
以這種方式保存非結構化數據的應用較少,比較典型的有數字檔案館、知識管理和網站等應用系統。
3)通過文件系統直接存儲到文件服務器中。
對于大多數沒有應用系統的非結構化數據,如常用的工具軟件,開發的應用系統軟件、源代碼、開發過程文檔、技術研究資料等,以及新聞的素材、資料等,通常都將文件直接存儲到文件服務器中。
面對各業務系統各自為戰的存儲系統,許多企業發現這種方式存在諸多的弊端,目前都正在評估和選擇運用新的技術以提高這些信息資源的利用價值。較為常用的是分布式存儲與并行處理架構。
數據的分布式存儲和并行化操作處理是大數據管理平臺的核心技術之一。MapReduce計算模型體現了分治算法的分而治之思想。Map把一個復雜的問題分解成多個子問題,每個子問題都相對簡單并且可以獨立處理;Reduce把各個子問題的處理結果進行合并。
MapReduce是適用于大數據存儲與并行化處理的簡單而有效的一種計算模型?;贛a-pReduce模型可以構建一種非結構化數據分布式存儲與并行處理框架,該框架由存儲引擎和檢索引擎組成。