對于工業(yè)智能建模,人們經(jīng)常會有一些誤解:建模過程是逐漸自動化的,難度越來越小,并且不需要太多的工作。但是,在實(shí)際構(gòu)建數(shù)據(jù)驅(qū)動的工業(yè)智能模型時,我們獲得的數(shù)據(jù)經(jīng)常存在許多問題。一般來說,在建模之前需要對數(shù)據(jù)進(jìn)行預(yù)處理,并將其分類為適合構(gòu)建機(jī)器學(xué)習(xí)模型的可靠數(shù)據(jù)。通常沒有用于數(shù)據(jù)預(yù)處理的標(biāo)準(zhǔn)過程,并且對于不同的任務(wù)和數(shù)據(jù)集屬性,它也有所不同。那么大數(shù)據(jù)預(yù)處理技術(shù)是什么?大數(shù)據(jù)預(yù)處理技術(shù)包含什么?
大數(shù)據(jù)預(yù)處理技術(shù)是什么?
大數(shù)據(jù)預(yù)處理技術(shù)主要是指完成對已接收數(shù)據(jù)的辨析、抽取、清洗、填補(bǔ)、平滑、合并、規(guī)格化及檢查一致性等操作。
因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取的主要目的是將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的結(jié)構(gòu),以達(dá)到快速分析處理的目的。
大數(shù)據(jù)預(yù)處理技術(shù)包含什么?
通常數(shù)據(jù)預(yù)處理包含 3 個部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換及數(shù)據(jù)規(guī)約。
1.數(shù)據(jù)清理
數(shù)據(jù)清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數(shù)據(jù)處理(數(shù)據(jù)中存在錯誤或偏離期望值的數(shù)據(jù))和不一致數(shù)據(jù)處理。
· 遺漏數(shù)據(jù)可用全局常量、屬性均值、可能值填充或者直接忽略該數(shù)據(jù)等方法處理。
· 噪音數(shù)據(jù)可用分箱(對原始數(shù)據(jù)進(jìn)行分組,然后對每一組內(nèi)的數(shù)據(jù)進(jìn)行平滑處理)、聚類、計(jì)算機(jī)人工檢查和回歸等方法去除噪音。
· 對于不一致數(shù)據(jù)則可進(jìn)行手動更正。
2.數(shù)據(jù)集成
數(shù)據(jù)集成是指把多個數(shù)據(jù)源中的數(shù)據(jù)整合并存儲到一個一致的數(shù)據(jù)庫中。
這一過程中需要著重解決 3 個問題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測與處理。
由于來自多個數(shù)據(jù)集合的數(shù)據(jù)在命名上存在差異,因此等價(jià)的實(shí)體常具有不同的名稱。對來自多個實(shí)體的不同數(shù)據(jù)進(jìn)行匹配是處理數(shù)據(jù)集成的首要問題。
數(shù)據(jù)冗余可能來源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩來衡量數(shù)值屬性,對于離散數(shù)據(jù)可以利用卡方檢驗(yàn)來檢測兩個屬性之間的關(guān)聯(lián)。
數(shù)據(jù)值沖突問題主要表現(xiàn)為,來源不同的統(tǒng)一實(shí)體具有不同的數(shù)據(jù)值。數(shù)據(jù)變換的主要過程有平滑、聚集、數(shù)據(jù)泛化、規(guī)范化及屬性構(gòu)造等。
數(shù)據(jù)規(guī)約主要包括數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約和概念分層等。
使用數(shù)據(jù)規(guī)約技術(shù)可以實(shí)現(xiàn)數(shù)據(jù)集的規(guī)約表示,使得數(shù)據(jù)集變小的同時仍然近于保持原數(shù)據(jù)的完整性。
在規(guī)約后的數(shù)據(jù)集上進(jìn)行挖掘,依然能夠得到與使用原數(shù)據(jù)集時近乎相同的分析結(jié)果。
上述就是關(guān)于大數(shù)據(jù)預(yù)處理技術(shù)是什么,以及大數(shù)據(jù)預(yù)處理技術(shù)包含什么的全部內(nèi)容介紹,想了解更多關(guān)于大數(shù)據(jù)預(yù)處理技術(shù)的信息,請繼續(xù)關(guān)注中培偉業(yè)。