通過數(shù)據(jù)分析找到其中的規(guī)律,來指導(dǎo)業(yè)務(wù),數(shù)據(jù)挖掘的核心是挖掘數(shù)據(jù)的商業(yè)價值。下面我們來看看數(shù)據(jù)挖掘的十大經(jīng)典算法及主要特點。
1、C4.5
分類決策樹算法,選擇一個好的特征以及分裂點作為當(dāng)前節(jié)點的分類條件。
2、Naive Bayes
統(tǒng)計分類算法,利用概率統(tǒng)計知識進行分類的統(tǒng)計學(xué)分類方法
3、SVM
有監(jiān)督的分類算法,機器學(xué)習(xí)領(lǐng)域中最常用,廣泛應(yīng)用于分類和回歸問題
4、KNN
K最近鄰分類算法,如果樣本的K個最相似鄰居屬于某類別,則該樣本也屬于這個類別
5、Adaboost
迭代算法,針對某一訓(xùn)練集訓(xùn)練不同的弱分類器,再把這些弱分類器集合構(gòu)成一個強分類器
6、CART
分類與回歸樹算法,先生成決策樹,然后進行剪枝
7、K-Means
聚類算法,生成指定K個類,把每個對象分配給距離最近的聚類中心
8、EM
最大期望算法,在概率模型中尋找參數(shù)最大似然估計的算法
9、Apriori
挖掘潛在關(guān)聯(lián)關(guān)系的算法,采用了逐層搜索的迭代的方法
10、PageRank
網(wǎng)頁排名算法,根據(jù)網(wǎng)站的內(nèi)外部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價值