根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”(supervised learning)和“無監(jiān)督學(xué)習(xí)”(unsupervised learning),分類和回歸是前者的代表,而聚類則是后者的代表.需注意的是,機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”,而不是僅僅在訓(xùn)練樣本上工作得很好;即便對聚類這樣的無監(jiān)督學(xué)習(xí)任務(wù),我們也希望學(xué)得的簇劃分能適用于沒在訓(xùn)練集中出現(xiàn)的樣本.學(xué)得模型適用于新樣本的能力,稱為“泛化”(generalization)能力.具有強(qiáng)泛化能力的模型能很好地適用于整個樣本空間.
于是,盡管訓(xùn)練集通常只是樣本空間的一個很小的采樣,我們?nèi)韵M芎芎玫胤从吵鰳颖究臻g的特性,否則就很難期望在訓(xùn)練集上學(xué)得的模型能在整個樣本空間上都工作得很好,通常假設(shè)樣本空間中全體樣本服從一個未知“分布”(distribution)D,我們獲得的每個樣本都是獨(dú)立地從這個分布上采樣獲得的,即“獨(dú)立同分布”(independent and identicallydistributed,簡稱紙d.).一般而言,訓(xùn)練樣本越多,我們得到的關(guān)于D的信息越多,這樣就越有可能通過學(xué)習(xí)獲得具有強(qiáng)泛化能力的模型.??