否則標記信息直接形成了簇劃分:但也有例外情況,參見13.6節,亦稱“有導師學習”和“無導師學習”,更確切地說,是“未見示例”(unseen instance).現實任務中樣本空間的規模通常很大(例如20個屬性,每個屬性有10個可能取值,則樣本空間的規模已達1020).(xi,tJi)表示第t個樣例,其中Yi∈y是示例茁t的標記,y是所有標記的集合,亦稱“標記空間”(label space)或“輸出空間”.若我們欲預測的是離散值,例如“好瓜”“壞瓜”,此類學習任務稱為“分類”(classification);若欲預測的是連續值,例如西瓜成熟度0.95、0.37,此類學習任務稱為“回歸”(.regression).對只涉及兩個類別的“二分類”(binary classificatiori)任務,通常稱其中一個類為“正類”(positive class),另一個類為“反類”(negative class);涉及多個類別時,則稱為“多分類”(multi-class classification)任務,一般地,預測任務是希望通過對訓練集{(Xl,可1),(x2,Y2),…,(Xm,ym))進行學習,建立一個從輸入空間石到輸出空間y的映射,:X卜÷y.對二分類任務,通常令y={-1,+1)或{o,1};對多分類任務,lyl>2;對回歸任務,y=R,I為實數集.學得模型后,使用其進行預測的過程稱為“測試”(testing),被預測的樣本稱為“測試樣本”(testing sample).例如在學得,后,對測試例∞,可得到其預測標記可=,@)我們還可以對西瓜做“聚類”(clustering),即將訓練集中的西瓜分成若干組,每組稱為一個“簇”(cluster);這些自動形成的簇可能對應一些潛在的概念劃分,例如“淺色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”.這樣的學習過程有助于我們了解數據內在的規律,能為更深入地分析數據建立基礎,需說明的是,在聚類學習中,“淺色瓜”“本地瓜”這樣的概念我們事先是不知道的,而且學習過程中使用的訓練樣本通常不擁有標記信息。