一般地,令D= {xi,X2,…,Xm].表示包含m個示例的數據集,每個示例由d個屬性描述(例如上面的西瓜數據使用了3個屬性),則每個示例X=(Xil;zi2;…;Xid)是d維樣本空間疋中的一個向量,xi∈疋,其中Xij是xi在第歹個屬性上的取值(例如上述第3個西瓜在第2個屬性上的值是“硬挺”),d稱為樣本xi的“維數”(dimensionality).
從數據中學得模型的過程稱為“學習”(learning)或“訓練”(training),這個過程通過執行某個學習算法來完成.訓練過程中使用的數據稱為“訓練數據”(training data),其中每個樣本稱為一個“訓練樣本”(training sample),訓練樣本組成的集合稱為“訓練集”(training set).學得模型對應了關于數據的某種潛在的規律,因此亦稱“假設”(hypothesis);這種潛在規律自身,則稱為“真相”或“真實”(ground-truth),學習過程就是為了找出或逼近真相.本書有時將模型稱為“學習器”(learner),可看作學習算法在給定數據和參數空間上的實例化.如果希望學得一個能幫助我們判斷沒剖開的是不是“好瓜”的模型,僅有前面的示例數據顯然是不夠的,要建立這樣的關于“預測”(prediction)的模型,我們需獲得訓練樣本的“結果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)”.這里關于示例結果的信息,例如“好瓜”,稱為“標記”(label);擁有了標記信息的示例,則稱為“樣例”(example). -般地,用1.2基本術語若將標記看作對象本身的一部分,則“樣例”有時也稱為“樣本”.亦稱“負類”亦稱“測試示例”
(testing instance)或“測試例”