2.2 評估方法
通常,我們可通過實驗測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選在現(xiàn)實任務(wù)中往往會選擇.為此,需使用一個“測試集”(testing set)來測試學(xué)習(xí)器對新樣本的判別能考慮時間開銷、存儲爿銷、可解釋性等方面的因素,然后以測試集上的“測試誤差”(testing error)作為泛化誤差的近似,通常素.這里暫且只考慮泛化我們假設(shè)測試樣本也是從樣本真實分布中獨立同分布采樣而得.但需注意的誤差,是,測試集應(yīng)該盡可能與訓(xùn)練集互斥,即測試樣本盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過.測試樣本為什么要盡可能不出現(xiàn)在訓(xùn)練集中呢?為理解這一點,不妨考慮這樣一個場景:老師出了10道習(xí)題供同學(xué)們練習(xí),考試時老師又用同樣的這10道題作為試題,這個考試成績能否有效反映出同學(xué)們學(xué)得好不好呢?答案是否定的,可能有的同學(xué)只會做這10道題卻能得高分.回到我們的問題上來,我們希望得到泛化性能強的模型,好比是希望同學(xué)們對課程學(xué)得很好、獲得了對所學(xué)知識“舉一反三”的能力;