2.4.2 交叉驗證
對兩個學習器A和B,若我們使用尼折交叉驗證法得到的測試錯誤率分別為e,e參….,e參和e#,e字,…,e宇,其中EjA和<3是在相同的第t折訓練/測試集上得到的結果,則可用k折交叉驗證“成對t檢驗”(paired t-tests)來進行比較檢驗.這里的基本思想是若兩個學習器的性能相同,則它們使用相同的訓練/測試集得到的測試錯誤率應相同,即e尹=e尹.具體來說,對k折交叉驗證產(chǎn)生的k對測試錯誤率:先對每對結果求差,Ai=e手- tiB;若兩個學習器性能相同,則差值均值應為零,因此,可根據(jù)差值△1,A2,…,△%來對“學習器A與B性能相同”這個假設做t檢驗,計算出差值的均值p和方差U2,在顯著度a下,若變量小于臨界值ta/2,k-l,則假設不能被拒絕,即認為兩個學習器的性能沒有顯著差別;否則可認為兩個學習器的性能有顯著差別,且平均錯誤率較小的那個學習器性能較優(yōu).這里ta/2,'k-l是自由度為k-l的£分布上尾部累積分布為a/2的臨界值.欲進行有效的假設檢驗,一個重要前提是測試錯誤率均為泛化錯誤率的獨立采樣,然而,通常情況下由于樣本有限,在使用交叉驗證等實驗估計方法時,不同輪次的訓練集會有一定程度的重疊,這就使得測試錯誤率實際上并不獨立,會導致過高估計假設成立的概率.為緩解這一問題,可采用“5×2交叉驗證”。