2.4.4 Friedman檢驗與Nemenyi后續檢驗
交叉驗證t檢驗和McNemar檢驗都是在一個數據集上比較兩個算法的性能,而在很多時候,我們會在一組數據集上對多個算法進行比較.當有多個算法參與比較時,一種做法是在每個數據集上分別列出兩兩比較的結果,而在兩兩比較時可使用前述方法;另一種方法更為直接,即使用基于算法排序的Fiedman檢驗,假定我們用D1, D2, D3和D4四個數據集對算法A、B、C進行比較,首先,使用留出法或交叉驗證法得到每個算法在每個數據集上的測試結果,然后在每個數據集上根據測試性能由好到壞排序,并賦予序值1,2,…;若算法的測試性能相同,則平分序值.例如,在Di和D3上,A最好、B其次、C最差,而在D2上,A最好、B與C性能相同,……,則可列出表2.5,其中最后一行通過對每一列的序值求平均,得到平均序值.