回顧前面介紹的一些性能度量可看出,它們大都隱式地假設了均等代價,例如式(2.4)所定義的錯誤率是直接計算“錯誤次數”,并沒有考慮不同錯誤會造成不同的后果.在非均等代價下,我們所希望的不再是簡單地最小化錯誤次數,而是希望最小化,總體代價”(total cost).若將表2.2中的第0類作為正類、第1類作為反類,令D+與D-分別代表樣例集D的正例子集和反例子集,則“代價敏感”(cost-sensitive)錯誤率為 類似的,可給出基于分布定義的代價敏感錯誤率,以及其他一些性能度量如精度的代價敏感版本.若令costij中的t、J取值不限于0、1,則可定義出多分類任務的代價敏感性能度量,在非均等代價下,ROC曲線不能直接反映出學習器的期望總體代價,而“代價曲線”(cost curve)則可達到該目的,代價曲線圖的橫軸是取值為[0,1]的正例概率代價,其中FPR是式f2.19)定義的假正例率,FNR=1- TPR是假反例率.代價曲線的繪制很簡單:ROC曲線上每一點對應了代價平面上的一條線段,設ROC曲線上點的坐標為(FPR,TPR),則可相應計算出FNR,然后在代價平面上繪制一條從(0,FPR)到(1,FNR)的線段,線段下的面積即表示了該條件下的期望總體代價;
想了解更多IT資訊,請訪問中培偉業官網:中培偉業