您現在的位置：首頁 > IT資訊 > 人工智能 > 為什么機器算法公平性難以捉摸

為什么機器算法公平性難以捉摸

2020-09-02 18:41:11　|　來源：中培企業IT培訓網

在現實生活中，我們經常會看到某個平臺利用算法給我們帶來的問題，這些問題是由一系列原因引起的。有些是根本的社會根基;如果您對種族分類有偏見，為此而創建的數據庫，利用機器學習來獲取算法，則會得到有偏見的算法。有些只是統計偽像;如果讓機器學習，通過算法找到最適合整體人群的方式，那么在少數族裔方式上有所不同的情況下，他們的分類或建議必然會較差。

兩者兼而有之：偏向人類會導致偏向算法，這些算法提出的建議會強化不合理的刻板印象。例如，對較貧困社區的更嚴厲治安政策會導致該社區中更多的犯罪報告。更多犯罪報告會觸發治安分析，建議部署更多警察到那些街區，您的反饋循環令人討厭。問題在于，如何使算法公平還不清楚。在這方面，關于算法公平性的討論已成為社會道德的放大鏡子。有關如何定義和衡量公平性的辯論反映了當今進行的更廣泛的道德對話。

最近，我很高興采訪了斯坦福大學計算政策實驗室的執行主任Sharad Goel。我們必須討論他在算法公平性方面的一些應用工作。特別是，我們必須討論關于如何從算法上概念化公平性的辯論的三個方面的弊端。技術人員可以在本文中找到對辯論的更完整處理，但我將嘗試將其歸結為本文。

　　公平的三種概念

某些組標簽應該超出限制。這種思維方式認為，在進行預測時，不應允許算法考慮某些受保護的類別。例如，在這種觀點下，不應使用用于預測貸款資格或累犯的算法來基于種族或性別的預測。這種實現公平的方法是簡單易懂的。但是有兩個主要問題：

1. 區分受保護類別的可接受和不可接受的代理。即使從算法中刪除了此類類別，由這些受保護類別解釋的統計方差也傾向于滑入其他可用變量。例如，雖然種族可能不包括在貸款申請中，但與種族高度相關的郵政編碼可能在模型中具有較高的預測權重并掩蓋了歧視。出于所有目的和目的，郵政編碼成為新的比賽變量。哪些代理是受保護類別的非法替代品，哪些是可接受的，獨特的變量，這具有挑戰性和爭議性。這條模糊線使我們面臨另一個問題，即使某些標簽“超限”。

2. 社會成本很高。受保護的類別通常可以對算法旨在預測的行為產生有意義的影響。例如，眾所周知，男性駕駛員的保險費較高，因為男性駕駛員確實確實占總保險支出的更多。從這些算法中消除性別會導致男性的汽車保險費下降，但會增加女性的保險費率。是否應要求婦女支付高于其風險份額的費用，以便從風險算法中消除性別，仍有待商de。簡而言之，盡管這可能會創造出完全的平等，但似乎卻缺少了按比例公平的標記。有人會認為這種方法實際上是不公平的。

刑事司法環境中的風險更高。從旨在預測累犯的算法中刪除諸如性別或種族之類的受保護類別會降低算法的效率，這意味著將拘留更多具有較低實際風險的人，并讓更多具有較高實際風險的人被釋放。結果將是，一般而言，尤其是在已經遭受更高犯罪的社區中，更多的犯罪發生。要看到這一點，請記住，大多數暴力犯罪發生在彼此認識的人之間。因此，當算法效率被大幅度降低時，已經遭受暴力犯罪困擾的社區可能會經歷其他重新犯罪的暴力犯罪。

大多數人都同意，在沒有明顯正當理由的情況下，基于受保護類別的決定在道德上是應受譴責的。困難的部分是，使用這些受保護的類別似乎可以有效地減少有害的后果。這種權衡導致一些人采取了替代方法來通過算法定義公平性。有沒有辦法使預測準確性最大化，同時仍然是公平的？

在某些小組中，算法性能應同樣出色。與忽略種族和性別之類的受保護類別不同，該公平性方法主張算法性能的指標在受保護類別中應相同。例如，將罪犯分類為再犯風險高或低的算法，應該對白人和黑人罪犯均等地產生預測誤差。這種方法不像色盲方法那樣直觀，但是至少在理論上允許算法更有效地進行預測，并且避免了關于哪個代理的棘手判斷，從而具有額外的優勢。包含在算法中，現在也是不可接受的。

盡管如此，這種方法還是不完善的。要了解原因，了解不同的人群將代表不同的人群非常重要。通常，當我們談論公平時，我們希望所有人，無論其團體成員身份，都遵循相同的標準。但是，如果將相同的臨界值閾值用于不同的人群，則預測能力和錯誤率很有可能在不同群體之間有所不同-這僅僅是統計工作原理的自然結果。如果政府法規強迫企業采用在受保護群體中保持相同性能的算法。

他們通常有兩個選擇：1.通過玩弄代碼來降低其算法的質量和效率，從而使各組的算法性能均等2.公司可以針對不同的人群采用不同的算法閾值，以使不同群體的分界點不同。但是很明顯，這似乎與公平的觀念相違背，并且通常在道德上被皺眉并且被認為是非法的。跨組強制實現算法性能均衡的負面影響不只是理論上的-這些負面影響已被記錄在案，例如，警察在白人和黑人公民中發現違禁品的可能性。

算法分數應該代表不同組成員之間的相同事物。實現算法公平性的第三種方法是，確保算法的分數意味著受保護類別中的事物相等。從表面上看，這種方法似乎正在達到我們想要的目標—看起來很公平。問題在于，在存在故意歧視行為的情況下，它不能保證公平，因此基于公平定義的算法調節仍將為模糊的歧視處理留出空間。至少有兩種方法可以發生這種情況：

1.代理仍然可以用于滿足高于或低于算法的臨界值的人群總數得分。例如，可以將貸款違約風險較高的個人與貸款違約風險較低的個人配對，以便可以將受保護類別的風險評分隨意推高或低于臨界值。這本質上可以歸結為算法重新定義。

2.如上所述，不同的組將具有不同的統計風險曲線。如果在組內離散化量化分數，則實際風險曲線中的這些差異可以掩蓋不同的組截止值，同時保持單板在受保護的類別中，標有“高”風險的個人會以相似的比率再次犯罪，違約和發生車禍。例如，在上圖中，根據組內百分位數為一個人分配“高”，“中”或“低”風險標簽將有效地產生不同的組截止閾值，同時可能保持相同的算法性能每個受保護群體的風險都標記為“高”。

對于B2C公司而言，似乎似乎很少使用這些技術，因為通過這種方式進行歧視通常會蒙受利潤損失，但對于B2B公司而言，仍然存在激勵措施。例如，廣告匹配公司有動力將某些群體推高或低于臨界值，以根據受保護的類別證明廣告定位的合理性。不難想象，政治運動或說客會被這些方法的力量所吸引，從而在戰略子群之間搖擺公眾輿論，同時留下很少的面包屑和混亂的面包屑。

　　挑戰

通過算法定義公平性的每種方法都有其優點和缺點。我認為最麻煩的不是每種方法都面臨的弱點，而是這些方法從根本上彼此不兼容。在使用保護類別作為檢測公平性的基準時，我們不能忽略保護類別。而且，我們不能要求相似的算法錯誤率，而要求相似的風險評分實際上確實會在組之間帶來相似的結果。在算法上定義公平性的競賽仍在進行。但是我的道德心理學背景也讓我停下來。民主黨人，共和黨人和自由黨人無法就公平問題達成共識，我認為將算法公平問題視為數學，計算機科學問題太樂觀了。問題不在于解決一些復雜的統計魔方，還在于它試圖在僅能捕獲陰影的洞穴壁上展現柏拉圖的完美公平形式。很難預測我們將采用哪種解決方案，以及當這些解決方案與監管和經濟激勵措施相互作用時的成本是多少。從本質上講，算法公平是一個社會道德問題。更多關于機器算法的信息，請繼續關注中培偉業。