隨著最近AI崩潰的消息成為新聞,AI模型缺乏透明度和偏見日益增加的問題已經暴露出來。在最近的例子中,人工智能系統指出高污染的空氣可以安全呼吸,而實際上,這是非常危險的,或者人工智能系統指出某名患者沒有癌癥,而實際上該患者確實患有癌癥。癌癥和死亡,或者AI系統將某筆交易認定為欺詐,而這是完全合法的交易,給客戶造成不必要的麻煩,這顯然是有問題的。那么如何構建可以信賴的機器學習算法?
隨著AI的廣泛使用,這些崩潰每天都在增加,這完全是由于我們對這些AI系統的盲目信任所致,但是現在該采取行動了。
在實現和信任這些AI系統時,當前的業務前景仍然非常懷疑。許多公司已經啟動了該過程,但尚未實現其價值。這主要是由于數據科學團隊與業務利益相關者之間的理解差距。
在過去的幾個月中,我們與許多業務利益相關者進行了交談,這些利益相關者正處于這些預測的接受端,并發現數據科學家無法解釋AI系統預測的原因和背后的原因,以及為什么AI系統預測是對預測的不信任和懷疑的最大因素數據科學計劃。
數據科學團隊中的人員技術含量高,并且對復雜性有所了解,以表明其技能水平。但是,業務利益相關者則完全相反:他們不在乎所使用的技術,而是在乎模型產生的結果如何與他們的業務目標和KPI相聯系。
除非數據科學家能夠回答以下重要問題,否則這是不可能實現的:
1.為什么我應該相信模型生成的結果?
2.該模型用于產生結果的基本原理是什么?
3.在生產中使用模型的好處和缺點是什么?
4.結果是否符合業務邏輯?
僅在回答了這些問題之后,數據科學家才能向業務用戶提出建議,并有望取得進展。
為了解決這個問題,數據科學家有兩種選擇:
1.通過在黑盒模型的頂部構建一個可解釋的模型來對其進行解釋。這是LIME&SHAP背后的邏輯。SHAP被廣泛使用,因為它可以確保每個變量的貢獻的公平分配,并具有各種各樣的圖形。可悲的是,這種方法需要大量的迭代,缺乏交互性并且無法擴展,尤其是在處理敏感的數據集和決策時。不僅如此,可視化還沒有吸引力和互動性。它們的靜態性質在數據科學家和業務涉眾之間造成了更大的鴻溝。缺少動態和交互圖使得從SHAP或LIME生成價值變得極為困難,因此需要一種更好的方法來使用這些技術。
2.使用可解釋的模型:數據科學家可以嘗試優化邏輯回歸或決策樹之類的簡單模型,以進行預測,而不是使用諸如深層神經網絡之類的黑盒模型。在準確性和可解釋性之間會有一個權衡,但是數據科學家將需要決定什么才是創造價值的基礎,并且需要關注兩種模型之間的邊際收益。如果準確度之間的邊際增長不顯著,則更理想的是實施更簡單的模型并將預測直接與業務KPI關聯。令人遺憾的是,隨著數據復雜性的提高,我們今天正在收集的數據中,簡單的模型表現不佳。
因此出現了問題:
有沒有更好的方法來建立對我們的機器學習模型的信任?
就在這里!在mltrons,我們的愿景是增加AI的采用并加速實現奇點。為了實現這一目標,我們開始執行任務,以幫助數據科學家構建可理解,可解釋且無偏見的AI算法。
這將確保受AI影響的每個人都能夠理解為什么做出決策,并確保AI結果無偏見,準確且沒有任何邏輯上的不一致。
為了實現我們的任務,我們正在為數據科學家創建一個即插即用的可解釋AI系統,該系統將以完全沉浸式和交互的方式專門研究,解釋,可視化和驗證機器學習預測的原因和方式。
該系統旨在幫助數據科學家和業務利益相關者建立對AI系統的信任,并做出充分知情的決策。
mltrons xAI引擎與當前市場上其他替代品的不同之處在于,我們的系統能夠跨多個數據集和定制模型運行。
我們的目標不是使科學家切換到新的獨立系統,而是希望在當前數據科學家的工作流程中實施我們的系統。
這意味著數據科學家現在可以將XGBoost,CatBoost,PyTorch,TensorFlow,SageMaker的Jupiter筆記本,數據源(Amazon,MySQL,HDFS和定制模型)引入mltrons引擎,mltrons引擎將吸收他們的輸入并將用作附加層,以提供有關這些算法如何工作,思考和輸出結果的解釋性。
然后,數據科學家將能夠通過我們的交互式可視化,報告和可共享的儀表板,以簡單的商業友好語言解釋結果,任何人都可以理想地理解該結果。
以上就是關于如何構建可以信賴的機器學習算法的全部內容,想了解更多關于機器學習算法的信息,請繼續關注中培偉業。