无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業IT資訊頻道

您現在的位置：首頁 > IT資訊 > 人工智能 > 人工如智能何解決不平衡數據集的問題

人工如智能何解決不平衡數據集的問題

2021-05-31 13:19:30　|　來源：中培企業IT培訓網

平衡訓練數據是數據預處理的重要組成部分。數據不平衡是指數據集中的類分布不均，這可能會導致模型訓練的潛在風險。有幾種方法可以平衡訓練數據和克服不平衡數據，包括重采樣和權重平衡。想象一下，如果有一個模型可以識別圖片中是狗還是貓。在測試過程中，模型正確識別了圖片中的所有狗，但沒有識別出貓。在查看訓練數據集時，意識到有10張狗的圖片和100張貓的圖片。這是數據不平衡的一個例子，其中每個對象類的數據集沒有可比數量的實例。

你需要知道的事實是，不平衡的數據無處不在，無法避免數據集不平衡。考慮一個調查電動車車主對電動車維修費意見的例子。因為大部分開電動車的人年收入都很高，所以80%的結果是“收費還算合理”。

換句話說，數據集是有偏見的。一個訓練來預測調查反應的模型通常會預測一個人，無論收入、駕駛傾向或汽車偏好如何，都會認為費用低廉。

在檢查犯罪數據時也會出現同樣的問題。在使用人工智能 (AI) 預測犯罪行為時，不平衡的犯罪數據集會使數據集中存在的種族和性別偏見永久化。在面對不平衡數據時，使用方法改進訓練過程至關重要，平衡訓練數據有兩種主要方法：關注數據集或權重。

在我們不想改變模型的情況下，我們可以簡單地進行數據預處理。換句話說，我們應該查看我們的數據集，了解數據分布，并決定如何重新采樣我們的數據，這是平衡訓練數據的一步。這里，有兩種可能的方法：

過/欠采樣：在少數類中增加樣本或在多數類中減少樣本。

聚類技術：這類似于重采樣，但不是將樣本添加到不同的類中，我們首先找到每個類中的子類或子簇，然后復制子類中的樣本以確保大小相等。

權重平衡是平衡訓練數據和處理不平衡數據的另一種好方法，這是通過乘以 logits 將類權重添加到損失函數來完成的。我們首先定義類權重以賦予少數類額外的權重，然后將類權重乘以損失函數。在 Tensorflow 中，您可以執行以下操作：

loss = tf.nn.softmax_cross_entropy_with_logits(labels, pred)

weighted_loss = loss * class_weights

為什么我們要將權重乘以原始損失函數?這使得損失成為加權平均值，其中每個樣本的權重由其對應類的 class_weight 指定。

在 Modzy 平衡訓練數據

在 Modzy，我們的數據科學家將數據預處理視為一項關鍵任務。在訓練我們的模型之前，我們確保我們的數據集不會產生潛在風險并且我們的模型是穩健的。

這對您意味著什么

在 AI 激增的世界中，重要的是我們要特別關注訓練數據，以降低有偏差輸出的風險。

上述就是關于如何解決不平衡數據集的問題的全部內容，想了解更多關于人工智能的信息，請繼續關注中培偉業。

標簽：人工如智人工如智應用

上一篇：人工智能在超市中的5種應用方式
下一篇：人工智能在生活中的超高應用

相關閱讀

近期開班

全國報名服務熱線
400-626-7377
熱門課程咨詢
在線咨詢
微信公眾號
微信號：zpitedu

主站蜘蛛池模板：国产精品美女久久久久 | 中国特级黄色片 | 韩日一级片 | 天干夜天天夜天干天2004年 | 亚洲自偷自拍另类第1页 | 日本爆乳j罩杯无码视频 | 91大全 | 国产看片在线 | 亚洲aⅴ精品国产首次亮相免费精品视频 | 日本久久久久中文视频字幕 | 国产在线成人免费视频色婷婷 | 欧美日韩国产伦理 | 欧美激情国产一区 | 香蕉国产片一级一级一级一级 | 一夲道无码人妻精品一区二区 | 久久国产精品免费 | 中文字幕亚洲欧美日韩高清 | 玩丰满熟妇XXXX视频 | 国产成人精品免费视频大全五级 | 国产无套粉嫩白浆内谢在a 少妇av免费 | av无码一区二区三 | 草久免费视频 | 人妻久久精品天天中文字幕 | 日本xxxx网站 | 熟女丝袜潮喷内裤视频网站 | 99精品国产99久久久久久97 | 国产成人一区二区三区影院在线 | 粉嫩小泬无遮挡久久久久久 | 69一区二区 | 精品成人私密视频 | 免费可以看污的视频 | 无码乱人伦一区二区亚洲 | 国产精品亚洲W码日韩中文中文字幕Va一区二区三区 | 久热久热| 中文字字幕一区二区三区四区五区 | 久久天天躁狠狠躁夜夜2020老熟妇 | caoporn视频| jizz欧美性3 一区二区三区成人 | 亚洲免费鲁丝片 | 九九影院理论片在线观看一级 | 国产成年无码a∨片在线韩国 |