Шакиров Кирилл Фаридович (старший преподаватель
Федеральное государственное бюджетное образовательное учреждение высшего образования «Российский экономический университет имени
Г.В. Плеханова».
)
| |
В статье рассматривается проблема дисбаланса классов в машинном обучении. Приводится сравнение различных методов ресемплинга для решения данной проблемы. Представлено исследование с использованием синтетически сгенерированных данных с варьированием степени дисбаланса от 10 % до 90 % миноритарного класса. Данные обучались на модели случайного леса. Были проанализированы различные методы ресемплинга применительно к обучающей выборке: без обработки, случайное передискретизирование (Random Over), SMOTE, случайное уменьшение выборки (Random Under) и SMOTETomek. Оценка эффективности методов проводилась по метрикам: точность (Accuracy), площадь под ROC-кривой (ROC-AUC), прецизионность (Precision), полнота (Recall) и F1-мера. Результаты показали, что метод SMOTETomek демонстрирует наилучшие показатели среди рассмотренных подходов.
Ключевые слова:дисбаланс данных, методы обработки дисбаланса, синтетические данные, Random Over, SMOTE, Random Under, SMOTETomek, метрики качества, машинное обучение.
|
|
| |
|
Читать полный текст статьи …
|
Ссылка для цитирования: Шакиров К. Ф. ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ОБРАБОТКИ ДИСБАЛАНСА ДАННЫХ НА СИНТЕТИЧЕСКИХ НАБОРАХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2026. -№01. -С. 171-174 DOI 10.37882/2223-2966.2026.01.38 |
|
|