Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ОБРАБОТКИ ДИСБАЛАНСА ДАННЫХ НА СИНТЕТИЧЕСКИХ НАБОРАХ

Шакиров Кирилл Фаридович  (старший преподаватель Федеральное государственное бюджетное образовательное учреждение высшего образования «Российский экономический университет имени Г.В. Плеханова». )

В статье рассматривается проблема дисбаланса классов в машинном обучении. Приводится сравнение различных методов ресемплинга для решения данной проблемы. Представлено исследование с использованием синтетически сгенерированных данных с варьированием степени дисбаланса от 10 % до 90 % миноритарного класса. Данные обучались на модели случайного леса. Были проанализированы различные методы ресемплинга применительно к обучающей выборке: без обработки, случайное передискретизирование (Random Over), SMOTE, случайное уменьшение выборки (Random Under) и SMOTETomek. Оценка эффективности методов проводилась по метрикам: точность (Accuracy), площадь под ROC-кривой (ROC-AUC), прецизионность (Precision), полнота (Recall) и F1-мера. Результаты показали, что метод SMOTETomek демонстрирует наилучшие показатели среди рассмотренных подходов.

Ключевые слова:дисбаланс данных, методы обработки дисбаланса, синтетические данные, Random Over, SMOTE, Random Under, SMOTETomek, метрики качества, машинное обучение.

 

Читать полный текст статьи …



Ссылка для цитирования:
Шакиров К. Ф. ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ОБРАБОТКИ ДИСБАЛАНСА ДАННЫХ НА СИНТЕТИЧЕСКИХ НАБОРАХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2026. -№01. -С. 171-174 DOI 10.37882/2223-2966.2026.01.38
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"