|
Современные системы управления качеством данных, как правило, сосредоточены на обнаружении аномалий, оставляя этап их интерпретируемой и обоснованной корректировки на усмотрение пользователя. В условиях роста объёмов данных и ограниченности человеческих ресурсов это создаёт риск некорректной обработки отклонений и снижения доверия к результатам анализа. В данной статье предложен алгоритм формирования рекомендаций по исправлению аномалий в табличных данных, сочетающий методы статистического анализа (среднее значение, стандартное отклонение, Z-оценка, квантильный подход) и алгоритмы машинного обучения (SVM, Random Forest, Isolation Forest). Алгоритм не только определяет вероятные отклонения, но и предлагает способы их корректировки с пояснением логики принятого решения. На основе сопоставления метода обнаружения, свойств распределения и доли выбросов формируются рекомендации: замена, удаление или ручная проверка. Представлен псевдокод, иллюстрирующий принятие решений, а также таблица соответствий между методами и стратегиями корректировки. Проведён анализ на синтетических данных, который подтвердил интерпретируемость, гибкость и практическую значимость предложенного подхода. Результаты могут быть полезны при создании интеллектуальных систем подготовки и очистки данных, а также для интеграции в системы поддержки принятия решений.
Ключевые слова:обнаружение отклонений, корректировка данных, аналитика данных, качество данных, аномалии, табличные данные
|