Горбунов Константин Дмитриевич (Аспирант, университет ИТМО)
Иванов Сергей Евгеньевич (кандидат физико-математических наук, доцент, университет ИТМО)
|
Современные компании сталкиваются с проблемой поиска релевантных инструкций в базе знаний, вследствие чего возникает необходимость обработки большого количества входящих клиентских обращений. Данная проблема требует оптимальных решений в условиях ограниченных IT-ресурсов и законодательных ограничений. В данной статье представлен сравнительный анализ работы алгоритмов поиска и фильтрации информации на малых датасетах в условиях бизнес-ограничений. Исследование построено на сравнении таких алгоритмов, как TF-IDF, Bag of Words, Word2Vec и FastText. Результаты проведенного эксперимента показали, что наиболее эффективным алгоритмом для применения на малых выборках данных стал доработанный алгоритм TF-IDF, дополненный функционалом по предобработке текста, оптимизации гиперпараметров и гибридным подходом с использованием KNN. Полученные результаты позволили увеличить точность поиска информации без существенной потери времени. Таким образом, предложенный подход может быть адаптирован для решения широкого круга задач в сфере обработки текстовой информации.
Ключевые слова:обработка текста, TF-IDF, Bag of Words, Word2Vec, FastText, алгоритмы поиска, машинное обучение, фильтрация информации, малые датасеты
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Горбунов К. Д., Иванов С. Е. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ ПОПУЛЯРНЫХ АЛГОРИТМОВ ПОИСКА, АНАЛИЗА И ФИЛЬТРАЦИИ ИНФОРМАЦИИ С ПРИМЕНЕНИЕМ СИСТЕМ ИНТЕЛЛЕКТУАЛИЗАЦИИ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2025. -№04. -С. 72-76 DOI 10.37882/2223-2966.2025.04.10 |
|
|