Джуров Александр Андреевич (Аспирант,
Донского государственного технического университета
)
|
В данной статье рассматривается использование библиотеки sklearn и базы данных WordNet для классификации текста. Показан принцип работы стемминга, а также пример реализации его в python. Расписаны шаги Pipeline для построения модели и обработки данных. Были рассмотрены различные подходы к предобработке текста, включая токенизацию, удаление стоп-слов и лемматизацию. Использование базы данных WordNet позволило провести семантический анализ текста и улучшить качество классификации текста. Результаты экспериментов показали, что комбинирование методов sklearn и базы данных WordNet являются эффективным подходом к классификации текста. Показана демонстрация работы разработанного модуля с выводами результатов и общая схема работы модуля с описанием его работы.
Ключевые слова:sklearn, WordNet, Stemmer, классификация текста, Python, Pipeline
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Джуров А. А. ПОИСК ДЕСТРУКТИВНОГО КОНТЕНТА В ТЕКСТЕ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2024. -№03/2. -С. 46-50 DOI 10.37882/2223-2966.2024.3-2.07 |
|
|