Капитанов Андрей Иванович (к.т.н.
Национальный исследовательский университет «МИЭТ», г. Москва
доцент Института СПИНТех
)
Егорова Дарья Аркадьевна (Национальный исследовательский университет «МИЭТ», г. Москва
соискатель
)
Жугинский Иван Александрович (Национальный исследовательский университет «МИЭТ», г. Москва
соискатель
)
Шеламов Александр Андреевич (соискатель
Национальный исследовательский университет «МИЭТ», г. Москва
)
|
Статья посвящена разработке методики и алгоритма для автоматической фильтрации обсценной лексики в мультимодальных данных. Актуальность заключается в отсутствии эффективных решений для автоматической фильтрации обсценной лексики в прямом эфире с поддержкой русского языка. Основное внимание уделено современным методам машинного обучения, которые позволяют эффективно распознавать и блокировать нежелательную лексику в потоковых данных. В рамках исследования рассматриваются особенности функционирования алгоритмов, использующих различные языковые модели, а также аспекты обработки контента в режиме реального времени. Описываются этапы предварительной обработки аудиосигнала, его форматирования и последующей очистки.
Ключевые слова:обсценная лексика, фильтрация контента, аудиовизуальные данные, машинное обучение, языковые модели, потоковая обработка, фильтрация в реальном времени
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Капитанов А. И., Егорова Д. А., Жугинский И. А., Шеламов А. А. СОВРЕМЕННЫЕ ПОДХОДЫ К АВТОМАТИЧЕСКОЙ ФИЛЬТРАЦИИ ОБСЦЕННОЙ ЛЕКСИКИ ПРИ ОБРАБОТКЕ МУЛЬТИМОДАЛЬНЫХ ДАННЫХ НА РУССКОМ ЯЗЫКЕ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2024. -№11/2. -С. 95-97 DOI 10.37882/2223-2966.2024.11-2.14 |
|
|