ИИ в борьбе с языком ненависти: насколько он уступает человеческому суждению?

По мере того как ООН отмечает Международный день борьбы с языком ненависти 18 июня, генеральный секретарь Антониу Гутерриш предупредил, что социальные платформы усиливают эту угрозу.

Язык ненависти, который раньше распространялся лично, теперь путешествует дальше и быстрее через анонимные онлайн-аккаунты. Искусственный интеллект (ИИ) всё чаще привлекается для обнаружения и удаления языка ненависти в интернете, но Al Jazeera изучает, где эти системы уступают человеческому суждению.

Согласно ООН, язык ненависти охватывает любое общение (устное, письменное или поведенческое), которое дискриминирует или подстрекает к насилию в отношении человека или группы. Он направлен на расу, этническое происхождение, религию, пол, сексуальную ориентацию или инвалидность.

Согласно совместному опросу Ipsos и ЮНЕСКО 2023 года среди 8000 человек в 16 странах, более двух третей пользователей интернета сталкивались с языком ненависти онлайн. Опрос также показал, что 33% респондентов считают, что ЛГБТКИ люди чаще всего подвергаются языку ненависти.

Meta, владеющая Facebook, с 2023 года удаляет меньше ненавистных постов. В четвертом квартале 2025 года компания удалила 1,3 миллиона постов из Instagram и 1,3 миллиона из Facebook, по сравнению с 7,4 миллиона и 5,8 миллиона в четвертом квартале 2024 года.

TikTok, с другой стороны, сообщил, что удалил 96,3% всего языка ненависти и контента в четвертом квартале 2025 года до того, как на него поступили жалобы.

Для борьбы с распространением языка ненависти онлайн компании социальных сетей всё чаще обращаются к ИИ, используя системы модерации контента на основе больших языковых моделей (LLM). Однако исследование 2025 года, проведённое учёными Пенсильванского университета, показало, что эти модели значительно различаются в выявлении и классификации языка ненависти.

Исследование оценило семь систем модерации ИИ, включая модели от OpenAI, Anthropic, DeepSeek, Mistral и Google, и обнаружило серьёзные различия в том, как они оценивают один и тот же контент. Например, Mistral Moderation Endpoint часто присваивает высокие баллы, а OpenAI Moderation Endpoint — более низкие.

Профессор Лондонского университета королевы Марии Аркайц Зубиага отметил, что системы ИИ испытывают трудности с выявлением скрытого языка ненависти, например, когда позитивное на первый взгляд сообщение содержит оскорбительный подтекст. Кроме того, ИИ может ошибочно маркировать как ненависть слова, которые были переосмыслены сообществами и используются в ласковом значении.

Source: www.aljazeera.com

Мир

ИИ в борьбе с языком ненависти: насколько он уступает человеческому суждению?

Последние новости

Последние новости