Чем писатель Драгунский не угодил искусственному интеллекту

IT-специалист Масалович: ИИ можно было бы натренировать на текстах Драгунского

Современные технологии стремительно проникают во все сферы, включая контроль за соблюдением законодательства. Однако автоматическая проверка контента с помощью искусственного интеллекта порой дает сбои. «Ямал-Медиа» выяснил, почему нейросеть ошибается и можно ли избежать случаев, когда фамилию детского писателя принимают за пропаганду запрещенных веществ.

Нейросеть нашла в фамилии Драгунского пропаганду наркотиков

Генеральный директор издательства «Эксмо» Евгений Капьев сообщил о казусе, с которым столкнулась книжная отрасль. Алгоритм искусственного интеллекта, анализирующий художественную литературу на предмет пропаганды запрещенных веществ, усмотрел нарушение закона в фамилии советского писателя Виктора Драгунского, автора знаменитых «Денискиных рассказов».

Причиной срабатывания системы стал корень «драг», созвучный английскому drug, что переводится как наркотик. Как пояснил Капьев: таких ошибок «реально много», и они требуют дополнительной проверки: «Все это приходится проверять и вычищать вручную», а это колоссальная работа. Он добавил, что подобное происходит и с другими словами: «Еще из примеров — ИИшка на слово «героиня» в тексте тоже плохо реагирует».

«В этом конкретно случае ошибка прилетела от ИИшки одного из партнеров. Крупные розничные игроки самостоятельно тоже все проверяют, так как при нарушении претензии будут предъявляться», — рассказал Капьев.

Книги Виктора Драгунского не снимали с продаж.

Фото: Savvapanf Photo/Shutterstock/Fotodom

Писатель Денис Драгунский, сын Виктора Драгунского и прототип главного героя, отреагировал на ситуацию с юмором. «Напоминает какой-то сатирический рассказ, но его надо еще написать. Может, я напишу», — сказал он в эфире Радио РБК, добавив, что искусственный интеллект — штука хорошая, но за ним нужно внимательно следить.

Мнение экспертов: алгоритмы ИИ и угроза блокировки

Специалисты в области информационных технологий сходятся во мнении, что подобные ошибки связаны с особенностями обучения современных нейросетей. IT-специалист по информационной безопасности и OSINT, российский ученый, преподаватель и блогер Андрей Масалович объяснил «Ямал-Медиа», что в основе лежит так называемый алгоритм трансформеров, который обучается на статистике слов, встречающихся рядом. Переучить такую систему под конкретную задачу практически невозможно.

«Мы это воспринимаем как интеллект, на самом деле это плохо настроенный статистический алгоритм. Для некоторых задач его настроили дьявольски хорошо, этим козыряют. Примерно треть задач он решает дьявольски хорошо, примерно треть задач он решал бы хорошо, если бы его перетренировывали на таких казусах, как Драгунский, и примерно треть — это задачи, к которым его нельзя подпускать», — уточнил эксперт.

Директор компании «ИТ-Резерв», эксперт по информационным технологиям Павел Мясоедов считает, что проблема кроется в подходе к обучению ИИ, который называется «обучение с учителем» (supervised learning). По его словам, нейросеть копирует поведение тех, кто настраивал систему до нее.

«Искусственный интеллект — это не интеллект в традиционном понимании, это не машина, у которой есть свое сознание, свое понимание о прекрасном, свои творческие взгляды, своя собственная политическая повестка. Нет, это просто алгоритм, который мимикрирует под человека, под тех людей, которые этим занимались до этого», — пояснил Мясоедов.

По словам эксперта, разработчики могут вводить дополнительные параметры, ограничивающие действия ИИ. Когда же происходит слепая блокировка, это означает, что до этого так же бездумно действовали люди.

Мясоедов считает, что алгоритм уже достаточно развит, чтобы его можно было скорректировать: попросить применять критическое мышление, анализировать контекст и посыл, понимать, где перед ним случайный слог в фамилии, а где реальное упоминание запрещенных препаратов.

Фото: tadamichi/Shutterstock/Fotodom

Оба эксперта отметили, что при формальном подходе под блокировку могут попадать произведения, которые на самом деле несут антинаркотический посыл и даже произведения классической литературы.

Андрей Масалович привел пример из личного опыта: его книга «КиберДед знает» получила предупреждение о пропаганде наркотиков только потому, что в тексте содержалась фраза «наркотики — это зло».

Павел Мясоедов, в свою очередь, предупредил, что если и дальше применять технологии без учета контекста, то недалеко и до классики. По его словам, под угрозой блокировки могут оказаться такие произведения, как «Морфий» Михаила Булгакова или «Записки юного врача», где, несмотря на наличие упоминаний запрещенных веществ, транслируется совершенно иной посыл — демотивация, показ разрушительных последствий их употребления. Однако формальный подход нейросетей, настроенных на поиск «запрещенных» слов без анализа смысла, не делает между ними различий.

Кто ответит за ошибки искусственного интеллекта

Юристы напоминают о правовых последствиях использования автоматизированных систем. Ксения Зайцева, основатель и старший юрист компании ООО «Принцип», разъяснила «Ямал-Медиа» юридические тонкости.

«Если бизнес привлекает искусственный интеллект и наступают последствия имущественного или любого другого характера, то отвечает бизнес. Это предусмотрено статьей 1068 Гражданского кодекса РФ, а также другими федеральными законами», — отметила Ксения Зайцева.

Фото: TippaPatt/Shutterstock/Fotodom

По ее словам, искусственный интеллект применяется по инициативе управленца, поэтому ответственность несет именно компания, принявшая решение о его использовании. Разработчик отвечает только в том случае, если будет доказано, что это его вина, например, имеется дефект в программе. При этом изначально все претензии предъявляются к бизнесу и только потом, при смене ответчиков, может быть привлечен разработчик.

Зайцева добавила, что разработчик в данном случае выступает как привлеченный или наемный сотрудник, выполняющий указания руководства. Именно компания принимает решение об использовании ИИ, поэтому ответственность за последствия его работы лежит на бизнесе.

Объем корпоративных данных, которые сотрудники российских компаний отправляют на публичные ИИ-сервисы, за последний год вырос в 30 раз. Может ли это стать главной угрозой безопасности и как решить эту проблему — в материале «Ямал-Медиа».

Самые важные новости — в канале MAX «Ямал-Медиа».

Технологии Искусственный интеллект Литература Писатели