На что способна нейросеть SORA и чем опасны видео, сгенерированные искусственным интеллектом

Компания OpenAI, известная своим чат-ботом ChatGPT, представила новую модель искусственного интеллекта Sora. По текстовому описанию она генерирует весьма реалистичные видеоролики, чем сильно удивила общественность. Создание такой нейросети породило немало опасений по поводу развития фейковых видео.

SORA от OpenAI — что это за нейросеть, о которой говорит интернет

Для написания короткого, но точного запроса к видео, сначала обучали отдельную модель. ChatGPT помог сгенерировать более детализированное описание. И, в отличие от всех предыдущих генераторов видео, Sora обучена на роликах в высоком разрешении, а не на коротких квадратных в качестве 512х512, как это делали раньше. Модель генерирует не фрагменты, а полноценный ролик, соединяя все детали в единое целое. Это существенно отличает нейросеть от всех предшественников. Максимальный хронометраж, который пока может создавать Sora — одна минута. Длинные и связные видеоролики ранее были недоступны для AI-генерации.

Есть у нейросети и слабые места. Например, проблемы с точной генерацией сложной сцены. ИИ не всегда понимает причинно-следственную связь, путает лево и право, поэтому случаются и промахи. Например, на видео человек может откусить кусочек банана, но после этого на самом фрукте не останется следа от укуса.

На что способна SORA: примеры видео

Sora «понимает» не только то, что попросил пользователь, но и то, как описанные им объекты выглядят и действуют в реальном мире. Поэтому на выходе и рождаются сложные сцены с несколькими персонажами, определенными типами движения и детализированными объектами и фоном. Sora представила несколько примеров видеороликов.

«Мы заранее делимся результатами наших исследований, чтобы начать работать и получать отзывы от людей за пределами OpenAI, а также дать общественности представление о том, какие возможности ИИ ждут нас на горизонте».

Официальный сайт Sora

Запрос: «Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. Она носит черную кожаную куртку, длинное красное платье и черные ботинки, а также носит черную сумочку. Она носит солнцезащитные очки и красную помаду. Она ходит уверенно и непринужденно. Улица влажная и отражающая свет, создавая зеркальный эффект разноцветных огней. По ней прогуливается много пешеходов».

Запрос: «Камера направлена прямо на красочные здания в Бурано, Италия. Очаровательный далматинец смотрит в окно здания на первом этаже. Многие люди гуляют и ездят на велосипедах по улицам канала перед зданиями».

Запрос: «Исторические кадры Калифорнии во время «золотой лихорадки».

Как отличить искусственное видео от настоящего и легко ли это сделать

Появление такой мощной нейросети вызывает опасения и не исключает возможности использования созданных видео в недобросовестных целях. Так было, например, с Midjourney, когда пользователи стали создавать реалистичные изображения с политиками и знаменитостями. Создание видео выводит проблему на следующую ступень. По сути, можно выдумать провокационный инфоповод и приложить видео как «доказательство».

Эксперт по кибербезопасности Алексей Курочкин уверен, что подобные технологии будут использовать мошенники. Они будут продолжать развиваться, и созданный с помощью ИИ контент будет все сложнее отличить от реальности. Использование нейросетей понадобится регулировать государственными методами, предположил Курочкин.

«Эти видео очень реалистичные, но все равно есть нюансы — отличие мимики, например. Конечно, это все будет совершенствоваться и улучшаться. Но смогут это использовать и мошенники. Такие случаи уже были — поступает звонок, но голос звонящего сгенерирован нейросетью. После этого уже звонят по видео с якобы подтверждением проблемы. В наше время всю информацию нужно проверять. Когда человек ведет себя нестандартно, перезвоните на его телефон, другим родственникам, в больницу или полицию».

Алексей Курочкин

эксперт по кибербезопасности

Как можно отличить настоящее видео от сгенерированного, рассказал «Ямал-Медиа» Алексей Белкин, основатель компании консалтинга по ИИ для бизнеса. В моделях нейросетей предыдущих поколений один и тот же объект в кадре может трансформироваться по мере проигрывания видео — к примеру, может меняться лицо персонажа. То же самое может касаться окружающего пространства и объектов. Изображение достаточно заметно «плывет».

«Таких недостатков у модели Sora уже практически не наблюдается. Но есть другие нюансы. Например, один и тот же человек может в одном кадре быть в куртке черного цвета, допустим, по пояс, а в другом кадре тоже куртка черного цвета, но уже по колено. Или на ней другое количество пуговиц, или у нее оказался другой воротник. То есть модель «забывает» и сложно удерживает длинные взаимосвязи».

Алексей Белкин

основатель компании консалтинга по ИИ для бизнеса

Но, резюмировал эксперт, конкретных критериев все равно не существует. Виртуальное видео — это попытка максимально точно симулировать или изобразить нечто реальное, так что по мере того, как технология будет развиваться, разница будет все менее и менее заметной. «То, что мы сегодня еще можем видеть как разницу, скорее можно назвать огрехами или ошибками этой виртуальной симуляции», — говорит Курочкин.

В OpenAI говорят, что понимают это и принимают меры для защиты от потенциальных рисков. По словам представителей компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.

«Мы также создаем инструменты, помогающие обнаруживать вводящий в заблуждение контент, например, классификатор обнаружения, который может определить, когда видео было создано Sora. Мы планируем включить метаданные C2PA в будущем, если развернем модель в продукте OpenAI».

Официальный сайт Sora

Классификатор текста также будет проверять и отклонять запросы, которые нарушают политику использования — со сценами насилия, сексуальным контентом, разжигающих ненависть, использующих образы знаменитостей и так далее.

Sora планирует привлечь политиков, преподавателей и художников, чтобы понять проблемы и определить варианты использования этой новой технологии. Но, несмотря на обширные исследования и испытания, предсказать все способы, которыми люди будут использовать технологию, и будут ли они ими злоупотреблять, невозможно.

Самые важные и оперативные новости — в нашем телеграм-канале «Ямал-Медиа».

Технологии IT-компании Интернет