На что способна нейросеть SORA и чем опасны видео, сгенерированные искусственным интеллектом
SORA от OpenAI — что это за нейросеть, о которой говорит интернет
Для написания короткого, но точного запроса к видео, сначала обучали отдельную модель. ChatGPT помог сгенерировать более детализированное описание. И, в отличие от всех предыдущих генераторов видео, Sora обучена на роликах в высоком разрешении, а не на коротких квадратных в качестве 512х512, как это делали раньше. Модель генерирует не фрагменты, а полноценный ролик, соединяя все детали в единое целое. Это существенно отличает нейросеть от всех предшественников. Максимальный хронометраж, который пока может создавать Sora — одна минута. Длинные и связные видеоролики ранее были недоступны для AI-генерации.
Есть у нейросети и слабые места. Например, проблемы с точной генерацией сложной сцены. ИИ не всегда понимает причинно-следственную связь, путает лево и право, поэтому случаются и промахи. Например, на видео человек может откусить кусочек банана, но после этого на самом фрукте не останется следа от укуса.
На что способна SORA: примеры видео
Sora «понимает» не только то, что попросил пользователь, но и то, как описанные им объекты выглядят и действуют в реальном мире. Поэтому на выходе и рождаются сложные сцены с несколькими персонажами, определенными типами движения и детализированными объектами и фоном. Sora представила несколько примеров видеороликов.
«Мы заранее делимся результатами наших исследований, чтобы начать работать и получать отзывы от людей за пределами OpenAI, а также дать общественности представление о том, какие возможности ИИ ждут нас на горизонте».
Официальный сайт Sora
Запрос: «Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. Она носит черную кожаную куртку, длинное красное платье и черные ботинки, а также носит черную сумочку. Она носит солнцезащитные очки и красную помаду. Она ходит уверенно и непринужденно. Улица влажная и отражающая свет, создавая зеркальный эффект разноцветных огней. По ней прогуливается много пешеходов».
Запрос: «Камера направлена прямо на красочные здания в Бурано, Италия. Очаровательный далматинец смотрит в окно здания на первом этаже. Многие люди гуляют и ездят на велосипедах по улицам канала перед зданиями».
Запрос: «Исторические кадры Калифорнии во время «золотой лихорадки».
Как отличить искусственное видео от настоящего и легко ли это сделать
Появление такой мощной нейросети вызывает опасения и не исключает возможности использования созданных видео в недобросовестных целях. Так было, например, с Midjourney, когда пользователи стали создавать реалистичные изображения с политиками и знаменитостями. Создание видео выводит проблему на следующую ступень. По сути, можно выдумать провокационный инфоповод и приложить видео как «доказательство».
Эксперт по кибербезопасности Алексей Курочкин уверен, что подобные технологии будут использовать мошенники. Они будут продолжать развиваться, и созданный с помощью ИИ контент будет все сложнее отличить от реальности. Использование нейросетей понадобится регулировать государственными методами, предположил Курочкин.
«Эти видео очень реалистичные, но все равно есть нюансы — отличие мимики, например. Конечно, это все будет совершенствоваться и улучшаться. Но смогут это использовать и мошенники. Такие случаи уже были — поступает звонок, но голос звонящего сгенерирован нейросетью. После этого уже звонят по видео с якобы подтверждением проблемы. В наше время всю информацию нужно проверять. Когда человек ведет себя нестандартно, перезвоните на его телефон, другим родственникам, в больницу или полицию».
Алексей Курочкин
эксперт по кибербезопасности
Как можно отличить настоящее видео от сгенерированного, рассказал «Ямал-Медиа» Алексей Белкин, основатель компании консалтинга по ИИ для бизнеса. В моделях нейросетей предыдущих поколений один и тот же объект в кадре может трансформироваться по мере проигрывания видео — к примеру, может меняться лицо персонажа. То же самое может касаться окружающего пространства и объектов. Изображение достаточно заметно «плывет».
«Таких недостатков у модели Sora уже практически не наблюдается. Но есть другие нюансы. Например, один и тот же человек может в одном кадре быть в куртке черного цвета, допустим, по пояс, а в другом кадре тоже куртка черного цвета, но уже по колено. Или на ней другое количество пуговиц, или у нее оказался другой воротник. То есть модель «забывает» и сложно удерживает длинные взаимосвязи».
Алексей Белкин
основатель компании консалтинга по ИИ для бизнеса
Но, резюмировал эксперт, конкретных критериев все равно не существует. Виртуальное видео — это попытка максимально точно симулировать или изобразить нечто реальное, так что по мере того, как технология будет развиваться, разница будет все менее и менее заметной. «То, что мы сегодня еще можем видеть как разницу, скорее можно назвать огрехами или ошибками этой виртуальной симуляции», — говорит Курочкин.
В OpenAI говорят, что понимают это и принимают меры для защиты от потенциальных рисков. По словам представителей компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.
«Мы также создаем инструменты, помогающие обнаруживать вводящий в заблуждение контент, например, классификатор обнаружения, который может определить, когда видео было создано Sora. Мы планируем включить метаданные C2PA в будущем, если развернем модель в продукте OpenAI».
Официальный сайт Sora
Классификатор текста также будет проверять и отклонять запросы, которые нарушают политику использования — со сценами насилия, сексуальным контентом, разжигающих ненависть, использующих образы знаменитостей и так далее.
Sora планирует привлечь политиков, преподавателей и художников, чтобы понять проблемы и определить варианты использования этой новой технологии. Но, несмотря на обширные исследования и испытания, предсказать все способы, которыми люди будут использовать технологию, и будут ли они ими злоупотреблять, невозможно.
Самые важные и оперативные новости — в нашем телеграм-канале «Ямал-Медиа».