Нейросеть VASA-1 превращает фото в видео

автор ApiX-Drive

Время прочтения: ~1 мин

Microsoft снова на передовой инноваций в области искусственного интеллекта. Недавно компания представила новую нейросеть VASA-1, которая может превращать обычные фотографии в реалистичные видео. Помните опубликованные в газете "живые" фото Сириуса Блэка из кинофильма "Гарри Поттер и узник Азкабана"? То, что в 2004 году было фантастикой, через 20 лет воплотилось в реальность. Чтобы ИИ детально воспроизвел эмоции, мимику и выдал живое видео, которое сложно отличить от настоящего, достаточно всего лишь одного снимка и аудиозаписи. На официальном сайте Microsoft уже есть страница, посвященная этой технологии, где можно найти много примеров ее применения.

VASA-1 использует передовые алгоритмы для моделирования движения частей лица, обеспечивая естественность и плавность мимики. Искусственный интеллект разделяет лицо на сегменты, похожие на мышцы, что позволяет воспроизводить даже такие сложные движения, как повороты головы. Инструменты для редактирования эмоционального состояния и направления взгляда дают пользователям возможность адаптировать контент под различные потребности – от развлекательных блогов до профессиональных подкастов. Система работает на мощных компьютерах с графическими процессорами NVIDIA RTX 4090 и поддерживает создание видео с частотой до 45 кадров в секунду из фотографий с разрешением до 512×512 пикселей.

Поскольку возможности VASA-1 действительно революционны, Microsoft выражает обеспокоенность потенциальным использованием нейросети для создания фейковых изображений и видео с целью манипуляций или мошенничества. Компания временно отказывается от распространения онлайн-демо, API и других инструментов, связанных с VASA-1, пока не будут разработаны надежные механизмы обеспечения этического применения этой технологии.