Новая система искусственного интеллекта может делать снимки и создавать видеоролики

Новая система искусственного интеллекта может делать снимки и создавать видеоролики, которые моделируют то, что будет происходит дальше. Это похоже на то, как люди могут визуально представить, как сцена будет дальше развиваться.

Люди интуитивно понимают, как устроен мир, что делает его легче для людей. В отличие от машин, люди способны предсказывать ход сценария. Но объекты в кадре могут двигаться и взаимодействовать множеством различных путей, что делает его очень сложным для анализа машиной. Но новая, так называемая глубокая система обучения смогла превзойти человека.

Исследователи Массачусетского технологического института (mit) натравили двух нейронных сетей друг против друга, с одной целью, чтобы отличить реальные видео и виде созданные машиной, таким образом первая система создавала видео, которое было достаточно реалистично, чтобы обмануть вторую систему.

Такая установка называется «генеративная состязательная сеть». Когда исследователи попросили работников на платформе Amazon выбрать какие видео были реальными, пользователи выбирали видео созданное машиной, говорят исследователи

«Наш алгоритм может генерировать достаточно реалистичное видео о том, что будет происходить дальше в кадре, это показывает, что он понимает на каком-то уровне то, что происходит в настоящем», — сказал Карл Vondrick, студент Массачусетского технологического института информатики и лаборатории искусственного интеллекта.

Система также в состоянии учиться без присмотра, говорят исследователи. Это означает, что система обучается примерно двумя миллионами видео, что эквивалентно примерно году записи. Это существенно уменьшает время разработки и делает его способным к адаптации к новым данным.

В исследовании, которое будет представлена на конференции «нейронных систем и обработки информации », которая проводится с 5 декабря до 10 в Барселоне, исследователи объяснят, как они обучили систему.

«В начале прототипа, одну из проблем, которую мы обнаружили, что модель не предсказывает, что фон будет перекашиваться и деформироваться,» написал Vondrick в журнале Живая Наука. Чтобы преодолеть это, они изменили дизайн, так что система обучалась на отдельных моделях со статическим фоном и движущимся изображением, прежде чем объединять их для создания полноценного видео.

«Компьютерная модель начала работу от полного отсутствия информации о мире. Она должна узнать,мкак люди выглядят, как объекты двигаются и что может произойти», — сказал Vondrick. «Модель еще не полностью узнает эти вещи».

Еще одна важная задача продвижения вперед будет создавать большие видео, потому что это потребует от системы отслеживания взаимосвязей между объектами и в течении более длительного времени.

«Чтобы преодолеть это, было бы неплохо добавить в видео человека, чтобы помочь системе понять некоторые элементы сцены», — сказал Vondrick.

Добавить комментарий


Защитный код
Обновить