Разработан искусственный интеллект, предугадывающий, что будет происходить на видео дальше

Ученые в области нейронных сетей и искусственного интеллекта разработали Anticipative Video Transformer (AVT) — сквозную архитектуру моделирования видео, которая обращается к ранее наблюдаемому видео, чтобы предвидеть будущие действия. Об этом рассказано в одном из препринтов на сервере arXiv.org.

Специалисты обучили модель так, чтобы она смогла предсказывать следующее действие в видеопоследовательности. Они также изучили кодирующие признаков кадров, которые предсказывают особенности следующих друг за другом картинок.

По сравнению с существующими стратегиями временной агрегации, Anticipative Video Transformer имеет преимущество, как в поддержании последовательной прогрессии наблюдаемых действий, так и в сохранении дальнодействующих зависимостей, что имеет решающее значение для задачи упрежденного анализа видео.

С помощью обширных экспериментов ученые показали, что Anticipative Video Transformer демонстрирует наилучшую производительность по четырем популярным тестам ожидания действий: EpicKitchens-55, EpicKitchens-100, EGTEA Gaze + и 50-Salads.

загрузка...

Коротко

Показать все новости