Генерация изображений и видео: тренды, вызовы и применения

Спикер: Денис Димитров Управляющий директор по исследованию данных — руководитель управления базовых моделей Kandinsky. Последние несколько лет можно назвать расцветом генеративных моделей, работающих с самыми разными типами данных. Доклад будет посвящён одним из самых трудоёмких и сложных задач этого направления — синтезу изображений и видео по текстам на естественном языке (text-to/image, text-to-video), а также подходам к решению этой задачи на основе диффузии. Обсудим разные аспекты диффузионного процесса, его преимущества и недостатки. Разберёмся с задачей генерации видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода. Поговорим об архитектурах Kandinsky-4 и Kandinsky-5, особенностях их обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. В заключение обсудим применение text-to-video моделей и их потенциал в настоящем и будущем. Подробнее про AI R&D Сбера: