- CES 2020: Segway представила кресло-капсулу S-Pod для комфортных поездок - 06.01.2020 14:14
- CES 2020: Seagate показала, как работать с данными - 06.01.2020 13:42
- CES 2020: очень «умная» бытовая техника и изогнутые игровые мониторы Odyssey - 05.01.2020 14:22
Разработчики Microsoft Research представили интеллектуальную систему ObjGAN, способную рисовать сложные сцены с множеством объектов и условий по текстовому описанию
ИИ-системы не впервые учат «рисовать на заказ». Ранее разработчики уже научили искусственный интеллект создавать анимацию по текстовому описанию; а в Microsoft Research в прошлом году представили алгоритм AttnGAN, рисующий объекты по заданным параметрам. Новая генеративно-состязательная нейросеть ObjGAN от Microsoft способна превращать слова в рисунок уже не с одним объектом, а со сложным описанием сцены и нескольких объектов сразу.
Как рассказали авторы разработки в статье Object-driven Text-to-Image Synthesis via Adversarial Training в журнале Computer Science, в отличие от предыдущих систем, новая нейросеть способна воспроизводить изображения не только базовых объектов, но и качественно определять сложные описания действий и сопоставлять несколько объектов.
ИИ-систему обучали на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 млн объектов. Главной проблемой, которую решила новая методика, стало понимание алгоритмом соотношения и зависимости разных объектов в рамках одного изображения.
Нейросеть анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. Алгоритм содержит генератор, создающий объекты по описанию, и два различных дискриминатора для оценки качества получающегося изображения. Один из дискриминаторов анализирует объекты по отдельности, а второй оценивает картинку в целом.
Код новой нейросети выложен на портале GitHub.