Екатерина Рем
Latest posts by Екатерина Рем (see all)
- На российский рынок вышел электросамокат Ninebot KickScooter MAX G30P - 08.12.2019 01:10
- JetBrains Space поможет организовать работу внутри компании - 07.12.2019 02:20
- Победители международной молодежной программы «Глобальная энергия» разделили 4 млн рублей - 07.12.2019 01:10
Разработчики Microsoft Research представили интеллектуальную систему ObjGAN, способную рисовать сложные сцены с множеством объектов и условий по текстовому описанию
ИИ-системы не впервые учат «рисовать на заказ». Ранее разработчики уже научили искусственный интеллект создавать анимацию по текстовому описанию; а в Microsoft Research в прошлом году представили алгоритм AttnGAN, рисующий объекты по заданным параметрам. Новая генеративно-состязательная нейросеть ObjGAN от Microsoft способна превращать слова в рисунок уже не с одним объектом, а со сложным описанием сцены и нескольких объектов сразу.
Как рассказали авторы разработки в статье Object-driven Text-to-Image Synthesis via Adversarial Training в журнале Computer Science, в отличие от предыдущих систем, новая нейросеть способна воспроизводить изображения не только базовых объектов, но и качественно определять сложные описания действий и сопоставлять несколько объектов.
ИИ-систему обучали на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 млн объектов. Главной проблемой, которую решила новая методика, стало понимание алгоритмом соотношения и зависимости разных объектов в рамках одного изображения.
Нейросеть анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. Алгоритм содержит генератор, создающий объекты по описанию, и два различных дискриминатора для оценки качества получающегося изображения. Один из дискриминаторов анализирует объекты по отдельности, а второй оценивает картинку в целом.
Код новой нейросети выложен на портале GitHub.