TechFusion.ruНовостиНейросеть ObjGAN нарисует картины по текстовому описанию

Нейросеть ObjGAN нарисует картины по текстовому описанию

ObjGAN

Разработчики Microsoft Research представили интеллектуальную систему ObjGAN, способную рисовать сложные сцены с множеством объектов и условий по текстовому описанию

ИИ-системы не впервые учат «рисовать на заказ». Ранее разработчики уже научили искусственный интеллект создавать анимацию по текстовому описанию; а в Microsoft Research в прошлом году представили алгоритм AttnGAN, рисующий объекты по заданным параметрам. Новая генеративно-состязательная нейросеть ObjGAN от Microsoft способна превращать слова в рисунок уже не с одним объектом, а со сложным описанием сцены и нескольких объектов сразу.

Как рассказали авторы разработки в статье Object-driven Text-to-Image Synthesis via Adversarial Training в журнале Computer Science, в отличие от предыдущих систем, новая нейросеть способна воспроизводить изображения не только базовых объектов, но и качественно определять сложные описания действий и сопоставлять несколько объектов.

ИИ-систему обучали на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 млн объектов. Главной проблемой, которую решила новая методика, стало понимание алгоритмом соотношения и зависимости разных объектов в рамках одного изображения.

Нейросеть анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. Алгоритм содержит генератор, создающий объекты по описанию, и два различных дискриминатора для оценки качества получающегося изображения. Один из дискриминаторов анализирует объекты по отдельности, а второй оценивает картинку в целом.

Код новой нейросети выложен на портале GitHub.

Иллюстрация на обложке: Microsoft