TechFusion.ruКомпании «Ведро на голову — лучшая защита от систем распознавания»

 «Ведро на голову — лучшая защита от систем распознавания»

Вокорд, Распознавание лиц

Системы распознавания лиц сегодня востребованы как частными, так и государственными организациями, имеющими дело с людьми. Производители рассказывают о пользе таких систем, и она очевидна. Но не приведет ли это нас в мир, где Большой Брат следит за каждым нашим шагом?

Технический директор компании «Вокорд» Алексей Кадейшвили рассказал TechFusion.ru, как устроены рейтинги систем распознавания лиц, где и для чего такие системы используются и как их можно обмануть.

Вокорд, СКУД, распознавание лиц

Система контроля доступа в офис. Изображение предоставлено «Вокорд»

Про соревнования алгоритмов

— Компания «Вокорд» не раз оказывалась на высоких местах в рейтинге MegaFace. В чем суть этого соревнования алгоритмов?

— MegaFace устроен следующим образом: есть достаточно большая база известных персон. В нее входит нескольких тысяч селебрити и примерно по 40 их фотографий, сделанных в разных условиях и в разные периоды времени. На пляже, на красной дорожке, во время торжественной речи. К этой базе добавляют фото людей, которых называют обидным словом «деструкторы». И их целый миллион. На тестах нужно правильно идентифицировать хорошо известных людей и не сбиться на деструкторов.

У каждого алгоритма распознавания есть два вида ошибок. Первый — когда не найден человек, которого нужно было найти. Второй — когда ищем известную персону и находим вместо нее кого-то другого. Собственно, для этого нужны деструкторы — чтобы измерить ошибку ложного принятия.

На базе MegaFace каждый желающий может проверить свой алгоритм. Прелесть в том, что вы эту базу скачиваете себе, все измерения производите у себя и сразу можете посмотреть результат. И после этого вы принимаете решение — публиковать этот результат или нет. Если да — результат отправляется в Вашингтонский университет. Они верифицируют данные, чтобы вы ничего не напутали и никого не обманули. И спустя две недели публикуются результаты.

Этот конкурс идет непрерывно. В любой момент, когда вы почувствовали в себе силы, можно поучаствовать. Поэтому MegaFace дает актуальный срез рынка алгоритмов распознавания. И условия участия довольно демократичны — не требуется поддержки специальных интерфейсов, не нужно что-то переделывать в своей системе. Теоретически, конечно, есть возможность помухлевать. Но практически на таких больших объемах данных это сложно.

— Но можно сидеть и бесконечно тренировать свою нейронную сеть, чтобы она узнавала известных людей…

— Ну да, теоретически такой подход возможен. И я даже предполагаю, что какие-то стартапы могут именно этим и заниматься. Но тут проблема заключается в следующем. За победу в MegaFace никто никаких денег не дает. Деньги дают за продажи реальным заказчикам. Сама по себе победа — еще не гарантия продаж. Поэтому по такому пути можно идти в течение какого-то короткого времени, пока не кончатся деньги. А как показывает практика, деньги кончаются намного быстрее, чем люди того ожидают. Так что, если компания занимает первое место в рейтинге год — вероятно, за этим стоит нечто большее, чем обучение узнавать конкретных персонажей.

— Вам участие в рейтинге для чего?

— Никто не отменял PR — это реально великая вещь. И MegaFace — отличное средство заявить о себе, причем честно. Не высосать из пальца что-то, а победить в честной борьбе, причем не один раз, с хорошим отрывом.

— Есть еще рейтинг NIST, и в нем вы тоже умудрялись занимать высокие строчки. В чем отличие этих соревнований?

*Рейтинг NIST — тестирование алгоритмов распознавания лиц, которое проводит Национальный институт стандартов и технологий (National Institute of Standards and Technologies, NIST)

— В MegaFace есть некий элемент публичного шоу. NIST — это абсолютно научное учреждение, которое очень систематично, методично подходит к своим тестам. И если в тестах MegaFace могут приходить мысли об оптимизации работы алгоритма для теста, то в тестах NIST такая мысль даже не возникает.

В NIST свой принцип проведения теста. Во-первых, чтобы в нем поучаствовать вы должны сделать определенную библиотеку, которая поддерживает определенный интерфейс. Во- вторых, у вас нет доступа ни к каким данным, вы не знаете своих результатов. Все находится на стороне института. Вы никак не можете влиять на результат, только через свой алгоритм.

У NIST не такие большие базы, как у MegaFace, но они специализированные, их труднее собрать. Они подобраны под разные задачи — например, есть базы изображений «фото на визу», есть база снимков, связанных с работой полиции. И это очень правильно — разные алгоритмы могут показывать разные результаты в разных условиях, потому что многое зависит от того, под какие задачи вы готовите свой алгоритм и на чем вы его тренируете.

Сам тест начинается зимой и заканчивается следующей зимой. За это время каждая компания-участник может сделать две попытки пройти тестирование, а следующие попытки можно делать только раз в три месяца. Вы отдаете свой алгоритм в NIST, его прогоняют по всем базам, которые у них есть, а затем ваши результаты публикуют.

— С кем вы конкурируете на этих тестах?

— В распознавании лиц сейчас очень прибавили темп китайцы. На первых позициях очень много китайских компаний. Последние 4 месяца мы делим 1-2 место в NIST как раз с одной китайской компанией в основных номинациях этого теста.

Что интересно — раньше японцы занимали ведущие позиции. Но сменилась технологическая парадигма, а они этого не заметили. Прежние лидеры медленно поехали с горы, те наработки, что у них были, утратили актуальность, когда появилось глубокое обучение нейронных сетей.

Если брать российские компании, то они, наверное, в большей степени предоставляют для нас угрозу только с точки зрения PR. Есть, например, хорошо известная компания, которая когда-то заняла третье место в специфической номинации специфического рейтинга. Методика там такая, что победить может кто угодно — хороший и плохой алгоритм становятся практически неразличимы. Это как если вы убираете с поля вратаря и защитников, и все что нужно — это спокойно прицелиться и попасть в пустые ворота. Не важно, как вы играете в футбол, но уж с этой задачей — точно справитесь. Вот тут уровень достижений примерно такой же, но PR — как будто компания является мировым лидером.

Про реальную жизнь

— Давайте отойдем от соревнований и поговорим о реальных продуктах. Все эти нейронные сети, глубокое обучение — как это применяется на практике?

—  Хочу сделать лирическое отступление и сказать, как надо относиться к заявлениям «мы обучили нейронную сеть», когда люди бравируют этим. Ну, это примерно то же самое, как если бы они с гордостью рассказывали, что программируют на С++. Понимаете, сейчас, наверное, странно не использовать нейронные сети, но точно так же странно гордиться их использованием. Если кто-то считает это нереальным достижением — это признак отсутствия каких-либо других успехов. Это просто инструментарий, который сейчас лучше всего подходит для задач распознавания. Во-первых, он ради этого и создавался, а во-вторых, есть развитие аппаратных технологий, на которых все это крутится — есть железки, которые позволяют нейронным сетям эффективно работать и достигать хороших результатов.

— Ну хорошо,  вы их используете — это норма. Но для чего, в каких продуктах?

— Во всей нашей экосистеме, связанной с распознаванием лиц. У нас несколько продуктов. Во-первых — Vocord FaceConrtrol — распознавание людей в толпе. Условно говоря, все, что связанно с задачей обеспечения безопасности. Есть целая линейка продуктов, связанная с авторизацией пользователя — и на мобильном терминале, и за компьютером. Есть облачный сервис — мы предоставляем распознавание лиц как услугу тем, кто делает свои продукты. Например, кто-то делает облачную CRM, и распознавание лиц там одна из функций — разработчики не хотят с этим связываться сами, приходят к нам, и, условно, платят нам по 3 копейки за каждое распознанное лицо. У них нет капитальных затрат, а есть только операционные, а у нас появляется стабильный поток денег. И им хорошо, и нам приятно.

— В каких отраслях используются ваши решения? 

— Ну, знаете, проще перечислить, где они не используются. В нефтедобыче, например. Пока.

— Кто-то из ваших конкурентов делает ставку на ритейл, кто-то — на телеком, кто-то на банки. Ну а вы на чем сконцентрированы?

— Дело в том, что продукты, которые мы делаем, очень универсальны. Поэтому по всех областях, которые связаны с взаимодействием с людьми, распознавание будет востребовано. Где-то, сейчас эта технология может казаться избыточной, но понятно, что это вопрос времени. Сейчас мы смотрим на отрасли, где уже готовы платить деньги за распознавание — это, например, банки. Мы работаем в банке Tinkoff, РН-банке, только что завершилось очень успешное для нас тестирование в Альфа-банке.  Уже созрел ритейл. Первые проекты мы сделали там еще четыре года назад. Тогда это были крупные ТЦ — калининградский «Бауцентр», подмосковный «Капитолий». Сейчас оснащаем крупные сети. Методика работы на таких объектах отработана очень четко. И, конечно, востребовано все, связанное с безопасностью на вокзалах, стадионах, в аэропортах. На днях закончили интересный проект в Ледовом дворце «Витязь». До этого были стадионы в Омске, Ханты-Мансийске, Минске. Кстати, мы единственная российская компания, которая делает не только софт, но специализированное «железо» — камеры распознавания. Это наше ноу-хау. Такие камеры могут распознавать лица, даже без подключения к серверу. В крупном проекте по безопасности такие камеры часто оказываются наилучшим решением.

Вокорд, видеоаналитика, распознавание лиц

Видеоаналитика в торговом центре. Изображение предоставлено «Вокорд»

Есть общий тренд: все, что связано с обслуживанием человека, автоматизируется. Появляются автоматизированные магазины, машины, которые сами ездят и сами возят. Во всех этих случаях человек взаимодействует с какой-то железкой. И возникает вопрос со стороны железки: с кем именно происходит взаимодействие. В этом случае распознавание лиц — это технология №1, потому что так удобнее и проще всем.

— Где вы видите больший интерес — со стороны государственного или коммерческого сектора? С кем больше работаете?

— И там и там все очень активно развивается, и там и там мы работаем.

— С чем к вам приходят от госструктур?

— От госструктур поступают в основном задачи, связанные с общественной безопасностью. Тут все понятно: есть места массового скопления людей, там нужно обеспечить порядок. Как это сделать? Допустим, есть список людей, про которых известно что они плохие. Их и надо искать в местах, где они могут причинить какой-то вред.

Когда начинаешь об этом говорить, все сразу почему-то вспоминают про полицейское государство и борьбу с инакомыслием. Но нужно понимать следующую вещь: на самом деле есть опасные футбольные фанаты, есть националисты, есть террористы. Появление этих людей в определенных местах может быть серьезной и реальной проблемой. Они и шею могут сломать, и что-то поджечь, и разрушить — не гипотетически, они это уже фактически многократно делали. Поэтому когда речь идет о тех же массовых мероприятиях, если мы обнаруживаем там группу ультрас — согласитесь, это признак, что надо насторожиться и подготовиться к потенциальным проблемам.

— Есть определенная проблема распознавания людей в толпе: человек может прятаться за чьей-то спиной или просто опустить голову в капюшоне. Насколько, эффективны системы распознавания на больших площадях с большой проходимостью?

— Это уже вопрос тактики применения. Представьте себе хорошую снайперскую винтовку, которая позволяет стрелять километра на три. Какой бы ни была отличной винтовка, она не гарантирует, что вы из нее попадете в цель. То есть, у вас должен быть навык, вы должны какие-то усилия предпринять, чтобы попасть. С системой распознавания ситуация точно такая же. Она хорошо работает, но чтобы получить результат, вы должны правильно ею воспользоваться. Нужно создать правильные условия — допустим, чтобы потоки людей шли на камеру. Вы должны сделать так, что бы у вас были нормальные условия освещенности. Мы работаем в очень широком световом диапазоне, но если у вас на площадке не видно ни зги — чуда не случится. Если есть вероятность, что кто-то спрячется за чужую спину, то надо, чтобы он при этом попал под другую камеру.

Вокорд, видеонаблюдение, распознавание лиц

Система видеонаблюдения для обеспечения безопасности в ледовом дворце «Витязь». Фото: «Вокорд»

— В относительно недавнем прошлом всех взбудоражила новость о разработчике, который изобрел маски, способные обмануть чуть ли не любую систему распознавания…

— Это полнейшая ахинея. Во-первых, утверждение, что можно обмануть любую систему не верно хотя бы потому, что нашу систему, например, еще не обманули. То, что какую-то систему обойти удалось — ну, что ж. Сегодня они ее обманули, а завтра разработчики внесут обновления — и провести ее не удастся. Нет какого-то универсального рецепта, который позволил бы обойти системы распознавание лиц. Вернее, универсальный рецепт есть, я могу его вам открыть: надеваете ведро на голову и ходите в нем по городу.

— А если все-таки без ведра, но в толпе — узнает ваша система злоумышленника?

— Есть отличный кейс из Казахстана — это важно, ведь у нас при обучении использовались европейские лица, и было не очень понятно как все сработает. Система внедрялась на EXPO 2017 в Астане, когда выставка еще строилась. И уже на стадии внедрения системы, с ее помощью обнаружили двух человек, которые были в розыске. Не то чтобы они были опасны, просто находились в базе разыскиваемых, и их нашли еще на стадии застройки. После того как систему запустили, буквально в первую неделю работы из 26 тысяч человек нашли 12 человек из базы розыска. Один кадр был вообще анекдотичный, потому что его обнаружили в охране высокопоставленной персоны — это был вор-карманник.

— На всех серьезных мероприятиях есть системы, которые сличают тебя с фото или бейдж/паспорт с базой. Все эти системы годами работают — в чем новизна того, что делаете вы? 

—  Новизна в том, что все происходит безо всякого прикладывания чего либо к чему либо. Просто идет поток людей, причем, очень большой поток — десятки тысяч проходов людей в сутки, свободный, freeflow. И вот в этом потоке людей система показывает результат. История про то, что вы к чему-то приложили паспорт, потом еще стоите и смотрите в камеру до тех пор, пока вас не распознают — это не про нас, это и правда работает сто лет. И очень задерживает, создает очереди. Наше основное достижение, что все то же самое можно сделать на лету, без всяких задержек.

Куда все движется

— Весной вы заявляли о планах выйти на зарубежные рынки. Что реализовано?

— Наши менеджеры, которые отвечают за иностранные направления, скоро, наверное, забудут русский язык. У нас сейчас очень большой поток заказов. Причем — вернемся к теме MegaFace и NIST— нахождение на верхних строчках в рейтингах принесло нам известность и энное число заказчиков. Пока могу сказать, что мы очень активно с ними работаем по интересным и большим проектам.

— А все-таки, в какие регионы вы выходите?

— Мы, как это ни странно, работаем с Китаем, причем мы нашли способ работать так, чтобы это приносило деньги не только китайцам. И, опять же, как это ни странно, работаем с японцами, а также с другими азиатскими странами и Ближним Востоком.

— Ваше отличие от многих российских компаний в том, что вы занимаетесь программно-аппаратными комплексами, а не только софтом. Вы продолжаете придерживаться этой стратегии? Ведь «железо» это сложно, долго, дорого, а китайцы все делают быстрее, дешевле…

— Мы всегда находимся в той нише, в которой нет китайцев. Как только они там заводятся, мы из этой ниши уходим. Потому что начинается ценовая борьба, а еще никому у китайцев в ценовой конкуренции выиграть не удалось. Мы же не стоим на месте — вы видели серферов, как они ловят волну? Хороший серфер всегда находится в правильном месте — на гребне волны. Вот мы примерно так же себя ведем. Мы технологическую волну стараемся оседлать и с нее не соскальзывать. Исходя из этой парадигмы, китайцы до хорошо работающего железа для распознавания еще не дошли. А у нас есть совершенно убийственное преимущество перед конкурентами — ну зачем же от него отказываться?

— В чем преимущество?

— В том,  что у нас есть отличный алгоритм и плюс куча «железа», камер  которые позволяют распознавать лица еще лучше.

Вокорд, распознавание лиц

Система распознавания лиц в потоке. Изображение предоставлено «Вокорд»

— Если вы постоянно куда-то движетесь, что-то разрабатываете, можете приоткрыть завесу — куда все идет, чего нового ждать в сфере распознавания лиц?

— Мы сейчас приоткроем завесу, и все туда кинутся. Давайте я расскажу про то, что не является большой тайной. В целом, все идет в сторону новых машинных и человеческих интерфейсов — собственно, я про это уже говорил. Всякие вещи, связанные с обслуживанием человека, становятся все более и более автоматическими. Появляются роботы-помощники, роботы-сиделки и прочие подобные вещи. Соответственно возникает вопрос, взаимодействия человека с машиной. Начиналось все с клавиатуры, потом появилась мышь, затем тач-экраны и прочее. Если вот про эту тенденцию думать, то в дальнейшем машина должна научиться понимать наши эмоции — то есть, голос, жесты, выражение лица. Вот вокруг этой истории — про эмоции — и будет все крутиться.

— Есть повод опасаться, что в конце концов у нас на каждом столбе будет висеть камера, и любые наши действия будут отслеживаться от начала до конца. Не самый уютный мир, даже если ты в принципе ничего не скрываешь.

— Ну, смотрите, в случаях крайней формы паранойи, один рецепт я уже назвал.

— Ведро на голову — прекрасный рецепт.

— Да, ведро на голову — это лучшая защита от систем распознавания. Но вообще, если подходить к этому вопросу здраво, то ваш мобильный телефон рассказывает про вас намного больше, чем любая камера, висящая на столбе. Анализируя данные с мобильного телефона можно про вас узнать вообще все. Более того, можно побудить вас что-то сделать или не делать. С этой точки зрения еще одна технология не сильно усугубляет общую ситуацию.

На обложке: технический директор компании «Вокорд» Алексей Кадейшвили. Фото предоставлено пресс-службой «Вокорд».  

Справка: «Вокорд» — российская инжиниринговая компания, работающая в области разработки и производства прикладных систем видео-анализа. Компания начала свою деятельность в 1999 году с разработки и внедрения систем аудиорегистрации. Сейчас компания специализируется на разработке систем видеоанализа и распознавания лиц. Аппаратно-программные комплексы, разработанные и произведенные «Вокорд», внедряются и работают в России и странах СНГ. «Вокорд» является портфельной компанией фондов с участием капитала РВК: «С-Групп Венчурс» и «Лидер-инновации», а также резидентом «Сколково».

Результаты тестирования на сайте NIST.

Результаты тестирования на сайте MegaFace.