Вокорд. Системы видеонаблюдения, распознавания лиц, фотофиксации нарушений ПДД, аудиорегистрации

Как выбирать систему распознавания лиц?

В настоящее время к системам биометрической идентификации по лицу большой интерес проявляют самые «продвинутые» гражданские отрасли, такие как банковский сектор и ритейл. Именно в этих отраслях традиционно высокий уровень применения ИТ-технологий, и именно в них состоялись первые внедрения. Биометрию применяют в системах контроля и управления доступом (СКУД), для учета рабочего времени сотрудников, предотвращения мошенничества при оформлении кредита, сбора маркетинговой аналитики по посетителям. В перспективе, возможно применение биометрии по лицу для подтверждения платежей, предупреждения несанкционированного снятия денежных средств через банкоматы и других задач.

Биометрические технологии обладают целым набором характеристик, которые являются предпосылками к дальнейшему росту количества проектов – ими удобно пользоваться, малое время срабатывания обеспечивает высокую пропускную способность, от человека требуется минимум действий для того, чтобы быть идентифицированным системой и их практически невозможно обмануть. В ближайшем будущем нас ожидает настоящий бум на системы биометрического распознавания. Готовых решений, которые предлагают компании-разработчики не так много. Попробуем разобраться, какие параметры имеют критическое значение для выбора систем биометрической идентификации по лицу.

Когда речь заходит о выборе алгоритма распознавания, на первый взгляд, кажется, что его сделать очень просто: надо брать алгоритм, у которого процент распознавания выше. Лучше всего, чтобы он был ближе к 100%. 

В реальности все не так просто. Первая сложность таится в изначально неправильной постановке задачи. Дело в том, что любой алгоритм распознавания, и распознавания лиц в том числе, характеризуется двумя параметрами: ошибкой ложного отказа (False Rejection Rate - FRR) и ошибкой ложного принятия (False Acceptance Rate). Когда говорят о точности распознавания, обычно имеют ввиду ошибку ложного отказа (FRR) – чем она меньше, тем выше точность распознавания, но при этом часто забывают про ложные срабатывания, которые определяются ошибкой ложного принятия (FAR). А тем временем этот параметр очень важен. 

В качестве примера рассмотрим систему распознавания лиц, установленную в метро. Допустим, у нас используется розыскная база на 10 000 лиц и допустим, что за час на станцию заходит 1000 человек. 

Это означает, что за час система будет делать 10000*1000 = 10 000 000 сравнений. Если у нас ошибка ложного принятия FAR=1%, это будет означать, что в час система дает 100 000 ложных тревог! Очевидно, что никакой оператор не сможет обработать такое количество срабатываний, и система будет не работоспособной. Если исходить из того, что оператор может обрабатывать в час 10 тревог, получается, что ошибка ложного принятия (FAR) должна быть не более 0,0001%. Таким образом, вероятность ложных срабатываний является существенным параметром, характеризующим работу системы.

Другой пример относится к системам контроля и управления доступом (СКУД). В этом случае ошибка ложного принятия (FAR) определяет вероятность проникновения постороннего человека в охраняемое помещение. Соответственно FAR в этой задаче – основной параметр, характеризующий работу системы. Значение вероятности правильного распознавания (за которое отвечает FRR) в данном случае влияет только на количество попыток, которое понадобится для распознавания человека, имеющего доступ.

Напоследок, пример, в котором значение FAR действительно не имеет значения. Допустим, у вас есть видеозапись, на которой запечатлен преступник, и вам его нужно найти в имеющейся базе уголовников. Вы не ограничены во времени поиска вам просто нужно чтобы система отсортировала вашу базу в порядке убывания степени похожести. Здесь вам важно чтобы FRR был минимальным, а значение FAR уже не так важно. 

Изменяя настройку алгоритма распознавания (обычно эта настройка называется порог или чувствительность), вы можете менять величину этих ошибок, но при этом всегда действует непреложное правило: уменьшение FAR приводит к росту FRR и наоборот, уменьшение FRR приводит к росту FAR. Таким образом любой алгоритм распознавания характеризуется не одним значением, а целой кривой, показывающей зависимость FRR от FAR. Типичный вид таких кривых представлен на графике ниже.

Это самый простой случай с точки зрения выбора, т.к. во всем диапазоне значений FAR у зеленой кривой FRR ниже и значит, этот алгоритм предпочтителен.

Кривые алгоритма распознавания

На следующем графике представлен более сложный случай. Здесь кривые пересекаются и выбор алгоритма уже будет зависеть от постановки задачи. Для задач, где требуется маленький FAR предпочтителен алгоритм, дающий зеленую кривую, в для задач, где FAR не так важен, но нужно минимизировать FRR, предпочтительна красная кривая.

Кривые алгоритмов распознавания

Но и это еще не все. Когда вы смотрите на кривые нужно обязательно задаться вопросом, откуда они взялись. Кривая получается в результате обработки какой-либо размеченной базы лиц. Разметка состоит в том, что заранее известно какие фотографии принадлежат одному и тому же человеку. В зависимости от того по какой базе построена кривая FAR/FRR, ее вид может сильно меняться. Например, в банковской сфере как правило имеют дело с фронтальными снимками, в то время как в транспортной безопасности лица часто бывают повернуты в разные стороны. Соответственно алгоритм, показывающий хорошие результаты на банковских базах, может показать очень посредственные результаты на не фронтальных снимках. Поэтому при сравнении кривых нужно постараться выбрать базу по которой построены кривые так, чтобы она была максимально близка к тем условиям, в которых будет эксплуатироваться система. Всегда необходимо помнить о быстродействии. Жизнь устроена так, что как правило за высокую точность приходится платить снижением быстродействия. Очень часто в различных тестах первые места занимают «академические» алгоритмы, которые работают так медленно, что не могут быть использованы в большинстве реальных задач.

Напоследок небольшой комментарий по поводу различных тестов. Разницы в тестах в сотые доли процентов. Как правило такая разница является признаком не репрезентативности теста. Это значит, что в тесте использовалось слишком мало изображений и/или они были недостаточно разнообразны. Поэтому столкнувшись с такой ситуацией надо просто искать результаты других тестов.

Нейросетевой алгоритм распознания лиц, разработанный специалистами нашей компании, неоднократно признавался лучшим в мире по результатам независимого конкурса MegaFace. Это самый репрезентативный конкурс в индустрии распознавания лиц на сегодняшний день. На этой онлайн площадке алгоритмы распознавания лиц мировых разработчиков и производителей оцениваются на точность.

Однако, возможностей одного только нейросетевого алгоритма, даже самого лучшего, недостаточно для того, чтобы система биометрической идентификации лиц выполняла сверхсложные задачи некооперативного распознавания. Чем лучше качество изображения, которое дается алгоритму для распознавания, тем более высокий процент достоверности мы получаем. В большинстве случаев либо поставляется программная составляющая, либо аппаратная, каждая из которых имеет хорошие показатели в своей области. В любом случае, для выполнения конкретных задач необходимо комплектовать систему обеими составляющими, одно без другого работать не будет.

Чтобы улучшить качество изображения наша компания, например, разработала специализированную камеру, которая обладает крайне высокой чувствительностью. У нее есть уникальная функция выделения лица непосредственно в камере. Это очень важно при построении больших систем. Реализуя эту функциональность в камере, мы делаем систему, которая, во-первых, дает очень высокое качество изображения благодаря специально подобранным характеристикам камеры, матрицы, оптики и прочим, чтобы обеспечить высокое качество изображения. Во-вторых, часть функциональности, которую должна выполнять система распознавания, мы уже реализуем в камере, тем самым разгружая сервера, которые должны обрабатывать данные. И в-третьих, мы существенно уменьшаем поток данных, который идет от камеры к серверу, потому что из кадра вырезается и передается только лицо человека.

Таким образом, наша компания предлагает заказчику не только программное решение, способное работать с любыми видеокамерами, но и специализированные камеры, которые позволяют существенно улучшить распознавание лиц особенно при больших потоках людей.

Особенность нашего нейросетевого алгоритма заключается в том, что мы можем «обучать» его под конкретные задачи заказчика. Важно, что благодаря такому подходу мы сможем добиться ещё более высокой точности распознавания (хотя и сейчас она доходит до 98%).

Наши системы некооперативного биометрического распознавания лиц успешно применяются в обеспечении превентивной безопасности стратегических и спортивных объектов, для получения маркетинговой аналитики в ритейле и других задач. На данный момент альтернативы этому нашему предложению на рынке не представлено. Здесь наши технологии и продукты – одни из лучших в мире, и применяются они в самом сложном сегменте: некооперативном распознавании.


Добавить комментарий

CAPTCHA