Распознавание лиц
Задачу оптимального поиска и идентификации слабоконтрастного объекта, каким по праву считается человеческое лицо, на основе систем кибернетического зрения можно рассматривать как в свете классической проблемы восприятия, так и в свете новых подходов. В данной статье речь пойдет о некоторых аспектах принципа динамического распознавания.
Прежде всего рассмотрим крайне интересные психофизические аспекты восприятия лица, в частности, вопрос о том, а как вообще человек воспринимает или распознает лицо.
Здесь нам помогут классические эксперименты А.Л.Ярбуса, основная особенность которых – независимость решения вопроса о роли движений глаз в зрительном восприятии от решения вопроса о регуляции самих движений глаз и их детерминации. Известно, что движения глаза представляют собой крайне сложную картину его активности и состоят, как минимум, из нескольких форм движений: нистагмы; отдельные саккады; инверсионные нистагмы; синусоидальные колебания низкой частоты (0,25-0,8 Гц, М=0,45 Гц) и большой амплитуды (до 50-60°; М=39,2°, б=2,9); медленные апериодические повороты глаз и другие формы движения, которые при произвольной смене объекта фиксации выражены наиболее ярко.
Формы движений глаз ориентированы вдоль оси инверсии ретинального образа, а порядок чередования типов глазодвигательной активности выглядит случайным. Причем перемещение изображения играет огромную роль в сенсорной функции зрительной системы. Если изображение на сетчатке тем или иным способом стабилизировано, видимый образ бледнеет и исчезает. Причины этого еще до конца не выяснены. Однако оказывается, что через некоторое время человек снова начинает видеть целое или отдельные части стабилизированного изображения. При длительном наблюдении весь образ или его фрагменты поочередно то угасают, то появляются вновь. Такая фрагментация образа (поочередное угасание и восстановление его отдельных частей) зависит от характера и содержания изображения (рис.1).
Рис. 1. Стабилизированные образы обычно угасают. |
В известной мере эти наблюдения подкрепляют теорию нейронных ансамблей, согласно которой для реализации способности к восприятию необходим опыт: тот или иной образ воспринимается в результате комбинаций отдельных следов в мозге, образовавшихся там ранее усвоенным элементам. Эти данные согласуются и с другими, казалось бы, противоположными теориями восприятия (например, теория Гештальта), согласно которым образ сразу, без всякого предварительного опыта воспринимается как целое, без какого-либо синтеза из отдельных частей, благодаря способности воспринимать «форму», «целостность» и «организацию».
Из этого и других экспериментальных данных следует важный вывод: при восприятии изображения на первый план выступает независимое поведение отдельных частей фигуры, т.е. выделение групп структурных элементов или организованных структур.
Итак, движения глаз приводят к дестабилизации изображения на сетчатке. Однако мы, тем не менее, воспринимаем изображение стабильным, постоянным, несмотря на движение глаз, тела и рассматриваемых объектов. В том, как это реализуется мозгом, состоит так называемая проблема пространственной константности зрительного восприятия, которая разделяется на две: проблема константности, стабильности зрительного поля и проблема инвариантного восприятия объектов.
Пространственная константность восприятия формируется в результате специальной деятельности зрительной системы, которая может подразделяться на пять основных этапов:
-
формирование сетчатых изображений;
-
локальный анализ возбуждения фоторецепторного слоя (рецепторный анализ);
-
непредметные механизмы инвариантности;
-
инвариантный синтез образа объекта;
-
анализ предметного окружения (прецепторный анализ).
Основная роль движения глаз состоит в перемещении оси зрения так, чтобы изображение пристально рассматриваемого объекта (или части объекта) всегда оказывалось в центральной части сетчатки, в зоне наилучшего зрения (фовеа). Именно в этой зоне имеется наибольшая плотность цветочувствительных рецепторов (колбочек). Здесь же располагаются рецептивные поля тонических корковых нейронов, анализирующих форму и т.п.
Рис. 2. Запись движения глаза при свободном рассматривании фотографии |
Один и тот же объект сначала обнаруживается, первично обрабатывается периферией с передачей полученной информации в мозг по «быстрому» каналу, а затем, после скачка, он исследуется более детально (если это необходимо) путем размещения изображения в зоне фовеа. Детальная информация в этом случае передается в мозг уже по «медленному» каналу. При фиксации какого-либо участка изображения зрительной системой обрабатывается не только этот участок (проецирующийся на фовеа), но и получаемая с периферии информация, необходимая для расчета следующего скачка.
Тем не менее данный процесс не столь очевиден. Дело в том, что как легко видеть из рис. 2, глаз фиксирует основные фрагменты слабоконтрастного изображения, которые обычно рассматриваются как информативные признаки описания изображения и которые в дальнейшем используются в формальных логических утверждениях.
Методы автоматического распознавания лиц
Задача идентификации и распознавания лиц – это одна из первых практических задач, которая стимулировала становление и развитие теории распознавания и идентификации объектов. Существует девять категорий объектов, которые соответствуют гностическим областям и вызывают зрительные образы:
-
объекты, которыми можно манипулировать (чашка, ключи, часы и т.д.);
-
объекты, которыми можно частично манипулировать (автомобили, материалы и т.д.);
-
объекты не манипулируемые (деревья, здания и т.д.);
-
лица;
-
выражения лиц;
-
живые существа (животные, фигура человека);
-
печатные знаки (буквы, символы, знаки);
-
рукописные изображения;
-
характеристики и расположение источников света (луна, солнце).
Интерес к процедурам, лежащим в основе процесса узнавания и распознавания лиц, всегда был значительным, особенно в связи с возрастающими практическими потребностями: охранные системы, верификация, криминалистическая экспертиза, телеконференции и т.д. Несмотря на ясность того житейского факта, что человек хорошо идентифицирует лица людей, совсем не очевидно, как научить ЭВМ проводить эту процедуру, в том числе как декодировать и хранить цифровые изображения лиц. Еще менее ясными являются оценки схожести лиц, включая их комплексную обработку. Можно выделить несколько направлений исследований проблемы распознавания лиц:
-
нейропсихологические модели;
-
нейрофизиологические модели;
-
информационно – процессуальные модели;
-
компьютерные модели распознавания.
Проблема распознавания лиц рассматривалась еще на ранних стадиях компьютерного зрения. Ряд компаний на протяжении более 40 лет активно разрабатывают автоматизированные, а сейчас и автоматические системы распознавания человеческих лиц: Smith & Wesson (система ASID – Automated Suspect Identification System); ImageWare (система FaceID); Imagis, Epic Solutions, Spillman, Miros (система Trueface); Vissage Technology (система Vissage Gallery); Visionics (система FaceIt).
Для решения задачи распознавания лиц были предложены различные методики, среди которых можно выделить подходы, основанные на нейронных сетях, на разложении Карунена – Лоэва, на алгебраических моментах, линиях одинаковой интенсивности, эластичных (деформируемые) эталонах сравнения. В разработках алгоритмов распознавания особые усилия направлены на автоматическое выделение элементов лица (глаза, нос, рот, подбородок и др.) на его различных изображениях: фас, профиль и произвольный ракурс. Далее эти геометрические характеристики используются в решении задачи распознавания. Типичным при описании этих подходов является отсутствие сравнения на статистически значимой базе данных лиц.
Можно выделить два способа распознавания лиц:
-
сравнение типа соответствия между стимулами один против одного;
-
сравнение между накопленным, репрезентативным рядом лиц.
Геометрическое сравнение, основано на определении элементов лица – ЭЛ: глаза, нос, рот, подбородок и др. Лицо может быть распознано, даже когда индивидуальные ЭЛ видны недостаточно. Идея подхода заключается в нахождении относительного положения и собственных характеристик отдельных ЭЛ. Было показано, что если даже ЭЛ извлекаются вручную, то компьютерное распознавание дает очень хорошие результаты.
Эталонное сравнение построено на идее, что изображение, представленно в виде массива байтов – величин интенсивности, сравнивается в подходящей метрике с эталоном – целым лицом. Существуют несколько путей подготовки эталонов и их представления. Несколько эталонов используются для распознавания с разных ракурсов.
Заслуживает внимания подход, когда лицо представляется в виде набора малых различных эталонов [R.J.Baron]. Предпочтительным и более комплексным подходом является путь в использовании одного эталона совместно с точной априорной моделью, которая позволяет оценить трансформацию основного лица, при изменении ракурса наблюдения. Деформируемая модель затем используется в построении метрики сравнения эталонных лиц. Данная идея является основой методики деформируемых эталонов [Bruce V.].
Схема эталонного сравнения в работе [Bruce V.], достаточно сильно модифицирована, чтобы просто называть ее корреляционно – экстремальной. Она использует нормализацию изображения, которое переводит его в карту величин градиентов и является свободной от карты краев. Одним из успешных находок является использование нескольких разрешений и малых по размерам эталонов для глаз, рта и носа. На этих подходах построены детекторы элементов лица. Важно отметить, что следующий шаг является конструктивным: сначала детектировать глаза (путем эталонного сравнения), потом автоматически нормализовать изображение по масштабу и ориентации. Можно заметить, что такой подход содержит элементы распознавания на основе эталона всего лица: ЭЛ (глаза) используются для нормализации изображения, и эталонное сравнение проводится раздельно по отдельным характерным чертам лица (глаза, нос, рот). Однако как показали эксперименты, успешнее всего распознавание лица происходит на архитектуре, комбинирующей подход распознавания всего лица с подходом на основе эталонного сравнения его элементов.
Следует также рассмотреть схему распознавания, основанную на К-L декомпозиции, которая аналогична системе распознавания, предложенной в работе [M.Kirby и L.Sirovich]. Отметим, что поскольку объекты распознавания в К-L декомпозиции представляются в виде линейной суммы базисных эталонов, то алгоритм распознавания не может дать лучше результата, чем корреляционный. Однако на этом пути можно значительно уменьшить вычислительные затраты, сравнимые со схемами распознавания на основе геометрических характеристик ЭЛ. Так Ellis H.D. показал, что снижение вычислительных затрат при том же уровне качества распознавания достигает 96%. Аналогичный алгоритм Т.Poggio работает лучше чем алгоритм R.J.Baron, поскольку использует более малые эталоны, что устойчивее к дисторсии изображения.
Представляет интерес схема распознавания на нейронных сетях. В частности, использование сети гипербазисных функций (ГБФ) в синтезировании вектора признаков ЭЛ для распознавания 3D объектов с произвольного ракурса [T. Poggio]. В этом случае входами сети являются параметры ЭЛ (в том числе их позиция на изображении). ГиперБФ-сеть имеет реально входы как амплитуды градиентов для каждого пикселя и как центры соответствующих эталонов (различные центры при различных сдвигах), что напоминает описанную ранее схему сравнения эталонов ЭЛ. Это может соответствовать линейной классификации на гауссовских функциях корреляционных коэффициентов взамен просто метода максимума на коэффициентах корреляции.
Вопрос о зависимости результатов распознавания от ракурса съемки можно решать несколькими путями. Если для каждого человека имеются изображения, снятые с разных ракурсов, то можно использовать те же схемы распознавания, за счет увеличения вычислительных затрат. Использование ГБФ – классификации с возможностью интерполяции между различными точками проекций достаточно рискованно. Однако в реальности, тем не менее, может быть только одно фронтальное изображение лица, доступное для генерации эталона. Очевидно, что одно изображение 3D – объекта (без теней) не содержит достаточной информации. Если, тем не менее, объект принадлежит классу сходных объектов (прототипов), для которых различные точки проекций известны, то возможно разумная экстраполяция и можно предложить корректную проекцию для данного объекта только по одной 2D проекции. Люди определенно способны распознавать лица, повернутые на 20-300 относительно фронтальной проекции. Возможно, они просто используют свои полученные данные о структуре типичного лица. Аналитически точное решение этой задачи я предложил в 1997 г.
Другим вариантом решения этой проблемы является задача использования 3D моделей лица, для поддержки распознавания на не фронтальных изображениях лиц, [A.J.Goldstein]. Как указывает R.Brunelli, возможны постановки задач и их решения, включая отработки на экспертной БД, связанные с получением других проекций лица, используя знания о проекциях других типичных объектов этого класса.
Для различных контуров ЭЛ используются разные методы их извлечения на исходном портрете. Фигуры глаз и рта имеют устойчивые геометрические формы, поэтому они извлекаются в терминах модели деформируемого эталона. Другие элементы лица, такие как брови, нос и контур лица настолько изменчивы, что для их обнаружения применяется модель активного контура, которая устойчиво обнаруживает подобные объекты. На рис.3 показаны все элементы лица, которые используются при портретной экспертизе, и которые крайне желательно идентифицировать при автоматическом распознавании лица, что обеспечивает легитимность метода.
Рис. 3. Схема элементов лица при портретной экспертизе |
Модель деформируемого эталона. Деформируемые эталоны определяются параметрами, задаваемыми априорными знаниями об ожидаемой форме ЭЛ и которые определяются численно в процессе обучения при контурном дешифрировании.
Эталоны достаточно гибки при изменении их размеров и других задающих параметров, при этом их можно числено сравнивать, а полученные значения параметров можно использовать для описания конкретного ЭЛ. Деформируемые эталоны взаимодействуют с текущим цифровым изображением в динамическом режиме. Энергетическая функция определяется набором компонентов, которые притягивают эталон к изображению ЭЛ на основе характеристик графиков срезов интенсивности, таких как максимумы и минимумы, краев и само значение интенсивности. Минимум энергетической функции соответствует лучшему выбору для данного изображения. Обычно деформируемые эталоны используют для обнаружения глаз и рта.
До начала поиска ЭЛ необходимо задать яркостные границы, которые можно было бы использовать для идентификации ЭЛ от других фрагментов лица и грубый контур каждого ЭЛ как начальный контур для последующих итераций. Обычно используют масштабный пространственный фильтр (МПФ), для вычисления гистограммы и определения нулевых яркостей на различных масштабах, и метод грубой оценки контура (МГОК) для грубого определения положения контура объекта. Исключением является только грубый контур лица, который меньше чем его точный контур. Более подробно процедуры МПФ и МГОК обсуждаются в работе [F.W.Young].
После того как получен грубый контур, происходит нахождение физического контура на каждом ЭЛ. Общепринятые детекторы краев не позволяют точно определить контуры глаз или рта, исходя только из локального набора краев. Дело в том, что обычные детекторы краев не позволяют синтезировать локальную информацию в целостный глобальный контур объекта. Поэтому проектирование детектора глаза основано на методе деформируемого эталона, который задается набором параметров, определяемым априорной информацией об ожидаемой форме и используемым в процессе обучения. Эти эталоны достаточно гибки и меняют свои размеры и форму путем вариации их значений параметров, так как эталон взаимодействует с изображением. Полученные значения величин параметров описания эталона используются для описания конкретного ЭЛ.
Рис. 4. Эластичный граф, покрывающий изображение лица |
Модель активного контура (модель змеи). Активный контур определяется как энергетически минимальный сплайн, обучаемый путем введения внешних притягивающих вынужденных потенциалов и влиянием потенциалов изображения, которые натягивают его на ЭЛ, на основе характеристик линий и краев. Змеи фиксируются на ближайших краях и более аккуратно и точно локализуясь в последующем. Поскольку змея есть энергетически минимальный сплайн (ЭМС), необходимо исследовать потенциальные функции, которые включают в себя локальные минимумы, а также альтернативные решения на более высоком уровне анализа процесса. Выбор необходимого решения будет достаточным, если выбрать путь добавления членов ряда, которые будут продвигать ЭМС по изображению для получения необходимого решения. Метод активных контуров (метод змей) обычно применяют для обнаружения и определения элементов лица, как брови, нос, овал лица. Формы бровей, ноздрей и овала лица, в отличие от глаз и рта, значительно различаются у разных людей и их контуры не могут быть определены с помощью деформируемых эталонов.
Для этих целей наиболее эффективной оказывается модель активного контура (МАК). Активный контур (змея) есть энергетически минимальный сплайн, направляемый активными внешними силами и влиянием сил собственно изображением, которые натягивают змею на признаки ЭЛ. В качестве признаков здесь принимаются элементарные признаки изображения: линии и края. Начальная змея локализуется на ближайших краях, а затем точно определяется ее локализация и форма. Определение энергетической функция змеи можно найти в работе [D.Tezopoulos].
Если сравнить два подхода: идентификацию лиц на основе вектора признаков, представляющих собой геометрические характеристики ЭЛ и идентификацию лиц на основе сравнения полутоновых эталонов, то видно, что корреляционно – экстремальный подход на базе полутоновых эталонов работает эффективнее. Этот подход не требует специальных априорных знаний о структуре ЭЛ. В тоже время, методика, основанная на характеристиках ЭЛ, дает значительную скорость распознавания, не требует специализированного программно-аппаратного обеспечения и больших объемов памяти.
Что представляет собой технология распознавания по рисунку лица
Системы распознавания по форме лица являются встроенными компьютерными программами, которые анализируют изображения лиц людей в целях их идентификации. Программа берет изображение лица и измеряет такие его характеристики, как расстояние между глазами, длина носа, угол челюсти, на основе чего создается уникальный файл, который называется "шаблон". Используя шаблоны, программа сравнивает данное изображение с другими изображениями, а затем оценивает, насколько изображения являются похожими друг на друга. Обычными источниками изображений для использования при идентификации по лицу являются сигналы от телекамер и ранее полученные фотографии, наподобие тех, что хранятся в базе данных водительских удостоверений.
Как технология распознавания по лицу используется в настоящее время
В отличие от других биометрических систем, распознавание по рисунку лица может использоваться для общего видеонаблюдения, обычно в сочетании с телекамерами, установленными в общественных местах. В США идентификация по лицу применяется в настоящий момент в двух основных областях. Во-первых, в аэропортах, где использование таких систем было реализовано после террористических актов 11 сентября.
Рис. 5. Идентификационные точки и расстояния: а) используемые при криминалистической фотоэкспертизе; б) наиболее часто применяемые при построении автоматизированных систем идентификации. |
Второй областью применения данной технологии стали крупные спортивные мероприятия, например, Кубок США по американскому футболу, проводившийся в Тамре, когда фотографии всех посетителей были отсняты во время их входа на стадион через турникеты и затем сопоставлены с информацией какой-то секретной базы данных. Администрация не стала сообщать, сведения о ком содержала эта база данных, но известно, что компьютерная программа пометила 19 человек. Впоследствии полицейские сообщили, что часть отметок являлась ложной тревогой, а в целом никто из помеченных системой людей был не более, чем мелким преступником, вроде билетного спекулянта.
Насколько хорошо срабатывают устройства идентификации по лицу?
Компьютеры способны совершать все более поразительные вещи, но, тем не менее, они не являются волшебным средством. Если сами люди часто не могут узнать субъекта, изображенного на фотографии, то какой надежности можно ожидать от компьютера? Человеческий мозг в высшей степени приспособлен к распознаванию лиц, к примеру, маленькие дети запоминают лица гораздо лучше, чем любые другие формы. Помимо всего прочего, человеческий мозг обладает гораздо большей, чем компьютеры, способностью компенсации изменений освещенности и угла зрения. Дело в том, что лица имеют чрезвычайно сложный рисунок и часто отличаются друг от друга только неуловимыми деталями, поэтому нередко как человеку, так и компьютеру бывает невозможно сопоставлять изображения при наличии разницы в освещении, угла обзора камеры, не говоря уже изменения внешнего вида самого лица.
Поэтому неудивительно, что проведенные правительством США исследования программных средств распознавания по лицу установили высокий процент ложного распознавания невинных людей и идентификации их с фотографиями других лиц, находящихся в базе данных, а также неспособность этих средств распознать настоящих преступников, даже если их фото имеются в наличии в базе данных. Проблема заключается еще и в том, что в отличие от отпечатков пальцев или радужной оболочки, наши лица меняются с течением времени. Системы распознавания легко ошибаются из-за изменения прически, растительности на лице или веса тела, из-за применения человеком каких-то простейших средств изменения внешности, а также из-за проявления последствий старения.
К примеру, исследование, проведенное Национальным институтом стандартов и технологий (NIST), установило, что уровень ложной идентификации или нераспознавания субъектов, чьи фотографии были сделаны всего 18 месяцев назад, равен 43%. При этом фотографии, использованные в исследовании, были отсняты в идеальных условиях, что весьма важно, так как программы распознавания по лицу очень плохо справляются с оценкой изменения освещенности или угла наклона камеры. "Трудны" для них и фотографии с оживленным фоном. Исследование NIST также пришло к заключению, что изменение угла наклона камеры на 45 градусов делает такие программы практически бесполезными. Наилучшим образом технология распознавания лица срабатывает в строго контролируемых условиях, когда субъект смотрит прямо в камеру при яркой освещенности. Правда, другое исследование, проведенное Министерством обороны США, обнаружило высокий уровень ложной идентификации даже при таких идеальных условиях. Таким образом, от снимков с зернистым изображением или старых фотографий, типа тех, которые хранятся в личных делах, будет очень мало пользы.
Кроме этого, поднимались вопросы о том, насколько хорошо срабатывают программы в отношении темнокожих людей, черты лица которых могут не различаться объективами, оптимизированными для съемки людей со светлой кожей.
В распоряжении правительства находится огромная, готовая к использованию база данных изображений лиц граждан - это фотографии водительских удостоверений. По закону, правительство не может продать эти фотографии частным компаниям, однако не предусмотрено никаких ограничений для использования этих снимков самим правительством для целей видеонаблюдения и идентификации. Федеральное правительство США приступило к финансированию экспериментальных проектов по использованию фотографий с водительских удостоверений в базах данных систем биометрической идентификации.
Неприкосновенность частной жизни
Одна из потенциальных угроз заключается в том факте, что распознавание по рисунку лица в сочетании со все более широким применением видеонаблюдения со временем будет проникать во все новые и новые области. После установки подобного рода систем наблюдения их применение редко ограничивается целями, для которых они были предназначены изначально. Возникают все новые способы их использования, а организации и операторы таких систем часто не могут устоять от соблазна расширить с их помощью свою власть и влияние, нанося тем самым еще один удар по правам граждан. В конечном счете, угроза состоит в том, что широко применяемое видеонаблюдение изменит характер, восприятие и качество повседневной жизни граждан.
Другой угрозой является возможность злоупотребления. Применение идентификации по лицу в местах общественного пользования, таких как аэропорты, зависит от широкого внедрения видеомониторинга - проникающей формы наблюдения, при помощи которой личный и частный характер поведения может регистрироваться графическими средствами. Опыт показывает, что видеонаблюдением будут злоупотреблять. Системы видеокамер управляются обычными людьми, которые привносят на место своей работы все свои имеющиеся предубеждения и предвзятость. Например, в Великобритании, где очень широко используются камеры видеонаблюдения в публичных местах, было обнаружено, что операторы неоправданно сосредотачивают внимание на темнокожих, операторы-мужчины часто склонны "подглядывать" за женщинами.
Хотя полицейское видеонаблюдение не так широко распространено в США, расследование, проведенное газетой Detroit Free Press показало, какие виды злоупотреблений могут иметь место. Проверяя, как использовалась база данных, доступная правоохранительным органам Мичигана, журналисты газеты обнаружили, что полицейские применяли ее для того, чтобы помочь своим друзьям или даже коллегам по работе следить за женщинами, угрожать водителям, отслеживать супругов, живущих отдельно, и даже запугивать политических оппонентов. Неизбежная истина заключается в том, что чем больше людей имеют доступ к базе данных, тем больше вероятность, что этой базой данных будут злоупотреблять.
Распознавание по лицу особенно подвержено злоупотреблениям, так как данная технология может использоваться пассивным образом, т.е. для ее применения не требуется согласие или участие субъекта, за которым ведется наблюдение. Камеру возможно установить в любом месте и "натренировать" ее на людей. Современные телекамеры легко обеспечивают просмотр лиц с расстояния более 90 м. Люди ведут себя по-другому, если знают, что за ними наблюдают, и имеют право знать о том, что их движения и их поведение отслеживаются.
Источники: daily.sec.ru, bre.ru
Посмотреть каталог систем распознавания по лицу >>
Посмотреть каталог видеокамер >>
Посмотреть каталог систем распознавания автомобильных номеров >>
Посмотреть все товары категории видеонаблюдение >>
Посмотреть каталог биометрических решений >>
Посмотреть статью по видеонаблюдению >>
Посмотреть статью Наука скрытого наблюдения >>
Посмотреть статью Обнаружение скрытых видеокамер >>