Локализация и отслеживание лиц в видео-потоке на основании разреженного представления

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 23:47, 23 января 2018.
Video-Based Face Recognition and Face-Tracking using Sparse Representation Based Categorization
Learning surf cascade screen.jpg
Авторы Shruthi Nagendra, R.Baskaran and S.Abirami
Опубликован 2015 г.
Сайт [1]
Перевели Ekaterina SaraevaEkaterina Saraeva, Bauman Moscow State Technical University, IU-8, E-mail: katyasaraeva95@mail.ru
Год перевода 2018 г.
Скачать [2]
Аннотация. Система распознавания лиц используется для автоматической идентификации человека с изображения или источника видео. Задача распознавания выполняется путем получения черт лица из изображения лица субъекта. Основная цель распознавания лиц на основе видео состоит в том, чтобы идентифицировать известных личностей, используя большую базу статичных изображений лиц, и отсеивать незнакомые. Существующие методы используют вероятностные модели на кадровой основе для определения граней, которые являются вычислительно сложными при большом размере данных. Чтобы преодолеть этот недостаток, предложенный алгоритм упорядоченной разреженной классификации представлений (RSRC) использует подход к минимизации вместо обычного метода минимизации и получает один вектор коэффициентов для всех кадроов. Поскольку используется минимизация второго порядка, достигается большее количество коэффициентов разреженности и уменьшается остаточная погрешность по кадрам. Предлагаемый алгоритм сравнивается с существующими методами, и экспериментальные результаты доказывают, что из-за минимальной ошибки достигнута наилучшая точность классификации и высокая достоверность.
Ключевые слова: распознавание лиц; минимизация; остаточная ошибка; и коэффициент разреженности.

Введение

В последние годы распознавание лиц стало предметом изучения в связи с усилением требований безопасности и увеличением требований к правоохранительным органам. Он используется для автоматического обнаружения человека на любых снимках, в том числе и видеокадрах. Он идентифицирует черты лица путем извлечения признаков из изображения лица субъекта и анализирует относительное положение, размер, форму глаз, носа, скул и челюсти обнаруженного человека. Эти полученные функции используются для поиска соответствующих совпадающих функций в других изображениях. Система распознавания лиц охватывает несколько сфер, таких как биометрические системы, иммиграционная проверка, электронное голосование, банковский домен и игровая индустрия.

Типичным подходом в распознавании лиц является поиск на основе видео [1].. Поисковая система должна возвращать все видеоролики, содержащие конкретных учасников, по запросу пользователя. Например, на YouTube, где список рассылки может быть недоступен, визуальный контент играет важную роль в успешном выполнении этой задачи. Но основным преимуществом является доступность аннотированных дорожек видео лица. Существующие методы распознавания лиц на видео склонны выполнять классификацию на кадровой основе [2], [3] и объединяют эти результаты с использованием соответствующей метрики. Использование способа минимизации таким образом является очень дорогостоящим с точки зрения использования вычислительных мощностей. Другими распространенными проблемами в системе распознавания лиц являются изменение освещения между изображениями, изменениями позы и условиями освещения.

Существующие алгоритмы распознавания на основе видео используют вероятностные модели [4] или обучение НС для отслеживания и идентификации лиц. Эти модели обнаруживают лица из видео и накладывают движение для получения гусеничных граней. Полученные гусеницы представлены в группе. Коэффициент разреженности группы мал из-за отсутствия одного вектора коэффициентов для всех гусеничных граней. Таким образом, более низкие значения разреженности приводят к более высокой скорости ошибочной классификации. В этой статье тон кожи используется как функция для отслеживания лица, поскольку он не имеет большого числа вариаций из-за изменений освещения. Чтобы получить более высокую разрешающую способность и точное предсказание, предложенный метод использует регулярный (регуляризированный) алгоритм SRC для вычисления для каждой тестовой дорожки и выполняет совместную оптимизацию по всем граням на дорожке одновременно с использованием подхода к минимизации.

Связанная работка

В последние годы было предложено много хорошо зарекомендовавших себя методов решения проблем распознавания лиц в различных областях. Существующие технологии распознавания видеокадров классифицируются на три категории: основанные на ключевых кадрах, основанные на временной модели и методы сопоставления изображений.

Методы, основанные на ключевом кадре, выполняют проверку на идентичность каждого ключевого кадра в дорожке лица, за которым следует вероятностное слияние или принятие решения большинством голосов, чтобы выбрать наилучшее соответствие. Kaihua Zhang [5] использует выбор ключевого кадра в базе данных со статичными изображениями, собранными из Интернета. Они изучают модель по этой базе, выделяя ключевые лица с помощью кластеризации. Эти кластерные центры сравниваются с тестовыми кадрами с использованием поиска ближайшего соседа, за которым следует вероятностное голосование для принятия окончательного решения о соответствии. В A. Yilmaz [6] двумерный вид изображения лица рассматривает как вектор, сканируя изображение в лексикографическом порядке, причем векторным размером является количество пикселей на изображении. В понимании алгоритма Eigen-face автора S. Li [7], все изображения лица состоят из отличительного лицевого подпространства. Это подпространство линейно и натянуто на собственные векторы. Но PCA не достигает точности с точки зрения идентификации, так как создание лицевого подпространства существенно не различает людей.

Методы, основанные на временной модели, изучают временную динамику лица на протяжении всего видеопотока. В этом методе Z. Kal [8] применяет скрытые марковские модели (HMM), которые используют учебную базу изображений, накладывая на нее информацию о движении для обучения HMM. Вероятно, он обобщает базу неподвижных изображений для сопоставления видео-видео. Обучение этих моделей является вычислительно сложным и долгим, особенно когда размер набора данных является большим. S. Oron [2] использует всю имеющуюся информацию, чтобы идентифицировать объект, а не только лицевую информацию. Он использует многообразие для известных символов, которые попадают во входной поток информации. В P. Viola и M. Jones [9] формулируют отслеживание как проблему распространения плотности вероятности, и алгоритм дает результаты проверки. Однако систематическая оценка алгоритмов распознавания не проводилась. Основная задача этого подхода - найти такую ​​область.

Методы сопоставления на основе снимка позволяют моделировать лицевую дорожку как набор изображений. C. Bao [10] использует LDML, где каждая лицевая дорожка моделируется в своем собственном подпространстве, из которого вычисляется расстояние между ними. Они полезны с чистыми данными, но методы очень чувствительны к вариативности, присущей трекам видеоизображений. LDML является вычислительно сложным и больше фокусируется на отношениях обучения в рамках данных, тогда как мы напрямую связываем тестовый трек с данными обучения. Ng [11] использует классификацию с разреженным представлением, в которой данное тестовое изображение может быть представлено линейной комбинацией изображений из большого набора лиц. Основная идея заключается в добавлении разреженности, поскольку трек тестового лица может быть восстановлен из поднабора обучающих граней того же класса. Прямая адаптация этого метода выполняла бы оценку на каждом кадре и объединяла бы результаты вероятностно. Однако минимизация хорошо известна, она является вычислительно сложной. Ограниченная оптимизация уменьшает вычисление до единственной минимизации по средней дорожке лица. Чтобы получить это, многие цветовые каналы и двоичные паттерны будут уменьшены.

Таким образом, проведя исследование по связанным понятиям, мы заключаем, что в методах, основанных на ключевых кадрах, для моделирования и тестирования данных не учитывается вектор с одним коэффициентом. Большинство алгоритмов распознавания лиц не учитывают отслеживаемые грани как группу из-за отсутствия корреляции между кадрами. Если бы были рассмотрены коррелирующие рамки, точность предсказания могла бы быть улучшена. Основная цель этой работы - использование вектора с одним набором особенностей для установления корреляции векторов и рамок и устранения ошибок.

Рисунок 1 - Система распознавания лиц на видео

Таким образом, цель настоящего документа • Идентифицировать людей на видеопотоке с использованием большой базы изображений неподвижных лиц. • Выполнять распознавание лиц и отслеживание лиц с использованием алгоритма отслеживания на основе гистограммы. • Решить регуляризованный алгоритм SRC с использованием вектора с одним коэффициентом для получения более подходящих разреженных решений и более высокой точности классификации. • Обнаружение известных личностей и отказ от неизвестных лиц.

Система распознавания лиц на видео

Распознавание и отслеживание лиц с использованием гистограмм

На рисунке 1 набор данных тестового видео используется для обнаружения лиц и отслеживания их по кадрам. После обнаружения лица он получает черты лица с использованием фильтров hog и Gabor. Фильтры используют параметры обнаружения и ориентации края, а также черты лица из изображений. Полученные характеристики имеют большие размеры [размеры 32, 272]. Эти размеры оптимизированы до размера 1536 для каждого вектора-функции с использованием PCA. Оптимизированные функции приведены в качестве тестового ввода для алгоритма. Возможности обучения доступны в базе статичных изображений. Исход этого алгоритма состоит в том, чтобы идентифицировать человека, представляющего интерес, с контрольной дорожки и распознать его, если они найдены на обучающих изображениях. В этой статье предложенный алгоритм обеспечивает лучшее прогнозирование и точность классификации при минимизации остаточной ошибки по кадрам. Предположение, сделанное в этом алгоритме, - все изображения с дорожки лица принадлежат одному и тому же человеку. Таким образом, можно ожидать высокой степени корреляции среди разреженных коэффициентов. Это предположение хорошо подходит для одного набора видеоданных лица. Из-за сходства между гранями в каждой дорожке из каждого кадра должен быть восстановлен почти такой же коэффициентный вектор. Следовательно, для всех кадров может использоваться один вектор коэффициентов, а остаточная ошибка квадрата по кадрам может быть минимизирована с использованием метода минимизации.

Для обнаружения лица, в видео, детектор объекта требуется для определения местоположения лица в раме Vision. Детектор Cascade Object - это функция в MATLAB, которая используется для обнаружения лиц. Детектор каскадных объектов использует алгоритм Виолы-Джонса как классификатор для обнаружения лица в видео. После обнаружения лица в одном кадре для определения граней в последовательных кадрах используется пошаговая функция поиска.

Для выполнения контроля наличия лица необходима функция для анализа различных движений лица в последовательных кадрах. В этом документе тон кожи вызывается как функция для отслеживания. Он используется, потому что он не меняется при перемещении объекта или при изменении фона или изменения освещения. Каскадный детектор лица объекта использует Vision. Гистограммный трекер для отслеживания лица в последовательных кадрах. На основе гистограммы трекер использует координаты глаз и нос, чтобы получить гистограмму значений пикселей. Когда местоположение лица известно трекеру помещает ограничивающий прямоугольник вокруг лица. Он определяет лицо, если он всегда находится в сцене, используя значение оценки. В этой статье значение оценки 0,4 используется как порог для обнаружения лиц. Если значение меньше 0,4, нам нужно снова найти лицо.

Получение ключевых особенностей, используя HOG и фильтр Габора

Фильтр Габора

В фильтре Габора размер входного изображения выбирается таким образом, чтобы результаты фильтра всегда были одинакового размера после подвыборки. Описание для вышеуказанного алгоритма выглядит следующим образом. Сначала загрузите все обучающие изображения и преобразуйте весь цветной канал RGB изображения в оттенки серого, чтобы получить один образец в каждом пикселе. Изображения в оттенках серого имеют только черные и белые цветовые каналы, где черный имеет высокую интенсивность информации, а белый цвет имеет наименьшее значение. Все изображения изменяются до размеров 160 * 160, чтобы получить одинаковое количество векторов признаков для всех изображений. Инициализируйте переменные, чтобы рассчитать значения обнаружения и поворота края. Вычислите частоту и симуляцию для получения вектора признаков. В канале наилучшего разрешения фильтры Габора извлекают тонкие структуры изображения небольшой области изображения. В уровнях более низкого разрешения грубые структуры изображения могут быть извлечены на больших участках.

Алгоритм фильтра Габора

HOG фильтр

Фильтры HOG используются в качестве дескриптора функции для извлечения функций из изображения. Дескриптор подсчитывает появление градиентной ориентации и величины в локализованных частях изображения. Сначала загрузите все обучающие изображения и преобразуйте цветные каналы RGB в изображения в оттенки серого, чтобы получить одно значение выборки в каждом пикселе. Изображения в оттенках серого имеют только черные и белые цветные каналы. Черный имеет информацию о высокой интенсивности, а белый цвет имеет наименьшее значение. Все изображения изменяются до размеров 160 * 160, чтобы получилось одинаковое количество векторов признаков для всех изображений. Выполните ориентацию binning ( суммирование зарядов с соседних N пикселов CCD матрицы. - прим. переводчика) для получения значений вращения. Каждый пиксель внутри ячейки передает взвешенное голосование за канал гистограммы на основе ориентации, основанной на значениях, найденных при вычислении градиента. Определите блоки дескриптора для выполнения нормализации и вычисления гистограммы и гистограммы конкатенации всех ячеек. В этой статье классификатор SVM используется для сопоставления данных с определенными категориями выходных данных.

HOG фильтр

Оптимизация фильтра с использованием PCA

Выделенные функции из фильтров Габора и HOG присутствуют в большом объеме. Таким образом, вычисление признаков в большом объеме приводит к избыточным функциям и снижает точность прогнозирования. Функциональные векторы [4], полученные с использованием PCA, преобразуют набор наблюдений возможных коррелированных переменных в набор значений линейно некоррелированных переменных. Ниже приведены шаги по оптимизации функций с помощью PCA.

Principal component analysis (PCA)

Метод, основанный на ключевых кадрах

Метод [7] ключевого кадра выполняет прогнозирование идентичности каждого ключевого кадра в дорожке лица, за которым следует вероятностное слияния или мажоритарного голосования для выбора наилучшего соответствия. Они изучают модель по словарю, изучая ключевые грани с помощью кластеризации. Эти кластерные центры сравниваются с тестовыми кадрами, используя поиск ближайшего соседа, за которым следует большинство вероятностного голосования, чтобы сделать окончательное предсказание.

Метод, основанный на ключевых кадрах

Алгоритм классификации разреженных представлений

В алгоритме SRC[12] учебная выборка предоставляется из набора изображений, а тестовая дорожка - из видеоданных. Необходимо инициализировать параметр веса разреженности λ. В этой статье значение λ задано как 0,001. Описание алгоритма выглядит следующим образом. Первоначально вектор обучающей выборки и выход контрольной стороны указаны как вход. Мы должны нормализовать векторы признаков на единицу длины для решения уравнения выпуклой оптимизации. После нормализации получим вектор минимального коэффициента для каждой дорожки в кадре. Когда векторы генерируются, вычисляем остатки для каждого класса и, используя индекс разреженности, оцениваем остаточное распределение для прогнозирования классов. Основным недостатком использования выпуклой оптимизации является использование минимального вектора коэффициентов для каждого кадра в контрольной дорожке. Вектор минимального коэффициента может иногда приводить к неправильным остаткам во время распределения, что может привести к ошибочной классификации. Еще один недостаток алгоритма SRC заключается в том, что оценка каждой граничной дорожки занимает в среднем 25 минут, что в итоге требует существенное количество времени.

Алгоритм SRC

Регуляризованный SRC с использованием подхода к минимизацииРегуляризованный SRC с использованием l 2 {\displaystyle l^{2}} подхода к минимизации

Регуляризованный алгоритм SRC представляет собой комбинацию пошагового метода и метода сопоставления набора изображений. Вход для гибридного (RSRC) алгоритма представляет собой набор обучающей выборки, заданный из набора изображений (public fig dataset) и контрольной дорожки (набор данных видеоряда),. Инициализировать параметр веса разреженности λ. В этой статье значение λ задается как 0,01. Контрольная грань задается как , где обозначает длину дорожки. - вектор коэффициентов, используемый во всех кадрах. Мера доверия определяет, насколько хорошо остатки распределены между классами. Описание алгоритма выглядит следующим образом. Первоначально в качестве входных данных задается вектор обучающей выборки и контрольная дорожка. Вычислиv среднее значение для каждой тестовой дорожки. Мы должны нормализовать векторы траектории на единицу длины для решения уравнения минимизации. Поскольку все кадры коррелированы, каждый кадр производит почти одинаковый коэффициент. Таким образом, для всех кадров в дорожке используется единичный вектор коэффициентов, вероятность ошибочной классификации значительно уменьшается. Когда векторы генерируются, мы вычисляем остатки для каждого класса, используя индекс разреженности, оценивая остаточное распределение для прогнозирования классов.

Алгоритм RSRC

Реализация и результаты

Используемый набор данных

Видеопоток

Набор данных для входного видеопотока был создан с использованием 101 видео-ролика из YouTube с года выпуска 2010 года, который содержал знаменитостей, присутствующих в дополненном наборе данных PublicFig + 10, который использовался в обучении. PubFig + 10 состоит из 34 522 изображений и набора данных движущихся лиц Face Trace, включающего 4 485 дорожек лиц, которые мы используем для проведения экспериментов по нескольким алгоритмам. Это позволяет тестировать более крупную идентификацию лица лица, а также способность каждого алгоритма отклонять неизвестные идентификаторы. В этой статье мы использовали 300 изображений из PubFig + 10 в качестве обучающих образцов и 61 видеоряд лиц в качестве тестовых образцов дорожки для оценки алгоритмов.

Используемые инструменты

MATLAB - это язык программирования с несколькими парадигмами четвертого поколения. Разработанный Math Works, MATLAB разрешает манипуляции с матрицами, построение функций и данных, реализацию алгоритмов, создание пользовательских интерфейсов и взаимодействие с программами, написанными на других языках, включая C, C ++, Java, Fortran и Python. Он используется для ряда приложений, включая обработку сигналов и связь, изображение и видео обработку, тестирование и измерения, финансовых и биологических вычислений. В этой статье была использована версия MATLAB 2014a.

Эмпирические результаты

Точность Точность определяется как отношение количества соответствующих записей, полученных к общему количеству нерелевантных и релевантных записей. , (1) где A - количество нерелевантных записей, C - количество возвращаемых записей. Вызов Вызов определяется как отношение количества полученных записей к общему количеству соответствующих записей в базе данных. , (2) где A - количество полученных релевантных записей, B - это количество релевантных записей, которые не были получены. Средняя точность Усреднение значений точности из ранговых позиций, в которых был получен соответствующий документ, и задание значений точности равным нулю для не полученных документов. , (3) Корректность В этой статье нам нужно определить, присутствует ли данный контрольный видеоряд в базе данных. Если он присутствует, распознается объект и соответствующий видеоряд, в котором объект был обнаружен. Корректность используется как статистическая мера того, насколько хорошо тест двоичной классификации правильно идентифицирует или исключает условие. , (4) где, TP-True positive - верные положительные решения, TN-True negative - верные отрицательные, FP-False positive - ложные положительные, FN-False negative - ложные отрицательные.

Оценка эффективности по модели SRC

Производительность для модели SRC оценивается с использованием точности и отзыва тестовых данных. Открытый набор данных fig состоит из 300 изображений, которые используются для обучения 61 видеорядов лиц из набора данных в качестве тестового потока в набор тестов. Функциональные векторы, полученные из тестовых изображений, используются для проверки наличия данной тестовой дорожки в базе неподвижных изображений. Если он присутствует, он распознает дорожку лица и отображает имя актера и соответствующее имя фильма, в котором он / она играет. Простое применение SRC к фрейму, по фрейму. Он вычисляет SRC на каждом кадре, затрачивая приблизительно 25 минут на видеоряд, что занимает много времени.. Он получает 58,3% средней точности и 23,2% вызова. С точки зрения синхронизации, этапы предварительной обработки отслеживания выполняются одинаково для SRC со скоростью 20 кадров в секунду, а функция извлечения работает со скоростью 30 кадров в секунду. Для идентификации SRC на одном кадре занимает 100 миллисекунд.

Оценка эффективности на основе регулярной модели SRC (RSRC)

Рисунок 2 - Точность и вызов ключевых кадров, SRC и регулярный SRC.

Производительность для упорядоченной модели SRC (RSRC) оценивается с использованием точности и отзыва тестовых данных. Набор данных состоит из 300 изображений, которые используются для обучения, 61 видеоряд лиц из набора данных в качестве тестового трека в тестовом наборе. Функциональные векторы, полученные из тестовых изображений, используются для проверки наличия данной тестовой дорожки в базе статичных изображений. Если объект присутствует, он распознает дорожку лица и отображает имя актера и соответствующее имя фильма, в котором он / она играет. Регулярный SRC представляет собой комбинацию метода ключевого кадра и метода сопоставления изображений. Поскольку вектор одиночных коэффициентов используется для всех кадров, остаточная ошибка по кадрам минимизируется. Регулярный SRC делает вычисления одного видеопотока примерно за 1,5 минуты. Он получает среднюю точность 65,56% и вызовы 30,15%. С точки зрения синхронизации, этапы предварительной обработки отслеживания выполняются одинаково для регуляризованного SRC со скоростью 20 кадров в секунду, а функция извлечения работает со скоростью 30 кадров в секунду. Для идентификации SRC на одном кадре занимает 20 миллисекунд за кадр. Рисунок 2 показывает, что экспериментальные результаты доказывают, что Регуляризованный SRC обеспечивает лучшую классификацию, чем алгоритм SRC из-за использования одного вектора коэффициента. Сравнение с другими существующими методами приведено на рисунке 3.

Сравнение различных методов
Таблица 1 - Точность анализа видеопотока для различных алгоритмов

Заключение и будущая работа

В этом документе представлена ​​полностью автоматическая система для распознавания лица на видеоряде, отслеживания и идентификации лиц из статичных изображений базы и видео для распознавания. Предлагается новый алгоритм Регуляризованный SRC (RSRC), который использует один вектор коэффициентов во всех кадрах, которые коррелированы в отличие от других существующих алгоритмов и, следовательно, выполняет совместную оптимизацию, используя все доступные данные изображения для распознавания лиц с видео. Кроме того, предлагаемый метод превосходит существующие методы отклонения неизвестных идентификаторов, превосходящих среднюю точность на 7%. В будущем может быть рассмотрен эффект выбора ключевых кадров или менее шумных кадров, область передачи домена для передачи знаний из домена неподвижного изображения в видео.
  1. Lianyang Ma, Xiaokang Yang and Dacheng Tao, Senior Member IEEE Person Reidentification over Camera Networks using Multi – Task Distance Metric Learning, IEEE Transactions on Image Processing, vol. 23, no. 8, August (2014)
  2. 2,0 2,1 S. Oron, A. Bar-Hillel, D. Levi and S. Avidan, Locally Order Less Tracking, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 1940–1947, January (2012)
  3. A. Weingessel and K. Hornik, Local PCA Algorithms, IEEE Transactions in Neural Networks, vol. 11, no. 6, pp. 1242–1250, November (2000).
  4. 4,0 4,1 Zhaowen Wang, Jianchao Yang and Nasrabadi Huang, A Max-Margin Perspective on Sparse Representation-Based Classification, IEEE International Conference in Computer Vision, pp. 1217–1224, December (2013).
  5. Kaihua Zhang, Lei Zhang and Ming-Hsuan Yang, Fast Compressive Tracking, IEEE Transaction on Pattern Analysis and Machine Intelligence, pp. 1–13, October (2014).
  6. Yilmaz, O. Javed and M. Shah, Object Tracking: A Survey, ACM Computing Surveys, vol. 38, no. 4, June (2006)
  7. 7,0 7,1 S. Li and Z. Zhang, Float Boost Learning and Statistical Face Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 9, pp. 1112–1123, November (2004).
  8. Z. Kalal, J. Matas and K. Mikolajczyk, Pn Learning: Bootstrapping Binary Classifiers by Structural Constraints, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 49–56, April (2010).
  9. P. Viola and M. Jones, Rapid Object Detection using a Boosted Cascade of Simple Features, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, no. 2, pp. 511–518, August (2005)
  10. C. Bao, Y. Wu, H. Ling and H. Ji, Real Time Robust l1 Tracker using Accelerated Proximal Gradient Approach, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 1830–1837, March (2012)
  11. Ng and M. Jordan, On Discriminative vs. Generative Classifiers: A Comparison of Logistic Regression and Naive Bayes, In Advances in Neural Information Processing Systems, pp. 841–848, July (2002)
  12. Z. Kalal, J. Matas and K. Mikolajczyk, Pn Learning: Bootstrapping Binary Classifiers by Structural Constraints, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 49–56, April (2010).