Disney разрабатывает систему распознавания лиц

Команда исследователей Disney из Direct-to-Consumer&International Organization (DTCI) создала платформу машинного обучения, чтобы помочь автоматизировать цифровое архивирование мультипликации. Архив студии включает почти столетнюю историю анимации, и для поиска определенных персонажей, сцен или объектов нужно выполнить большую работу. Новая система поможет изменить способы поиска и обнаружения потокового контента.

Платформа CG (Content Genome, Геном контента) создана для наполнения графов знаний метаданными контента. Она работает примерно так же, как поиск Google, если, к примеру, нужно найти информацию о Стиве Джобсе

Приложения на ИИ смогут использовать эти данные для улучшения функций поиска, обнаружения и персонализации. Они будут помогать аниматорам находить конкретные кадры в архиве Disney.

Проект стартовал в 2016 году после нескольких лет исследований. Группа создала то, что она описывает как «первый конвейер автоматической маркировки».

«Маркировка контента является важным компонентом использования контролируемого обучения в DTCI», — отмечают разработчики.

Конвейер использовал существующее программное обеспечение для распознавания лиц, которое команда DTCI затем применила к своему каталогу фильмов и телешоу. Модуль смог успешно обнаруживать и распознавать человеческие лица по экранным действиям. Затем команда смогла также обучить систему определять конкретные места. Но распознать лицо человека по видео в реальном времени — это совсем не то, что научить ИИ определять анимированные лица. «Нам нужно было что-то, что может выучить абстрактную концепцию «лица», и с традиционным машинным обучением добиться этого было бы очень сложно. Благодаря глубокому обучению мы смогли этого достичь», — говорит команда.

Исследователи пытались применить модель распознавания лиц в реальном времени к анимированному контенту. Оказывается, что методы машинного обучения, такие как HOG + SVM, хорошо работают при выборе изменений цвета, яркости и текстуры, но они смогли выделить анимированные лица, только если они были прорисованы в человеческих пропорциях. После этого исследователи обратились к методам глубокого обучения.

Тут они столкнулись с новой проблемой, которая заключалась в том, что наборы данных для глубокого обучения носят массивный характер. Поэтому команда использовала необходимые ей образцы для точной настройки архитектуры обнаружения объектов Faster RCNN, которая уже была обучена обнаружению анимированных лиц с использованием другого набора данных, отличного от Disney. По сути, команда взяла за основу уже обученную архитектуру и адаптировала ее к своему контенту.

После незначительной корректировки набора данных исследователи объединили свой анимированный детектор распознавания лиц с другими алгоритмами, такими как трекеры ограничивающего прямоугольника, чтобы сократить время обработки и повысить эффективность.

Процесс маркировки не полностью автоматизирован, люди могут контролировать результаты, полученные системой, в зависимости от того, как эти данные используются.

Эта технология может оказаться полезной и для потребителей. Механизмы рекомендаций и обнаружения могут сделать поиск конкретного эпизода или персонажа более точным и эффективным.