Сетевые видеотехнологии на основе ИИ: МИЭМ ВШЭ разрабатывает и внедряет передовые сервисы
Автотитры, автоматизированный ассистент оператора, детектор эмоций — сервисы, разработанные в Лаборатории сетевых видеотехнологий МИЭМ НИУ ВШЭ с использованием искусственного интеллекта. Сегодня они активно применяются в видеоиндустрии для съемки и трансляции событий различных форматов. Например, детектор эмоций используется при создании популярного проекта «Большое шоу». Руководитель лаборатории Денис Королев и его коллеги рассказывают, какие продукты на основе нейросетевых технологий уже имеются в арсенале команды.
Лаборатория сетевых видеотехнологий объединяет около 20 проектов, задача которых — оптимизация и повышение качества съемки и трансляции событий, организуемых в институте и не только.
Автотитры и автоматизированный помощник оператора
Одна из проблем, стоящих перед съемочными группами, особенно при трансляции с большим количеством участников, — фактологические ошибки в титрах при сопровождении спикеров в кадре. Специально обученная нейросеть способна самостоятельно создавать автоматизированные титры с необходимым текстовым описанием, включающим имя, фамилию, должность или другие параметры в соответствии со спецификой события. Перед съемкой через чат-бот в программу загружаются фотографии всех участников мероприятия, а нейросеть по этим фотографиям определяет ключевые точки сохраненных в базе лиц и распознает новые лица по векторному расстоянию между точками, тем самым сводя риск неточностей до минимума.
Денис Королев
«Проблема ошибок при титровании остается актуальной даже для очень серьезных съемочных команд, — рассказывает Денис Королев, доцент МИЭМ НИУ ВШЭ. — Машинное зрение тоже не застраховано от ошибок, но программа не устает, а человек за пультом не отвлекается на выбор нужного титра. В конце концов, итоговое решение за человеком — на экран титры выводит режиссер. Программа лишь готовит текст».
Разработчиками автоматических титров являются студенты МИЭМ и активные участники деятельности лаборатории Виктория Зараменских и Леонид Попов. Сейчас они учатся на выпускном курсе бакалавриата, а разработанный ими сервис лег в основу их ВКР.
Еще одной внедренной разработкой команды является автоматизированный помощник оператора, который обеспечивает плавность движений камеры с сохранением кинематографичности съемки, причем так, чтобы персонаж оставался в кадре.
«Есть классическое телевизионное производство, где камерами управляют операторы-люди, которыми управляет режиссер, — объясняет Денис Королев. — Мы же в МИЭМ работаем с роботизированными (PTZ — Pan Tilt Zoom) сетевыми камерами. Они управляются удаленно, по размеру небольшие, бывают всепогодные. Масса достоинств, но вот беда: передать движения оператора-человека весьма сложно. Движения получаются механическими, резковатыми, не хватает микродвижений, которые создают ощущение живой съемки. Оператор PTZ-камеры управляет ею с помощью джойстика и кнопок быстрого перехода на заранее записанные позиции. Удобно для видеонаблюдения, но в видеозаписи такие движения неприятны (для глаз зрителей. — Ред.). Поэтому мы переосмыслили распределение ролей. Оператор указывает цель и крупность плана, а программа берет цель и командует камере, куда и с какой скоростью в каждый момент времени поворачиваться. С виду простая задача, но на деле это требует выполнения сразу нескольких условий, чтобы и динамика движения, и композиция кадра были близки к операторской съемке. И при этом важно, чтобы камера не упустила из вида человека».
Анастасия Пискунова
«Оператор использует ансамбль различных нейронных сетей для определения параметров человека. Детекция тел осуществляется с использованием one-shot-модели YOLO v8, определение позы — с помощью нейросети, основанной на mmpose, — говорит Анастасия Пискунова, руководитель проекта МИЭМ.ТВ. — Результаты распознавания используются для вычисления формул движения камеры».
Обе технологии были протестированы недавно во время организации трансляции демодня совместной Инженерно-математической школы НИУ ВШЭ и VK.
Детектор эмоций
Идея еще одной разработки, которая сегодня применяется в создании известного проекта «Большое шоу», родилась в лаборатории МИЭМ несколько лет назад для решения образовательных задач.
«Мы начинали с того, что еще в 2019 году открыли проект, направленный на оценку с камер эмоциональной вовлеченности студентов в процесс занятий. Даже получалось, но тогда эксперимент пришлось остановить, поскольку начался карантин, — вспоминает Денис Королев. — Наработки отчасти были использованы в проектах Сергея Сластникова (доцент МИЭМ. — Ред. ) по распознаванию эмоций для “Вебинар.ру”. Год назад нас впервые пригласили на съемки “Большого шоу” как операторов PTZ-камер. Я посмотрел, как работает съемочная группа, поговорил с Мишей Моисеевым (выпускник и преподаватель МИЭМ НИУ ВШЭ. — Ред. ), который ведет у нас направление машинного зрения, позвали Павла Блинова и Михаила Исакова, двух третьекурсников с курса сетевых видеотехнологий, — и на одну из следующих съемок принесли готовый распознаватель улыбок. Поколдовали с местными инженерами, и теперь наша программа ловит каждую улыбку на любой из 16 камер, обеспечивающих съемку, — опция, актуальная именно для этого шоу. Таким образом, мы тестируем систему на внутренних мероприятиях в МИЭМ, но разрабатываем ее как самостоятельный отдельный коммерческий продукт».
«Большое шоу» — популярный развлекательный проект от Medium Quality Production с ведущим Азаматом Мусагалиевым. Десять комиков оказываются заперты в студии. Их задача — рассмешить противников, при этом не поддаваясь на провокации и не выдавая улыбку.
Что дальше
Сегодня лаборатория становится большим внутримиэмовским хабом, объединяющим проекты, в рамках которых студенческие команды решают самые разные задачи, связанные с передачей потоковой информации. Для реализации и технического обеспечения съемочного процесса и трансляций несколько лет назад был создан телецентр МИЭМ, в котором также работают студенты. Начиная с этого учебного года при лаборатории сформирована мастерская видеотехнологий, аккумулирующая всю проектную деятельность как на содержательном, так и на организационном уровне.
Новые задачи, пришедшие в лабораторию вместе с технологиями ИИ, требуют новых подходов к образовательному процессу. Так, изменилось содержание одного из курсов образовательной программы «Информатика и вычислительная техника»: теперь после курса видеотехнологий студенты изучают машинное зрение. Для этого налажено тесное взаимодействие с департаментом прикладной математики в лице Сергея Сластникова и его рабочей группы. В рамках курса Петр Рыбаков, студент аспирантской школы по техническим наукам, у которого Сергей Сластников является научным руководителем, обучает студентов 4-го курса бакалавриата тому, что их предшественники изучали самостоятельно, затрачивая на это огромное количество времени и ресурсов.
Петр Рыбаков
«В программу дисциплины “Мультимедиатехнологии” были добавлены лекции по современным технологиям компьютерного зрения и интеллектуальной обработки мультимедиаданных: распознавание и генерация изображений и аудиоданных, — отмечает Петр Рыбаков. — Данные темы позволяют студентам на практических примерах познакомиться с применением искусственного интеллекта в областях, к которым относятся темы проектов и исследований нашей лаборатории».
«Получается логично: на 3-м курсе наши студенты погружаются в видеотехнологии — от “железа” до потоков, а потом поверх этого учатся всякой умной автоматизации. У них уже нет проблем получить откуда угодно поток, передать его, сжать, поуправлять какой-нибудь камерой, если надо, — уверен Денис Королев. — Например, автотрекер — это же комбинация машинного зрения и видеотехнологий, где надо работать с камерой-роботом в реальном времени».
Кроме того, студенты программы активно включаются в специализированные работы проектных команд Сергея Сластникова, занимающихся применением ИИ в самых разнообразных областях. Сетевые видеотехнологии — лишь одна из них.
Сергей Сластников
«Внедрение технологий искусственного интеллекта в процессы видеопроизводства кажется абсолютно естественным для нашего факультета видом деятельности, — говорит Сергей Сластников. — Надо отметить, что ключевые задачи лаборатории (мастерской) в данном направлении состоят в том, чтобы не только адаптировать существующие технологии машинного зрения под специфику конкретной видеокамеры и ракурса съемки, но и комплексно выстроить всю инженерную и программную инфраструктуру для максимально эффективного использования самых разных технологий современной видеоаналитики».
Сегодня в лаборатории есть близкие планы развития уже используемых технологий и внедрения новых. Так, например, сейчас в рамках разработки автоматического ассистента режиссера команда занимается созданием полноценного автоматического оператора для трансляции типовых разговорных мероприятий с несколькими спикерами без необходимости сопровождения человеком-оператором. Система будет способна самостоятельно видеть всю сцену, выбирать цель и вести ее. Логическое продолжение на следующем этапе ребята видят в разработке автоматического режиссера съемки на основе машинного зрения.
Вам также может быть интересно:
Видеокамера может быть «умной»
«Автокамера» — эксклюзивная разработка в сфере видеотехнологий сотрудников Московского института электроники и математики (МИЭМ) НИУ ВШЭ Дениса Королева и Романа Осмоловского позволит упростить и автоматизировать сложные процессы видеосъемки, заменяя собой операторов и специалистов по обработке и публикации материалов.
История цифровых картинок
2 апреля в рамках проекта «Университет, открытый городу: Лекции молодых ученых Вышки в Культурном центре ЗИЛ» доцент кафедры информационно-коммуникационных технологий МИЭМ ВШЭ Денис Королев рассказал об истории развития видеотехнологий и мультимедиа.