1. Меньше образцов, больше знаний: эффективное распознавание действий с помощью восстановления элементов кадра (arXiv)

Автор: Гарри Ченг, Янъян Го, Лицян Не, Чжиюн Ченг, Мохан Канканхалли.

Аннотация: Обучение эффективной модели распознавания действий на видео создает серьезные вычислительные проблемы, особенно в условиях ограниченного бюджета ресурсов. Текущие методы в первую очередь направлены либо на уменьшение размера модели, либо на использование предварительно обученных моделей, что ограничивает их адаптируемость к различным архитектурам магистральных сетей. В этой статье исследуется проблема избыточной выборки кадров, распространенная проблема во многих подходах, но ей уделяется относительно мало внимания. Несмотря на то, что использование меньшего количества кадров является потенциальным решением, такой подход часто приводит к существенному снижению производительности. Чтобы решить эту проблему, мы предлагаем новый метод восстановления промежуточных признаков для двух разреженных и смежных видеокадров. Этот метод восстановления признаков приводит к незначительному увеличению вычислительных требований по сравнению с ресурсоемкими кодировщиками изображений, такими как ViT. Чтобы оценить эффективность нашего метода, мы проводим обширные эксперименты с четырьмя общедоступными наборами данных, включая Kinetics-400, ActivityNet, UCF-101 и HMDB-51. Благодаря интеграции нашего метода эффективность трех часто используемых базовых линий была улучшена более чем на 50 % при снижении точности распознавания всего на 0,5 %. Кроме того, наш метод также неожиданно помогает улучшить способность моделей к обобщению при нулевых настройках.

2.MSQNet: распознавание действий, не зависящее от актера, с мультимодальным запросом (arXiv)

Автор: Аниндья Мондал, Саурадип Наг, Хоакин М Прада, Сятянь Чжу, Анжан Датта.

Аннотация: Существующие методы распознавания действий обычно зависят от актера из-за внутренних топологических и очевидных различий между актерами. Это требует оценки позы конкретного актера (например, людей и животных), что приводит к громоздкой сложности дизайна модели и высоким затратам на обслуживание. Более того, они часто сосредотачиваются на изучении только визуальной модальности и классификации по одной метке, пренебрегая другими доступными источниками информации (например, текстом имени класса) и одновременным выполнением нескольких действий. Чтобы преодолеть эти ограничения, мы предлагаем новый подход, называемый актор-независимое мультимодальное распознавание действий с несколькими метками, который предлагает унифицированное решение для различных типов акторов, включая людей и животных. Далее мы формулируем новую модель мультимодальной семантической сети запросов (MSQNet) в структуре обнаружения объектов на основе преобразователя (например, DETR), характеризующуюся использованием визуальных и текстовых модальностей для лучшего представления классов действий. Устранение моделей, ориентированных на актеров, является ключевым преимуществом, поскольку полностью устраняет необходимость оценки позы актера. Обширные эксперименты с пятью общедоступными эталонными тестами показывают, что наша MSQNet постоянно превосходит известные альтернативы для конкретных актеров в задачах распознавания действий человека и животных с одной и несколькими метками до 50%. Код будет опубликован на https://github.com/mondalanindy/MSQNet