Лучшие варианты использования распознавания действий в 2023 году, часть 1 (машинное обучение)

Меньше образцов, больше знаний: эффективное распознавание действий с помощью восстановления элементов кадра (arXiv)

Автор: Гарри Ченг, Янъян Го, Лицян Не, Чжиюн Ченг, Мохан Канканхалли.

Аннотация: Обучение эффективной модели распознавания действий на видео создает серьезные вычислительные проблемы, особенно в условиях ограниченного бюджета ресурсов. Текущие методы в первую очередь направлены либо на уменьшение размера модели, либо на использование предварительно обученных моделей, что ограничивает их адаптируемость к различным архитектурам магистральных сетей. В этой статье исследуется проблема избыточной выборки кадров, распространенная проблема во многих подходах, но ей уделяется относительно мало внимания. Несмотря на то, что использование меньшего количества кадров является потенциальным решением, такой подход часто приводит к существенному снижению производительности. Чтобы решить эту проблему, мы предлагаем новый метод восстановления промежуточных признаков для двух разреженных и смежных видеокадров. Этот метод восстановления признаков приводит к незначительному увеличению вычислительных требований по сравнению с ресурсоемкими кодировщиками изображений, такими как ViT. Чтобы оценить эффективность нашего метода, мы проводим обширные эксперименты с четырьмя общедоступными наборами данных, включая Kinetics-400, ActivityNet, UCF-101 и HMDB-51. Благодаря интеграции нашего метода эффективность трех часто используемых базовых линий была улучшена более чем на 50 % при снижении точности распознавания всего на 0,5 %. Кроме того, наш метод также неожиданно помогает улучшить способность моделей к обобщению при нулевых настройках.

2.MSQNet: распознавание действий, не зависящее от актера, с мультимодальным запросом (arXiv)

Автор: Аниндья Мондал, Саурадип Наг, Хоакин М Прада, Сятянь Чжу, Анжан Датта.

Аннотация: Существующие методы распознавания действий обычно зависят от актера из-за внутренних топологических и очевидных различий между актерами. Это требует оценки позы конкретного актера (например, людей и животных), что приводит к громоздкой сложности дизайна модели и высоким затратам на обслуживание. Более того, они часто сосредотачиваются на изучении только визуальной модальности и классификации по одной метке, пренебрегая другими доступными источниками информации (например, текстом имени класса) и одновременным выполнением нескольких действий. Чтобы преодолеть эти ограничения, мы предлагаем новый подход, называемый актор-независимое мультимодальное распознавание действий с несколькими метками, который предлагает унифицированное решение для различных типов акторов, включая людей и животных. Далее мы формулируем новую модель мультимодальной семантической сети запросов (MSQNet) в структуре обнаружения объектов на основе преобразователя (например, DETR), характеризующуюся использованием визуальных и текстовых модальностей для лучшего представления классов действий. Устранение моделей, ориентированных на актеров, является ключевым преимуществом, поскольку полностью устраняет необходимость оценки позы актера. Обширные эксперименты с пятью общедоступными эталонными тестами показывают, что наша MSQNet постоянно превосходит известные альтернативы для конкретных актеров в задачах распознавания действий человека и животных с одной и несколькими метками до 50%. Код будет опубликован на https://github.com/mondalanindy/MSQNet

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Typescript Computer Science Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops