1. Оценка крупномасштабных синтетических данных для исправления грамматических ошибок(arXiv)

Автор : Ваня Баннихатти Кумар

Аннотация: исправление грамматических ошибок (GEC) в основном зависит от наличия высокого качества большого количества синтетических параллельных данных грамматически правильных и ошибочных пар предложений. Качество синтетических данных оценивается по тому, насколько хорошо работает система GEC при ее предварительном обучении. Но это не дает достаточного понимания того, какие необходимые факторы определяют качество этих данных. Таким образом, эта работа направлена ​​​​на введение 3 метрик — надежность, разнообразие и соответствие распределения, чтобы обеспечить более глубокое понимание качества крупномасштабных синтетических данных, созданных для задачи GEC, а также их автоматическую оценку. Автоматическая оценка этих трех показателей также может помочь в обеспечении обратной связи с системами генерации данных и тем самым улучшить качество синтетических данных, генерируемых динамически.

2.FairGen: справедливое создание синтетических данных(arXiv)

Автор: Бхушан Чаудхари, Химаншу Чоудхари, Аакаш Агарвал, Камна Мина, Танмой Бховмик

Аннотация . В связи с растущим распространением машинного обучения в таких областях, как банковское дело, фармацевтика, образовательные технологии и т. д., крайне важно внедрить ответственные методы искусственного интеллекта, чтобы гарантировать, что модели не будут несправедливо дискриминировать какую-либо группу. . Учитывая отсутствие чистых обучающих данных, предпочтительны генеративные состязательные методы для создания синтетических данных с несколькими современными архитектурами, легко доступными в различных областях, от неструктурированных данных, таких как текст, изображения, до структурированных наборов данных, моделирующих обнаружение мошенничества и многое другое. Эти методы преодолевают несколько проблем, таких как дисбаланс классов, ограниченные данные для обучения, ограниченный доступ к данным из-за проблем с конфиденциальностью. Существующая работа, направленная на создание достоверных данных, либо работает для определенной архитектуры GAN, либо ее очень сложно настроить для разных сетей GAN. В этой статье мы предлагаем конвейер для создания более достоверных синтетических данных независимо от архитектуры GAN. В предлагаемой статье используется алгоритм предварительной обработки для выявления и удаления образцов, вызывающих систематическую ошибку. В частности, мы утверждаем, что при создании синтетических данных большинство GAN усиливают смещение, присутствующее в обучающих данных, но удаляя эти образцы, вызывающие смещение, GAN по существу больше фокусируется на реальных информативных образцах. Наша экспериментальная оценка двух наборов данных с открытым исходным кодом демонстрирует, как предлагаемый конвейер генерирует достоверные данные наряду с улучшенной производительностью в некоторых случаях.

3. Улучшение обнаружения аномалий в георадарных изображениях путем точной настройки CNN с использованием синтетических данных(arXiv)

Автор:Сижэнь Чжоу, Шикан Лю, Ао Чен, Ичжань Фань, Хуаньхуань Чен

Аннотация: Георадары широко используются для оценки нормального функционирования некоторых городских дорог и подземных сооружений. При выявлении георадаром подземных аномалий на местности полученные данные могли быть несбалансированными, а количество и типы возможных подземных аномалий не могли быть определены заранее. В этой статье предлагается новый метод улучшения обнаружения подповерхностных аномалий по изображениям B-сканирования GPR. В обнаруженной области сначала собирается нормальный (т.е. без подповерхностных объектов) участок георадарного изображения. В связи с тем, что изображение георадара по существу является представлением электромагнитной (ЭМ) волны и времени распространения, и для сохранения как подповерхностного фона, так и деталей объектов, обычное изображение георадара сегментируется, а затем объединяется с смоделированными изображениями георадара, которые содержат различные виды объектов. генерировать синтетические данные для области обнаружения на основе вейвлет-разложений. Затем предварительно обученные CNN можно было бы точно настроить с помощью синтетических данных и использовать для извлечения характеристик сегментированных изображений GPR, впоследствии полученных в области обнаружения. Извлеченные признаки могут быть классифицированы одноклассовым алгоритмом обучения в пространстве признаков без предварительно заданных типов или номеров аномалий. Проведенные эксперименты показывают, что точная настройка предварительно обученной CNN с помощью предложенных синтетических данных может эффективно улучшить извлечение признаков сети для объектов в зоне обнаружения. Кроме того, предлагаемый метод требует только участка нормальных данных, который можно было бы легко получить в зоне обнаружения, а также удовлетворять требованиям своевременности при практическом применении.