В предыдущем сообщении блога мы спросили, как производительность геопространственного глубокого обучения зависит от объема обучающих данных, и обучили детектор следов здания с разным объемом данных, чтобы увидеть это изменение в действии. Если вы не читали этот пост, вернитесь назад и взгляните сейчас, потому что дальше мы собираемся погрузиться в детали того, как это было сделано и что все это значит.

Производительность модели в зависимости от количества обучающих данных показана на рисунке 1 (идентично рисунку 2 в предыдущем посте). Производительность измеряется оценкой F1 для IoUs здания, превышающей пороговое значение 0,5, а количество обучающих изображений - это количество плиток 450 на 450 м, используемых из 0,5-метрового набора данных GSD с 27 плитками (при разном просмотре углы) для каждого физического местоположения.

Как видно на рисунке 1, быстрый рост производительности с обучающими данными, когда данных мало, контрастирует с уменьшением улучшений по мере дальнейшего увеличения обучающих данных. Это означает, что даже небольшие наборы данных могут дать довольно хорошие результаты. Но чтобы лучше понять, что происходит, нам нужно присмотреться, начиная с вопроса о том, сколько времени требуется для обучения модели с разными объемами данных.

Тренировочное время

Углубляясь в результаты, мы сначала рассмотрим, сколько времени требуется модели для обучения на разных объемах данных. На рисунке 2 показана зависимость общей производительности от времени обучения при обучении каждой модели. Используя полный набор данных, требуется примерно 60 эпох, чтобы модель достигла оптимальной производительности. Неудивительно, что процесс ускоряется, когда данных для обучения меньше. Когда количество обучающих образов исчисляется сотнями, модель достигает максимальной производительности за меньшее время, чем требуется для прохождения пяти эпох с полным набором данных.

Как показано на рисунке 2, случаи с шестью наибольшими объемами обучающих данных каждый обучались в течение восьми дней с графическим процессором на графических процессорах Titan Xp, в то время как случаи с четырьмя наименьшими объемами обучающих данных обучались меньше, чтобы сэкономить время вычислений. Рисунок 1 отражает состояние каждого из этих случаев после времени обучения, равного максимальному времени обучения, показанному на рисунке 2, или эквиваленту примерно 60 эпох с полным набором данных, в зависимости от того, что меньше.

Оценка погрешности

Простое цитирование метрики производительности модели машинного обучения без оценки неопределенности результата имеет ограниченную ценность. Без планок погрешностей неизвестно, будет ли модель с несколько более высокой оценкой производительности значительно лучше модели с более низкой оценкой. Действительно, без планок погрешностей даже не ясно, приведет ли повторное обучение той же модели к аналогичным результатам.

На рисунке 3 показаны те же графики, что и на рисунке 1, но с логарифмической осью абсцисс, чтобы более четко показать случаи с низким уровнем обучающих данных. Планки погрешностей были явно определены для случаев 27, 162, 648 и 21546 изображений и логарифмически интерполированы для всех остальных точек. Для каждой определяемой планки ошибок модель была повторно обучена с тем же объемом данных четыре раза, и было вычислено стандартное отклонение четырех оценок F1. Для двух случаев с высоким уровнем обучающих данных использовалась бутстраповская повторная выборка, чтобы аппроксимировать эффект выборки из более крупной базовой совокупности. Поскольку каждая полоса ошибок вычисляется только из четырех испытаний, ошибка самой ошибки высока.

Этот тщательный анализ ошибок, хотя и требует больших вычислительных затрат, обеспечивает дополнительный контекст для результатов. В частности, это показывает, что модели, обученные с большим количеством данных, имеют согласованную производительность, в то время как модели, обученные с небольшим количеством данных, могут сильно различаться по производительности. При обучении на 21 546 изображениях, охватывающих 1064 места, общий балл F1 варьируется всего на несколько сотых. Однако обучение на 27 изображениях одного места дает оценку F1 в диапазоне от почти нуля до более 0,2 в зависимости от местоположения.

Аппроксимация кривой и экстраполяция

Полезно подгонять кривые к результатам на рисунке 3, как для лучшего понимания результатов, так и для возможности экстраполяции на другие объемы обучающих данных. Было испробовано несколько функциональных форм, включая логарифмическую кривую (которая будет представлять собой прямую линию на рисунке 3 из-за логарифмической оси x), а также константу за вычетом экспоненциально убывающего члена. Однако гораздо лучшее согласование с данными достигается с помощью константы минус член обратного степенного закона, форма, используемая для генерации подгонок, фактически показанная на Рисунке 3 (и Рисунке 1). Мы уже видели это выражение - это та же функция, которая, как было показано, хорошо подходит для кривых обучения в задачах классификации.

Имея в наличии встроенные функции, мы можем сделать некоторые экстраполяции. Если эта простая подгонка применима к произвольно большим размерам обучающего набора данных, это будет означать существование асимптотической максимальной оценки F1 по мере увеличения объема данных. Максимальное значение (при наличии бесконечных данных) было бы 0,87 ± 0,04 для надира и статистически равным 0,90 ± 0,06 для вне надира. (Значение вдали от надира не может быть измерено с разумной точностью без обучения многих других моделей, чтобы уменьшить статистическую неопределенность.) Следует подчеркнуть, что эти оценки значительно выше, чем то, что действительно наблюдалось, и это открытый вопрос, является ли такое значение крайняя экстраполяция допустима.

Даже если простая функция не справляется с бесконечно большими объемами обучающих данных, мы стоим на более твердой основе, задавая вопрос, что бы произошло, если бы у нас просто было вдвое больше данных, чем было фактически доступно. Ответ прост: все усилия по удвоению размера набора данных, по прогнозам, приведут лишь к скромному увеличению общей оценки F1 на 3%. Относительные наклоны кривых указывают на то, что оценка вдали от надира получит наибольшую пользу от дополнительных данных, при этом показатели вне надира и надира показывают меньший прирост.

В качестве технической части мы можем проверить, согласуются ли колебания точек на Рисунке 3 относительно соответствующих подогнанных кривых с данными планками погрешностей в этих точках. Мы численно вычисляем эффективные степени свободы для каждой регрессии и предполагаем, что остатки, нормализованные по шкале ошибок, соответствуют соответствующему распределению хи-квадрат. Результирующие p-значения, которые соответственно равны 0,36, 0,16, 0,91 и 0,25 для надира, вне надира, дальнего надира и в целом, вполне правдоподобны для правильной подгонки.

Взгляд на ансамбль

Стандартный метод повышения производительности модели глубокого обучения - замена одной нейронной сети ансамблем нейронных сетей, что может быть полезно, даже если все нейронные сети в ансамбле имеют одинаковую архитектуру. Мы можем спросить, влияет ли количество тренировочных данных на эффективность этой техники.

Исходный код XD_XD использует ансамбль, где каждая модель в ансамбле обучается с разной четвертью исходных данных, предназначенных для проверки. Это затрудняет выделение улучшения именно из-за ансамбля. В конце концов, если ансамбль превосходит одну из составляющих его моделей, это из-за внутренних преимуществ ансамбля или из-за того, что одна изолированная модель имеет доступ к данным на 25% меньше?

Чтобы напрямую измерить эффект ансамбля, мы вместо этого обучаем каждую модель в ансамбле на одном и том же наборе обучающих данных, не удерживая данные для проверки (от чего мы можем отказаться здесь, потому что соответствующее время обучения уже было найдено выше). Это было сделано в случае «с низким объемом данных» с 216 изображениями, охватывающими 8 местоположений, а также в случае с «высоким объемом данных» со всеми 28728 изображениями, охватывающими 1064 местоположения.

В случае с низким объемом данных ансамбль из четырех моделей работает на 10% лучше, чем средняя производительность составляющих его моделей. Однако в случае с высокими данными улучшение составляет всего 3%. Это говорит о том, что ансамбль более эффективен, когда обучающие данные ограничены, и дает меньше преимуществ, когда обучающих данных много.

Выводы

Мы показали, что та же функциональная форма, которая используется для построения кривых обучения, также хорошо подходит для графиков зависимости F1 от размера набора данных для этой конкретной комбинации проблемы, архитектуры модели, набора данных и метрики оценки. Мы предполагаем, что с использованием этой метрики он хорошо подходит для многих других задач сегментации.

Выводы из этого анализа бывают двух видов: общие методы изучения зависимости размера обучающего набора данных и конкретные результаты для обнаружения следа здания.

Что касается общих методов, ключевой вывод заключается в том, что осознание того, сколько данных для обучения нужно, является важной частью любого хорошо спроектированного проекта глубокого обучения. Подход, основанный на исправлении архитектуры модели и изменении обучающих данных, может дать представление о том, что можно, а что нельзя получить, имея больше данных. Несмотря на то, что потребности каждого проекта различаются, идеальным вариантом является поиск «золотой середины» с достаточным количеством данных для обеспечения согласованной производительности модели, но не настолько большим, чтобы платить высокую цену за уменьшающуюся отдачу. Применяемые здесь методы оценки ошибок и подбора кривой являются полезными инструментами для поиска оптимальной точки.

В частности, при построении посадочных мест ключевой вывод - высокая отдача даже от ограниченных данных обучения. Для обучения геопространственной модели с глубоким обучением не нужны «миллионы изображений» - достаточно менее тысячи плиток площадью четверть квадратного километра с разными видами одних и тех же ста или двухсот квадратных километров, чтобы получить две трети производительности набора обучающих данных, который более чем в тридцать раз больше. Та же функция кривых F1-против-количества данных, которая создает убывающую отдачу от увеличения обучающих данных, также делает производительность модели на удивление устойчивой при небольшом объеме данных.

Тем не менее, остаются вопросы о том, насколько все это можно обобщить, и переносится ли это на другие географические регионы или архитектуры моделей. Эти вопросы будут рассмотрены в следующих публикациях в блогах этой серии.