В этой статье будет обсуждаться процесс сбора данных для набора данных HAM10000, который представляет собой набор классифицированных изображений поражений кожи для обнаружения рака кожи.

Эта статья является частью большой серии, посвященной набору данных HAM10000 — пожалуйста, обратитесь к вводной статье.

Контекст HAM10000

HAM10000 расшифровывается как «Человек против машины с 10 000 обучающих изображений». Это набор данных с примерно 10000 высококачественных дерматоскопических изображений поражений кожи крупным планом, предназначенных для обучающих программ по обнаружению рака кожи (точнее, в наборе данных HAM10000 10015 изображений). В наборе данных семь диагнозов/меток (ниже приведен список диагнозов и их сокращений):

  • Актинический кератоз/болезнь Боуэна (akiec)
  • Базально-клеточная карцинома (bcc)
  • Доброкачественные кератозы (bkl)
  • Дерматофиброма (df)
  • Меланома (мел)
  • Меланоцитарный невус (nv)
  • Сосудистые поражения (vasc)

Поражения кожи, которые диагностируются как актинический кератоз/болезнь Боуэна, базально-клеточная карцинома и меланома, обычно являются активным раком (злокачественным). Если они помечены как другие диагнозы, они, как правило, доброкачественные / нераковые.

Вот несколько примеров изображений из набора данных HAM10000:

Кроме того, есть отдельный набор данных из 1511 изображений для тестирования/проверки. После создания программы с набором данных HAM10000 производительность можно оценить с помощью этих тестовых изображений, которые программа никогда раньше не видела. Метки для этих диагнозов скрыты от общественности, но производительность модели можно определить, загрузив ее на портал испытаний HAM10000, где представленные модели оцениваются по этому набору тестов.

Коллекция HAM10000

Изображения были собраны с двух разных сайтов: Кафедра дерматологии Медицинского университета Вены, Австрия и Клиффа Розендаля, занимающегося раком кожи в Квинсленде, Австралия. Изображения поражений кожи с двух участков за более чем 20 лет были извлечены, очищены и переформатированы для создания HAM10000.

Исходные данные поступали в различных формах, начиная от PowerPoint, Excel и заканчивая различными форматами изображений. Исследователи использовали комбинацию автоматизации, машинного обучения и ручного просмотра, чтобы извлечь все изображения в стандартный формат jpg и связанные метаданные в файл табуляции. Кроме того, они также отфильтровывали плохие данные, такие как изображения низкого качества, изображения с плохими аннотациями или без них, а также недерматоскопические изображения. Кроме того, они учитывают различия в изображениях и гарантируют, что каждое из них имеет одинаковую яркость/оттенок, а поражение находится в центре. Они также работали над обеспечением надлежащего авторского права и лицензирования, чтобы сделать набор данных общедоступным.

Более подробные сведения об их процессе сбора данных можно найти в их бумаге. Все эти шаги позволили сделать набор данных HAM10000 согласованным, высококачественным и бесплатным для использования.

Подтверждение HAM10000

Кроме того, исследователи предприняли дополнительные шаги для подтверждения диагнозов на основе собранных данных. Было четыре категории проверки:

  • Гистопатология: первоначальный диагноз был поставлен специализированными дерматопатологами и вручную проверен на достоверность.
  • Конфокальная: это относится к отражательной конфокальной микроскопии, которая представляет собой метод визуализации in vivo с разрешением на почти клеточном уровне, который использовался для проверки
  • Последующее наблюдение: исследователи отслеживали пациента, связанного с поражением кожи, посредством различных последующих наблюдений и в течение определенного периода времени, чтобы убедиться, что доброкачественный диагноз был действительно доброкачественным (т. е. не перерос в активную форму). рак)
  • Консенсус: использовалась группа экспертов, когда другие методы проверки не могли быть использованы.

Подробнее о методах проверки можно прочитать в их бумаге. Исследователи также предоставляют метод проверки, который они использовали для каждого изображения, в своих метаданных csv.

Заключение

Теперь, когда мы понимаем, как собирались данные, мы можем сосредоточиться на их исследовании. Поскольку исследователи приложили немало усилий для обеспечения высокого качества данных, нам не нужно беспокоиться о распространенных проблемах с данными (таких как отсутствующие данные, неправильные метки или изображения низкого качества).