Сбор данных для HAM10000

В этой статье будет обсуждаться процесс сбора данных для набора данных HAM10000, который представляет собой набор классифицированных изображений поражений кожи для обнаружения рака кожи.

Эта статья является частью большой серии, посвященной набору данных HAM10000 — пожалуйста, обратитесь к вводной статье.

Контекст HAM10000

HAM10000 расшифровывается как «Человек против машины с 10 000 обучающих изображений». Это набор данных с примерно 10000 высококачественных дерматоскопических изображений поражений кожи крупным планом, предназначенных для обучающих программ по обнаружению рака кожи (точнее, в наборе данных HAM10000 10015 изображений). В наборе данных семь диагнозов/меток (ниже приведен список диагнозов и их сокращений):

Актинический кератоз/болезнь Боуэна (akiec)
Базально-клеточная карцинома (bcc)
Доброкачественные кератозы (bkl)
Дерматофиброма (df)
Меланома (мел)
Меланоцитарный невус (nv)
Сосудистые поражения (vasc)

Поражения кожи, которые диагностируются как актинический кератоз/болезнь Боуэна, базально-клеточная карцинома и меланома, обычно являются активным раком (злокачественным). Если они помечены как другие диагнозы, они, как правило, доброкачественные / нераковые.

Вот несколько примеров изображений из набора данных HAM10000:

Кроме того, есть отдельный набор данных из 1511 изображений для тестирования/проверки. После создания программы с набором данных HAM10000 производительность можно оценить с помощью этих тестовых изображений, которые программа никогда раньше не видела. Метки для этих диагнозов скрыты от общественности, но производительность модели можно определить, загрузив ее на портал испытаний HAM10000, где представленные модели оцениваются по этому набору тестов.

Коллекция HAM10000

Изображения были собраны с двух разных сайтов: Кафедра дерматологии Медицинского университета Вены, Австрия и Клиффа Розендаля, занимающегося раком кожи в Квинсленде, Австралия. Изображения поражений кожи с двух участков за более чем 20 лет были извлечены, очищены и переформатированы для создания HAM10000.

Исходные данные поступали в различных формах, начиная от PowerPoint, Excel и заканчивая различными форматами изображений. Исследователи использовали комбинацию автоматизации, машинного обучения и ручного просмотра, чтобы извлечь все изображения в стандартный формат jpg и связанные метаданные в файл табуляции. Кроме того, они также отфильтровывали плохие данные, такие как изображения низкого качества, изображения с плохими аннотациями или без них, а также недерматоскопические изображения. Кроме того, они учитывают различия в изображениях и гарантируют, что каждое из них имеет одинаковую яркость/оттенок, а поражение находится в центре. Они также работали над обеспечением надлежащего авторского права и лицензирования, чтобы сделать набор данных общедоступным.

Более подробные сведения об их процессе сбора данных можно найти в их бумаге. Все эти шаги позволили сделать набор данных HAM10000 согласованным, высококачественным и бесплатным для использования.

Подтверждение HAM10000

Кроме того, исследователи предприняли дополнительные шаги для подтверждения диагнозов на основе собранных данных. Было четыре категории проверки:

Гистопатология: первоначальный диагноз был поставлен специализированными дерматопатологами и вручную проверен на достоверность.
Конфокальная: это относится к отражательной конфокальной микроскопии, которая представляет собой метод визуализации in vivo с разрешением на почти клеточном уровне, который использовался для проверки
Последующее наблюдение: исследователи отслеживали пациента, связанного с поражением кожи, посредством различных последующих наблюдений и в течение определенного периода времени, чтобы убедиться, что доброкачественный диагноз был действительно доброкачественным (т. е. не перерос в активную форму). рак)
Консенсус: использовалась группа экспертов, когда другие методы проверки не могли быть использованы.

Подробнее о методах проверки можно прочитать в их бумаге. Исследователи также предоставляют метод проверки, который они использовали для каждого изображения, в своих метаданных csv.

Заключение

Теперь, когда мы понимаем, как собирались данные, мы можем сосредоточиться на их исследовании. Поскольку исследователи приложили немало усилий для обеспечения высокого качества данных, нам не нужно беспокоиться о распространенных проблемах с данными (таких как отсутствующие данные, неправильные метки или изображения низкого качества).

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops