Недавнее исследование, проведенное при поддержке Фонда Майкла Дж. Фокса (MJFF) (и других благотворителей), собрало многогранные наборы данных о пациентах с болезнью Паркинсона. Они хотели определить, какой медицинский тест или комбинация тестов лучше всего предсказывают болезнь Паркинсона.

Соревнование

Многогранные наборы данных, использованные для разработки моделей, были собраны у пациентов с болезнью Паркинсона (БП) и могут включать:

  • Клинические оценки
  • Биологические образцы (аналиты из таких источников, как плазма, спинномозговая жидкость и слюна)
  • Геномика
  • Данные изображений

Исследовательские программы, лечебные клиники и кабинеты врачей различаются по типам данных и результатов медицинских тестов, которые они собирают для пациентов с БП. Наблюдательное клиническое исследование BioFIND стандартизирует продольный сбор биопрепаратов. Он содержит результаты почти 2500 биомаркеров и других медицинских тестов, но ни у одного из примерно 200 его участников нет результатов для всех тестов. Количество завершенных результатов тестирования для данного участника варьируется от 119 до более 2450, но более трети испытуемых имеют результаты менее чем по 300 тестам. Несмотря на крайнюю изменчивость данных о пациентах, клиент очень хотел определить: «Какие тесты имеют наибольшую ценность для прогнозирования заболевания?» И: «Может ли важность ключевого теста измениться, когда станут доступны данные дальнейших медицинских тестов?»

Решение

Данные для проекта были предоставлены через обсервационное клиническое исследование MJFF и BioFIND, цель которого заключалась в обнаружении и проверке биомаркеров болезни Паркинсона. Запатентованный метод кластеризации был использован для идентификации двенадцати кластеров пациентов на основе результатов тестов, доступных для каждого пациента.

Перед выбором модели мы использовали два алгоритма выбора характеристик для создания двух списков медицинских тестов для каждого кластера. Алгоритм случайного леса (названный Boruta) использовался для создания списка всех соответствующих тестов. Этот список, потенциально полезный для научных исследований, включал все тесты, которые алгоритм нашел полезными для прогнозирования заболеваний. Затем мы использовали алгоритм рекурсивного исключения для создания минимального списка тестов, представляющего наименьший набор тестов, необходимых для точного прогнозирования заболевания. Каждый кластер был далее разделен на десять подгрупп, и алгоритмы были обучены на каждом наборе из 90% и проверены на оставшихся 10%. Эта 10-кратная перекрестная проверка позволила нам:

  1. Точно оцените, насколько хорошо работают наши алгоритмы
  2. Определите, как часто тест был выбран в каждом кластере, а также между кластерами, что позволяет нам ранжировать важность каждого медицинского теста для прогнозирования заболеваний.

На каждом кластере было обучено несколько моделей, и была выбрана наиболее точная модель. Затем перестановка целей использовалась для дальнейшей проверки статистической точности результатов нашей модели.

Модельные ансамбли превзошли отдельные модели в 6 из 12 кластеров. Технология Extreme Gradient Boosting (XGBoost) обеспечивает превосходную производительность в 4 из 12 кластеров, в то время как дерево решений C5.0 и нейронная сеть с прямой связью выигрывают для одного кластера. Перетасовывая цели более 300 раз, мы уверенно оценили эффективность наших моделей (Рисунок 1).

Наши модели дали более точные и специфические метрики, чем те, которые были получены при перетасовке целей почти в 100% случаев для 10 из 12 кластеров. Это очень мало влияет на чувствительность кластеров с 1 по 10, производительность которых превышает 95% в шести из десяти кластеров и более 84% среди остальных четырех кластеров. Мы наблюдали снижение производительности в кластерах 11 и 12, где очень мало наблюдений за пациентами или доступных тестов предоставили ограниченные данные для обучения модели.

Наши модели идентифицировали несколько биомаркеров, которые важны для прогнозирования болезни Паркинсона. Например, chemical_id_100004634 (происхождение спинномозговой жидкости) было определено как критическое для точного прогнозирования более 80% времени в кластерах, где был доступен результат теста. Plasma_unknown_1 был определен как критический в 100% случаев во всех кластерах, кроме одного, в котором он был доступен. В остальном кластере это было критично только в 50% случаев. Первоначальный анализ показывает, что комбинация других тестов в этом кластере может оказаться более ценной для прогнозирования ЧР, предполагая, что действительно важность ключевого теста может быть затронута, когда доступны данные других медицинских тестов.

Результаты

Развернутое в клинике решение Elder Research поможет врачам диагностировать болезнь Паркинсона на основе доступных тестов и порекомендовать наименьшее количество дополнительных (или ближайших лучших) тестов для улучшения прогнозирования заболевания. Обобщенные здесь аналитические процессы применимы ко многим другим классификационным целям, помимо прогнозирования болезни Паркинсона. Их можно применять для прогнозирования возникновения других заболеваний, скорости прогрессирования заболевания, эффективности лечения и определения доминирующих или ухудшающихся симптомов, что позволяет врачам принимать более правильные решения о лечении.

Загрузить этот пример использования

Особая благодарность Dr. Томас Шафер , Рамон Перес и Даниэль Браннок за их вклад в проект и тематическое исследование.

Связанный

Прочтите блог Машинное обучение для обнаружения заболеваний

Скачать тематическое исследование Анализ текста для отслеживания и оценки ключевых событий, связанных с инфекционными болезнями животных

Узнать больше о Аналитике здравоохранения

Доктор Дженнифер Шафф начала свой путь в области аналитики с изучения и создания больших наборов биологических данных, одновременно получив докторскую степень в области патологии растений. Доктор Шафф продолжала развивать свой интерес к данным и навыки анализа данных секвенирования, одновременно создавая и руководя программой центра геномики NCSU. Любовь к аналитическим задачам привела ее к тому, что недавно она закончила магистратуру в Институте углубленной аналитики NCSU.

Первоначально опубликовано на www.elderresearch.com.