«Введение в анализ данных в биомедицинской фотонике». Часть 2
Описание курса (годовой):
Развитие методов фотоники применительно к анализу сложных биологических объектов, таких как единичные клетки или биоткани ex vivo и in vivo, всё больше требует от исследователя понимания базовых методов статистики и статистического обучения. В отличие от простых модельных систем, отклик клеток и биотканей может быть сложным и гетерогенным, и для выявления значимых зависимостей, отличных от “шума”, например, для классификации патологических и здоровых тканей по их оптическому отклику, часто приходится прибегать к проверке статистических гипотез, отбору признаков и поиску закономерностей в данных с высокой размерностью признакового пространства, получаемых с помощью современных методов оптической микроскопии и спектроскопии.
В данном спецкурсе обсуждаются методы и подходы статистического анализа данных и статистического обучения применительно к анализу данных биомедицинской фотоники. При подаче материала акцент делается не только на теоретических основах описательных статистик, проверки гипотез, реализации алгоритмов визуализации, понижения размерности признакового пространства, классификации и регрессии, но и на приложении указанных методов для анализа реальных данных, полученных с помощью различных видов оптической и лазерной спектроскопии (спектроскопии комбинационного рассеяния, флуоресцентной спектроскопии, спектроскопии диффузного отражения, спектроскопии ИК поглощения) и микроскопии (двухфотонной микроскопии, микроскопии с визуализацией времени затухания флуоресценции и пр.) и носимых устройств, использующих технологии биофотоники, на различных специально подобранных наборах данных с помощью языка Python.
Таким образом, основная цель данного спецкурса – дать студентам представление о современных методах статистического анализа данных и машинного обучения с акцентом на биомедицинских данных, а также данных спектроскопии и микроскопии.
Курс будет интересен всем слушателям, которые хотят освоить классические и современные подходы статистического анализа данных. К особенностям курса относится большое число практических заданий, выполняемых в интерактивной среде на языке программирования Python 3, в связи с чем в начале курса обсуждаются основы синтаксиса языка и использованием библиотек часто используемых для анализа табличных данных на языке Python 3.
План курса:
Лекция 1
Введение в общую постановку задач машинного обучения. Задачи классификации и регрессии. Задачи обучения с учителем и без учителя. Примеры задач. Линейная регрессия как пример алгоритма машинного обучения.
Лекция 2
Линейные модели для решения задач регрессии и классификации. Способы борьбы с переобучением – L1 регуляризация, регуляризация Тихонова. Взаимосвязь степеней свободы модели с параметром регуляризации, связь QR разложения матрицы ковариации и коэффициентов линейной регрессии. Отбор признаков с помощью линейных моделей.
Лекция 3
Простейшие непараметрические модели для решения задач регрессии и классификации. Деревья решений, метод К-ближайших соседей, локально-взвешенная линейная регрессия. Теория построения решающего дерева, энтропия Шеннона. Проклятье размерности в метрических методах.
Лекция 4
Оценка качества моделей в задачах регрессии и классификации. Коэффициент детерминации, средняя абсолютная ошибка, введение весовых коэффициентов. Ошибки первого и второго рода в задачах классификации. Матрица смежности, точность, специфичность, F-мера, ROC-AUC, PR-AUC).
Лекция 5
Разложение ошибки модели на смещение, дисперсию и неустранимую ошибку. Ансамблирование моделей как способ снижения дисперсии. Бэггинг деревьев и построение случайных лесов для решения задачи регрессии и классификации. Оценка значимости признаков с помощью случайных лесов и с помощью перестановочной значимости.
Лекция 6-7
Градиентный бустинг как способ построения ансамблей моделей – интуитивное объяснение метода, функции потерь в градиентном бустинге. Интерпретация значимостей признаков и диагностика предиктивных моделей с помощью SHAP коэффициентов.
Лекция 8
Метод опорных векторов для решения задачи классификации и регрессии. Математическая постановка задачи. Переход к двойственной задаче и трюк с ядром. Практическое занятие: классификация злокачественных клеток по данным оптической спектроскопии с помощью метода опорных векторов.
Лекция 9
Практические аспекты построения моделей. Выбор метрики оценки моделей, оценка необходимого объема обучающей выборки, анализ смещения и дисперсии модели по кривым обучения.
Лекция 10
Введение в глубокое обучение: градиентный спуск, метод обратного распространения ошибки.
Лекция 11
Современные архитектуры нейронных сетей.
Лекция 12
Обсуждение практических проектов, решенных студентами.