Якимов Борис Павлович1

Якимов Борис Павлович

«Введение в анализ данных в биомедицинской фотонике». Часть 2

Описание курса (годовой):

Развитие методов фотоники применительно к анализу сложных биологических объектов, таких как единичные клетки или биоткани ex vivo и in vivo, всё больше требует от исследователя понимания базовых методов статистики и статистического обучения. В отличие от простых модельных систем, отклик клеток и биотканей может быть сложным и гетерогенным, и для выявления значимых зависимостей, отличных от “шума”, например, для классификации патологических и здоровых тканей по их оптическому отклику, часто приходится прибегать к проверке статистических гипотез, отбору признаков и поиску закономерностей в данных с высокой размерностью признакового пространства, получаемых с помощью современных методов оптической микроскопии и спектроскопии.

В данном спецкурсе обсуждаются методы и подходы статистического анализа данных и статистического обучения применительно к анализу данных биомедицинской фотоники. При подаче материала акцент делается не только на теоретических основах описательных статистик, проверки гипотез, реализации алгоритмов визуализации, понижения размерности признакового пространства, классификации и регрессии, но и на приложении указанных методов для анализа реальных данных, полученных с помощью различных видов оптической и лазерной спектроскопии (спектроскопии комбинационного рассеяния, флуоресцентной спектроскопии, спектроскопии диффузного отражения, спектроскопии ИК поглощения) и микроскопии (двухфотонной микроскопии, микроскопии с визуализацией времени затухания флуоресценции и пр.) и носимых устройств, использующих технологии биофотоники, на различных специально подобранных наборах данных с помощью языка Python.

Таким образом, основная цель данного спецкурса – дать студентам представление о современных методах статистического анализа данных и машинного обучения с акцентом на биомедицинских данных, а также данных спектроскопии и микроскопии.

Курс будет интересен всем слушателям, которые хотят освоить классические и современные подходы статистического анализа данных. К особенностям курса относится большое число практических заданий, выполняемых в интерактивной среде на языке программирования Python 3, в связи с чем в начале курса обсуждаются основы синтаксиса языка и использованием библиотек часто используемых для анализа табличных данных на языке Python 3.

План курса:

Лекция 1

Введение в общую постановку задач машинного обучения. Задачи классификации и регрессии. Задачи обучения с учителем и без учителя. Примеры задач. Линейная регрессия как пример алгоритма машинного обучения.

Лекция 2

Линейные модели для решения задач регрессии и классификации. Способы борьбы с переобучением – L1 регуляризация, регуляризация Тихонова. Взаимосвязь степеней свободы модели с параметром регуляризации, связь QR разложения матрицы ковариации и коэффициентов линейной регрессии. Отбор признаков с помощью линейных моделей.

Лекция 3

Простейшие непараметрические модели для решения задач регрессии и классификации. Деревья решений, метод К-ближайших соседей, локально-взвешенная линейная регрессия. Теория построения решающего дерева, энтропия Шеннона. Проклятье размерности в метрических методах.

Лекция 4

Оценка качества моделей в задачах регрессии и классификации. Коэффициент детерминации, средняя абсолютная ошибка, введение весовых коэффициентов. Ошибки первого и второго рода в задачах классификации. Матрица смежности, точность, специфичность, F-мера, ROC-AUC, PR-AUC).

Лекция 5

Разложение ошибки модели на смещение, дисперсию и неустранимую ошибку. Ансамблирование моделей как способ снижения дисперсии. Бэггинг деревьев и построение случайных лесов для решения задачи регрессии и классификации. Оценка значимости признаков с помощью случайных лесов и с помощью перестановочной значимости.

Лекция 6-7

Градиентный бустинг как способ построения ансамблей моделей – интуитивное объяснение метода, функции потерь в градиентном бустинге. Интерпретация значимостей признаков и диагностика предиктивных моделей с помощью SHAP коэффициентов.

Лекция 8

Метод опорных векторов для решения задачи классификации и регрессии. Математическая постановка задачи. Переход к двойственной задаче и трюк с ядром. Практическое занятие: классификация злокачественных клеток по данным оптической спектроскопии с помощью метода опорных векторов.

Лекция 9

Практические аспекты построения моделей. Выбор метрики оценки моделей, оценка необходимого объема обучающей выборки, анализ смещения и дисперсии модели по кривым обучения.

Лекция 10

Введение в глубокое обучение: градиентный спуск, метод обратного распространения ошибки.

Лекция 11

Современные архитектуры нейронных сетей.

Лекция 12

Обсуждение практических проектов, решенных студентами.