Якимов Борис Павлович
«Введение в анализ данных в биомедицинской фотонике»
Описание курса (годовой):
Развитие методов фотоники применительно к анализу сложных биологических объектов, таких как единичные клетки или биоткани ex vivo и in vivo, всё больше требует от исследователя понимания базовых методов статистики и статистического обучения. В отличие от простых модельных систем, отклик клеток и биотканей может быть сложным и гетерогенным, и для выявления значимых зависимостей, отличных от “шума”, например, для классификации патологических и здоровых тканей по их оптическому отклику, часто приходится прибегать к проверке статистических гипотез, отбору признаков и поиску закономерностей в данных с высокой размерностью признакового пространства, получаемых с помощью современных методов оптической микроскопии и спектроскопии.
В данном спецкурсе обсуждаются методы и подходы статистического анализа данных и статистического обучения применительно к анализу данных биомедицинской фотоники. При подаче материала акцент делается не только на теоретических основах описательных статистик, проверки гипотез, реализации алгоритмов визуализации, понижения размерности признакового пространства, классификации и регрессии, но и на приложении указанных методов для анализа реальных данных, полученных с помощью различных видов оптической и лазерной спектроскопии (спектроскопии комбинационного рассеяния, флуоресцентной спектроскопии, спектроскопии диффузного отражения, спектроскопии ИК поглощения) и микроскопии (двухфотонной микроскопии, микроскопии с визуализацией времени затухания флуоресценции и пр.) и носимых устройств, использующих технологии биофотоники, на различных специально подобранных наборах данных с помощью языка Python.Таким образом, основная цель данного спецкурса – дать студентам представление о современных методах статистического анализа данных и машинного обучения с акцентом на биомедицинских данных, а также данных спектроскопии и микроскопии.
Курс будет интересен всем слушателям, которые хотят освоить классические и современные подходы статистического анализа данных. К особенностям курса относится большое число практических заданий, выполняемых в интерактивной среде на языке программирования Python 3, в связи с чем в начале курса обсуждаются основы синтаксиса языка и использованием библиотек часто используемых для анализа табличных данных на языке Python 3.
План курса:
Лекция 1
Основы синтаксиса Python. Интерпретатор языка Python, минусы и плюсы интерпретируемых языков программирования. Знакомство с интерактивной средой разработки. Основные типы данных в Python, условные операторы и операторы циклов. Объявление функций в Python.
Лекция 2
Основные структуры данных в Python. Кортеж, список, хеш-таблицы и множества. Применение рекурсивных вызовов для решения алгоритмических задач. Асимптотические оценки времени работы и работы по памяти алгоритмов. Создание классов в Python.
Лекция 3
Основные библиотеки для работы с данными. Знакомство с библиотеками для работы с многомерными массивами и векторизованными вычислениями NumPy, библиотекой для работы с табличными данными Pandas, библиотеками для графического анализа matplotlib, seaborn и анализа изображения scikit-image.
Лекция 4
Описательные статистики. Меры центральной тенденции: среднее, мода и медиана, процентили выборки. Меры вариативности в данных: размах, дисперсия, интерквартильный размах. Гистограммы и ядерная оценка плотности, диаграммы ящиков с усами, квантиль-квантиль графики в анализе распределений.
Лекция 5
Центральная предельная теорема, построение доверительных интервалов. Т-распределение, общий механизм проверки гипотез. Ошибки первого и второго рода в статистических тестах.
Лекция 6 - 7
Теория и применение основных статистических тестов для анализа одной, двух или нескольких выборок. Параметрические тесты для анализа непрерывных данных: тесты Стьюдента, тест ANOVA. Непараметрические тесты для анализа непрерывных данных: тест знаков, Уилкоксона-Манна-Уитни и Краскела-Уоллиса.
Лекция 8
Корреляционный анализ и линейная регрессия с одним предиктором. Вывод коэффициентов регрессии, диагностика линейной регрессии: проблема гетероскедастичности, скоррелированности остатков, нелинейности отклика, диагностика выбросов. Тесты Харке-Бера и Бройша-Пагана.
Лекция 9
Множественная линейная регрессия. Вывод формулы для оптимальных значений коэффициентов. Статистические тесты на коэффициенты регрессии и коэффициент детерминации модели. Диагностика линейной регрессии: проблема гетероскедатичности, мультиколлинеарности и фактор инфляции дисперсии, проблема нелинейного отклика, диагностика выбросов, разбалансировки наблюдений и влиятельных наблюдений.
Лекция 10
Метод максимального правдоподобия для построения линейных и нелинейных моделей. Получение функции правдоподобия для решения задачи линейной регрессии, логистической регрессии в задаче бинарной классификации. Критерии Акаике и Байесовский информационный критерий для анализа качества аппроксимации.
Лекция 11
Методы кластеризации данных: К-средних и иерархической кластеризации данных. Диагностика кластеризации – инерция кластеров и индекс силуэта.
Лекция 12
Метод главных компонент и неотрицательной матричной факторизации для понижения размерности данных. Математическая постановка в методе главных компонент, свойства собственных значений матрицы ковариации. Практические особенности применения метода главных компонент и неотрицательной матричной факторизации.
Весенний семестр:
Лекция 13
Введение в общую постановку задач машинного обучения. Задачи классификации и регрессии. Задачи обучения с учителем и без учителя. Примеры задач. Линейная регрессия как пример алгоритма машинного обучения.
Лекция 14
Линейные модели для решения задач регрессии и классификации. Способы борьбы с переобучением – L1 регуляризация, регуляризация Тихонова. Взаимосвязь степеней свободы модели с параметром регуляризации, связь QR разложения матрицы ковариации и коэффициентов линейной регрессии. Отбор признаков с помощью линейных моделей.
Лекция 15
Простейшие непараметрические модели для решения задач регрессии и классификации. Деревья решений, метод К-ближайших соседей, локально-взвешенная линейная регрессия. Теория построения решающего дерева, энтропия Шеннона. Проклятье размерности в метрических методах.
Лекция 16
Оценка качества моделей в задачах регрессии и классификации. Коэффициент детерминации, средняя абсолютная ошибка, введение весовых коэффициентов. Ошибки первого и второго рода в задачах классификации. Матрица смежности, точность, специфичность, F-мера, ROC-AUC, PR-AUC.
Лекция 17
Разложение ошибки модели на смещение, дисперсию и неустранимую ошибку. Ансамблирование моделей как способ снижения дисперсии. Бэггинг деревьев и построение случайных лесов для решения задачи регрессии и классификации. Оценка значимости признаков с помощью случайных лесов и с помощью перестановочной значимости.
Лекция 18
Градиентный бустинг как способ построения ансамблей моделей – интуитивное объяснение метода, функции потерь в градиентном бустинге. Интерпретация значимостей признаков и диагностика предиктивных моделей с помощью SHAP коэффициентов.
Лекция 19
Метод опорных векторов для решения задачи классификации и регрессии. Математическая постановка задачи. Переход к двойственной задаче и трюк с ядром. Практическое занятие: классификация злокачественных клеток по данным оптической спектроскопии с помощью метода опорных векторов.
Лекция 20
Практические аспекты построения моделей. Выбор метрики оценки моделей, оценка необходимого объема обучающей выборки, анализ смещения и дисперсии модели по кривым обучения.
Лекция 21
Обсуждение практических проектов, решенных студентами.