Якимов Борис Павлович

Якимов Борис Павлович

«Введение в анализ данных в биомедицинской фотонике»

Описание курса (годовой):

Развитие методов фотоники применительно к анализу сложных биологических объектов, таких как единичные клетки или биоткани ex vivo и in vivo, всё больше требует от исследователя понимания базовых методов статистики и статистического обучения. В отличие от простых модельных систем, отклик клеток и биотканей может быть сложным и гетерогенным, и для выявления значимых зависимостей, отличных от “шума”, например, для классификации патологических и здоровых тканей по их оптическому отклику, часто приходится прибегать к проверке статистических гипотез, отбору признаков и поиску закономерностей в данных с высокой размерностью признакового пространства, получаемых с помощью современных методов оптической микроскопии и спектроскопии.

В данном спецкурсе обсуждаются методы и подходы статистического анализа данных и статистического обучения применительно к анализу данных биомедицинской фотоники. При подаче материала акцент делается не только на теоретических основах описательных статистик, проверки гипотез, реализации алгоритмов визуализации, понижения размерности признакового пространства, классификации и регрессии, но и на приложении указанных методов для анализа реальных данных, полученных с помощью различных видов оптической и лазерной спектроскопии (спектроскопии комбинационного рассеяния, флуоресцентной спектроскопии, спектроскопии диффузного отражения, спектроскопии ИК поглощения) и микроскопии (двухфотонной микроскопии, микроскопии с визуализацией времени затухания флуоресценции и пр.) и носимых устройств, использующих технологии биофотоники, на различных специально подобранных наборах данных с помощью языка Python.

Таким образом, основная цель данного спецкурса – дать студентам представление о современных методах статистического анализа данных и машинного обучения с акцентом на биомедицинских данных, а также данных спектроскопии и микроскопии.

Курс будет интересен всем слушателям, которые хотят освоить классические и современные подходы статистического анализа данных. К особенностям курса относится большое число практических заданий, выполняемых в интерактивной среде на языке программирования Python 3, в связи с чем в начале курса обсуждаются основы синтаксиса языка и использованием библиотек часто используемых для анализа табличных данных на языке Python 3.

 

План курса:
 

Лекция 1

Основы синтаксиса Python. Интерпретатор языка Python, минусы и плюсы интерпретируемых языков программирования. Знакомство с интерактивной средой разработки. Основные типы данных в Python, условные операторы и операторы циклов. Объявление функций в Python.

Лекция 2

Основные структуры данных в Python. Кортеж, список, хеш-таблицы и множества. Применение рекурсивных вызовов для решения алгоритмических задач. Асимптотические оценки времени работы и работы по памяти алгоритмов. Создание классов в Python.

Лекция 3

Основные библиотеки для работы с данными. Знакомство с библиотеками для работы с многомерными массивами и векторизованными вычислениями NumPy, библиотекой для работы с табличными данными Pandas, библиотеками для графического анализа matplotlib, seaborn и анализа изображения scikit-image.

Лекция 4

Описательные статистики. Меры центральной тенденции: среднее, мода и медиана, процентили выборки. Меры вариативности в данных: размах, дисперсия, интерквартильный размах. Гистограммы и ядерная оценка плотности, диаграммы ящиков с усами, квантиль-квантиль графики в анализе распределений.

Лекция 5

Центральная предельная теорема, построение доверительных интервалов. Т-распределение, общий механизм проверки гипотез. Ошибки первого и второго рода в статистических тестах.

Лекция 6 - 7

Теория и применение основных статистических тестов для анализа одной, двух или нескольких выборок. Параметрические тесты для анализа непрерывных данных: тесты Стьюдента, тест ANOVA. Непараметрические тесты для анализа непрерывных данных: тест знаков, Уилкоксона-Манна-Уитни и Краскела-Уоллиса.

Лекция 8

Корреляционный анализ и линейная регрессия с одним предиктором. Вывод коэффициентов регрессии, диагностика линейной регрессии: проблема гетероскедастичности, скоррелированности остатков, нелинейности отклика, диагностика выбросов. Тесты Харке-Бера и Бройша-Пагана.

Лекция 9

Множественная линейная регрессия. Вывод формулы для оптимальных значений коэффициентов. Статистические тесты на коэффициенты регрессии и коэффициент детерминации модели. Диагностика линейной регрессии: проблема гетероскедатичности, мультиколлинеарности и фактор инфляции дисперсии, проблема нелинейного отклика, диагностика выбросов, разбалансировки наблюдений и влиятельных наблюдений.

Лекция 10

Метод максимального правдоподобия для построения линейных и нелинейных моделей. Получение функции правдоподобия для решения задачи линейной регрессии, логистической регрессии в задаче бинарной классификации. Критерии Акаике и Байесовский информационный критерий для анализа качества аппроксимации.

Лекция 11

Методы кластеризации данных: К-средних и иерархической кластеризации данных. Диагностика кластеризации – инерция кластеров и индекс силуэта.

Лекция 12

Метод главных компонент и неотрицательной матричной факторизации для понижения размерности данных. Математическая постановка в методе главных компонент, свойства собственных значений матрицы ковариации. Практические особенности применения метода главных компонент и неотрицательной матричной факторизации.

Весенний семестр:

Лекция 13

Введение в общую постановку задач машинного обучения. Задачи классификации и регрессии. Задачи обучения с учителем и без учителя. Примеры задач. Линейная регрессия как пример алгоритма машинного обучения.

Лекция 14

Линейные модели для решения задач регрессии и классификации. Способы борьбы с переобучением – L1 регуляризация, регуляризация Тихонова. Взаимосвязь степеней свободы модели с параметром регуляризации, связь QR разложения матрицы ковариации и коэффициентов линейной регрессии. Отбор признаков с помощью линейных моделей.

Лекция 15

Простейшие непараметрические модели для решения задач регрессии и классификации. Деревья решений, метод К-ближайших соседей, локально-взвешенная линейная регрессия. Теория построения решающего дерева, энтропия Шеннона. Проклятье размерности в метрических методах.

Лекция 16

Оценка качества моделей в задачах регрессии и классификации. Коэффициент детерминации, средняя абсолютная ошибка, введение весовых коэффициентов. Ошибки первого и второго рода в задачах классификации. Матрица смежности, точность, специфичность, F-мера, ROC-AUC, PR-AUC.

Лекция 17

Разложение ошибки модели на смещение, дисперсию и неустранимую ошибку. Ансамблирование моделей как способ снижения дисперсии. Бэггинг деревьев и построение случайных лесов для решения задачи регрессии и классификации. Оценка значимости признаков с помощью случайных лесов и с помощью перестановочной значимости.

Лекция 18

Градиентный бустинг как способ построения ансамблей моделей – интуитивное объяснение метода, функции потерь в градиентном бустинге. Интерпретация значимостей признаков и диагностика предиктивных моделей с помощью SHAP коэффициентов.

Лекция 19

Метод опорных векторов для решения задачи классификации и регрессии. Математическая постановка задачи. Переход к двойственной задаче и трюк с ядром. Практическое занятие: классификация злокачественных клеток по данным оптической спектроскопии с помощью метода опорных векторов.

Лекция 20

Практические аспекты построения моделей. Выбор метрики оценки моделей, оценка необходимого объема обучающей выборки, анализ смещения и дисперсии модели по кривым обучения.

Лекция 21

Обсуждение практических проектов, решенных студентами.