bioinf2018-2019

Программа курса (предварительная)

Осенний семестр (12 лекций)

I – 28.09.18 – Коротков Е.В. Вводная лекция. Три составные части биоинформатики: Computer science, биология и математика. Задачи биоинформатики, 1D и 3D биология. 1.1 Поиск парных подобий нуклеотидных и аминокислотных последовательностей; 1.2 Множественное выравнивание нуклеотидных и аминокислотных последовательностей 1.3 Проблема аннотации биологических последовательностей и поиска генов. 1.4 Поиск регуляторных сигналов 1.5 Генетические сети и моделирование генетической регуляции клетки. 1.6 Структурная биоинформатика. 1.7 Базы данных в биоинформатике. 1.8 Новые направления в биоинформатике. Геномика, метаболомика и протеомика. Лингвистика генетических текстов.

II – 05.10.18 – Шайтан А.К. Понятие информации. Способы измерения информации. Теория информации. Информационная энтропия. Сжатие информации. Теорема Котельникова. Теорема Шенона-Хартли. Шифрование информации. Хранение информации. Источники больших данные в биомедицине. Проблемы передачи больших данных.

III – 12.10.18 – Шайтан А.К. Базы данных. Типы баз данных. Биологические БД. Типы биологических баз данных. Центры биологических баз данных. Реферативные базы данных и поиск научной литературы. Базы данных нуклеотидных последовательностей (в том числе GenBank, RefSeq). Базы данных белковых последовательностей. Базы данных трехмерных структур. Базы данных химических соединений. Геномные базы данных. Базы данных геном-фенотип. БД взаимодействий, сигнальных путей. БД результатов секвенирования. БД заболеваний и медицинской информации. БД по экспрессии генов/гистологии. Таксономические БД.

IV – 19.10.18 – Новоселецкий В.Н. Сравнение последовательностей. Точечная матрица сходства. Расстояние по Хэммингу и Левенштейну. Матрицы замен (PAM, Blosum, JTT и др.). Динамическое программирование, локальное и глобальное выравнивание, алгоритмы Нидлмана-Вунша и Смита-Уотермана. Примеры работы программ и сайтов по парному выравниванию.

V – 26.10.18 – Новоселецкий В.Н. Экспресс-методы сравнения последовательностей. Программы Blast (и FASTA?). Значимость выравнивания. Множественное выравнивание аминокислотных и нуклеотидных последовательностей, динамическое программирование и его недостатки. Визуализация выравниваний: профили. Связь между числом мутаций и числом консервативных позиций в множественном выравнивании.

VI – 02.11.18 – Новоселецкий В.Н. Элементы теории графов (включая деревья). Машинное представление графов: матрица инциденций, матрица смежности и т.д. Поиск в графе. Пути и циклы. Связность. Деревья. Эйлеровы пути и циклы. Гамильтоновы пути и циклы. Графы де Брёйна

VII – 09.11.18 – Новоселецкий В.Н. Методы кластеризации (UPGMA и NJ) и филогенетические деревья. Прогрессивное выравнивание - программа Clustal. Итеративное выравнивание - программа Muscle. Модели эволюции. Филогенетические деревья: переменная скорость эволюции и притяжение длинных ветвей, методы проверки. Скобочная формула.

VIII – 16.11.18 – Новоселецкий В.Н. Выявление удаленных гомологов, скрытые марковские модели.

IX – 23.11.18 – Герасимов Е.С. Методы секвенирования ДНК. Проект “Геном человека”. Общие принципы строения ДНК. Секвенирование по Сэнгеру. Принцип методов, основанных на терминации полимеразной реакции. Методы секвенирования второго поколения: Illumina, 454 Roche, SOLiD, полупроводниковое секвенирование. Секвенирование “третьего поколения”: Oxford Nanopore, PacBio. Ошибки секвенирования. Сравнение технологий секвенирования.

X – 30.11.18 – Герасимов Е.С. Ресеквенирование. Цели, задачи, подходы. Сборка de-novo. Общий принцип методов сборки. Разнообразие форм и размеров генома. Основные проблемы, стоящие перед сборщиком: ошибки секвенирования, повторы, естественный полиморфизм, контаминация образца. Алгоритмические подходы: Overlap-consensus-layout, графы де-Брёйна. Влияние длины прочтения и покрытия на качество сборки. Оценка качества сборки. Источники ошибок в сборках. Контиги и скаффолды. Завершение сборки (автоматические, ручное). Альтернативные подходы к сборке (optical mapping, сборка по HiC).

XI – 07.12.18 – Герасимов Е.С. Приложения ngs (hic, chipseq, mnase, clip и т.п.). Картирование ридов как таковое и алгоритмах, лежащие в его в основе.

XII – 14.12.18 – Коротков Е.В. Проблема аннотации биологических последовательностей. Методы поиска генов и кодирующие потенциалы. Преобразования Фурье. Периодичность кодирующих последовательностей. Применение марковских моделей, нейронных сетей и теории информации для поиска генов. Сайты для аннотации нуклеотидных последовательностей.

Весенний семестр (10 лекций) XIII - 11.02 – Новоселецкий В.Н. Структурная биоинформатика: объекты и методы. Уровни структурной организации белков и НК. Типы вторичной структуры белков и НК. Разнообразие структур биомакромолекул. Базы данных структур. Неупорядоченные белки. Структурные выравнивания: задание поворота в пространстве (матрицы, углы Эйлера и кватернионы), среднеквадратичное отклонение, методы минимизации функции многих переменных (наискорейший спуск и сопряженные градиенты). Матрицы расстояний. Эволюция и консервативность структуры белков, классификация структур белков, системы SCOP и CATH, поиск белков со схожим типом укладки. Структурная геномика.

XIV – 18.02 - Армеев Г.А. Основы структурной биологии: рентгеноструктурный анализ биомакромолекул. Формат структурных файлов. Представление структуры белков и НК во внутренних координатах. Карты Рамачандрана.

XV – 25.02 - Новоселецкий В.Н. Предсказание структуры белков. Предсказание вторичной структуры и искусственные нейронные сети. Программы PSIPRED и SABLE. Гидрофобность: энтропийная природа и методы определения. Профили гидрофобности и предсказание топологии белка. Моделирование структуры на основании гомологии: программы SwissModel и Modeller. Библиотеки ротамеров. Веб-сервис ROSIE как пример универсальной платформы для моделирования. Алгоритмы распознавания пространственной укладки белка (фолда), протягивание. Радиальные функции распределения как способ оценки качества упаковки пространственных структур. Веб-сервис I-TASSER. Лейциновая застежка и предсказание суперспиралей, программа LOGICOIL.

XVI – 4.03 – Шайтан А.К. Молекулярная динамика и др методы исследования конформационного пространства структур биомакромолекул.

XVII – 11.03 - Герасимов Е.С. Анализ экспрессии генов из данных NGS. Понятие дифференциальной экспрессии. Особенности подсчета числа ридов, приходящихся на ген. Статистические методы обнаружения дифференциальной экспрессии. Алгоритм DEseq2. Способы представления результатов: vulcano plot, MA plot. Анализ альтернативного сплайсинга. GO категории, обогащение GO категориями.

XVIII – 18.03 - Коротков Е.В. Множественное выравнивание как NP-полная задача. Ограничение существующих методов, основанных на парном сравнении последовательностей. Новый метод поиска множественного выравнивания, позволяющий находить множественное выравнивание при числе замен больше чем 2.5 на нуклеотид. Поиск множественного выравнивания для промоторных последовательностей из геномов A.Thaliana, D.melanogaster и H.sapiens. Проблема поиска transcript start site. Группировка промоторов на основе множественного выравнивания. Множественное выравнивание MIR повторов. Другие приложения множественных выравниваний.

XIX – 25.03 - Коротков Е.В. Проблема аннотации бактериальных генов. Недостатки существующих систем аннотации. Система аннотации бактериальных генов, основанная на филогенетической группировке. Мутации в генах тапа сдвиг рамки считывания и склеек генов. Математические методы и алгоритмические подходы для поиска этих мутаций. Классы триплетной периодичности в генах. Базы данных и web-сайты для поиска склеек и сдвигов рамки считывания.

XX – 1.04 - Новоселецкий В.Н. Смежные вопросы хемоинформатики. Представление химических соединений: молекулярный граф, матрица смежности, линейные нотации SMILES InChI, структурные файлы. Количественные отношения “структура-активность” (QSAR) и способы их предсказания. Обучающая и тестовая выборки. Метод наименьших квадратов и линейная регрессия. Методы проверки зависимостей: кросс-валидация, рандомизация. Молекулярные дескрипторы. Меры сходства выборок (коэффициент Жаккара, коэффициент Танимото). Предсказание биологических свойств. Веб-сервис PASS.

XXI – 8.04 - Новоселецкий В.Н. Базы данных химических соединений (PubChem, ZINC, PDBbind). Виртуальный скрининг: отбор по формальным признакам, фармакофорный поиск, молекулярный докинг. Веб-сервисы SwissSimilarity и PharmIt. Поверхности молекул: ван-дер-ваальсова, молекулярная и доступная растворителю. Молекулярный докинг: общая постановка задачи. Веб-сервис SwissDock. Генетический алгоритм, программа AutoDock. Оценка межмолекулярных взаимодействий, оценочные функции. Программа LigPlot, Веб-сервис Platinum. Макромолекулярный докинг, программа ZDOCK.

XXII – 15.04 - Шайтан А.К. Машинное обучение и deep learning в биологии.