bioinf2020-2021

Программа курса (предварительная)

Осенний семестр (16 лекций) Пятница, 9:00 - 10:35, онлайн

I – 04.09.20 – Коротков Е.В. Вводная лекция. Три составные части биоинформатики: Computer science, биология и математика. Задачи биоинформатики, 1D и 3D биология. 1.1 Поиск парных подобий нуклеотидных и аминокислотных последовательностей; 1.2 Множественное выравнивание нуклеотидных и аминокислотных последовательностей 1.3 Проблема аннотации биологических последовательностей и поиска генов. 1.4 Поиск регуляторных сигналов 1.5 Генетические сети и моделирование генетической регуляции клетки. 1.6 Структурная биоинформатика. 1.7 Базы данных в биоинформатике. 1.8 Новые направления в биоинформатике. Геномика, метаболомика и протеомика. Лингвистика генетических текстов.

II – 11.09.20 – Шайтан А.К. Понятие информации. Способы измерения информации. ДНК как цифровой носитель информации. Системы счисления. Теория информации. Информационная энтропия. Сжатие информации. Теорема Котельникова. Теорема Шеннона-Хартли. Шифрование информации. Хранение информации. Источники больших данные в биомедицине. Проблемы передачи больших данных.

III – 18.09.20 – Шайтан А.К. Базы данных. Типы баз данных. Биологические БД. Типы биологических баз данных. Центры биологических баз данных. Реферативные базы данных и поиск научной литературы. Базы данных нуклеотидных последовательностей (в том числе GenBank, RefSeq). Базы данных белковых последовательностей. Базы данных трехмерных структур. Базы данных химических соединений. Геномные базы данных. Базы данных геном-фенотип. БД взаимодействий, сигнальных путей. БД результатов секвенирования. БД заболеваний и медицинской информации. БД по экспрессии генов/гистологии. Таксономические БД.

IV – 25.09.20 – Новоселецкий В.Н. Элементы теории графов. Определения. Примеры. Машинное представление графов. Поиск в графах. Пути и циклы. Связность. Деревья. Эйлеровы и гамильтоновы пути. Задача о мостах и задача коммивояжёра. Графы де-Брёйна. Случайные графы.

V – 02.10.20 – Новоселецкий В.Н. Сравнение последовательностей. Точечная матрица сходства. Расстояние по Хэммингу и Левенштейну. Матрицы замен (PAM, Blosum, JTT и др.). Динамическое программирование, локальное и глобальное выравнивание, алгоритмы Нидлмана-Вунша и Смита-Уотермана. Примеры работы программ и сайтов по парному выравниванию.

VI – 09.10.20 – Новоселецкий В.Н. Экспресс-методы сравнения последовательностей. Программа Blast. Значимость выравнивания. Множественное выравнивание аминокислотных и нуклеотидных последовательностей, динамическое программирование и его недостатки. Визуализация выравниваний: профили. Связь между числом мутаций и числом консервативных позиций в множественном выравнивании.

VII – 16.10.20 – Новоселецкий В.Н. Методы кластеризации (UPGMA, NJ и др.) и филогенетические деревья. Прогрессивное выравнивание - программа Clustal. Итеративное выравнивание - программа Muscle. Модели эволюции. Филогенетические деревья: переменная скорость эволюции и притяжение длинных ветвей, методы проверки. Скобочная формула.

VIII – 23.10.20 – Новоселецкий В.Н. Выявление удаленных гомологов, скрытые марковские модели. Алгоритмы и примеры практической реализации.

IX – 30.10.20 – Герасимов Е.С. Методы секвенирования ДНК. Проект “Геном человека”. Общие принципы строения ДНК. Секвенирование по Сэнгеру. Принцип методов, основанных на терминации полимеразной реакции. Методы секвенирования второго поколения: Illumina, 454 Roche, SOLiD, полупроводниковое секвенирование. Секвенирование “третьего поколения”: Oxford Nanopore, PacBio. Ошибки секвенирования. Сравнение технологий секвенирования.

X – 06.11.20 – Герасимов Е.С. Ресеквенирование. Цели, задачи, подходы. Сборка de-novo. Общий принцип методов сборки. Разнообразие форм и размеров генома. Основные проблемы, стоящие перед сборщиком: ошибки секвенирования, повторы, естественный полиморфизм, контаминация образца. Алгоритмические подходы: Overlap-consensus-layout, графы де-Брёйна. Влияние длины прочтения и покрытия на качество сборки. Оценка качества сборки. Источники ошибок в сборках. Контиги и скаффолды. Завершение сборки (автоматические, ручное). Альтернативные подходы к сборке (optical mapping, сборка по HiC).

XI – 13.11.20 – Герасимов Е.С. Приложения ngs (hic, chipseq, mnase, clip и т.п.). Картирование ридов и алгоритмы, лежащих в его основе.

XII – 20.11.20 – Герасимов Е.С. Анализ экспрессии генов из данных NGS. Понятие дифференциальной экспрессии. Особенности подсчета числа ридов, приходящихся на ген. Статистические методы обнаружения дифференциальной экспрессии. Алгоритм DEseq2. Способы представления результатов: vulcano plot, MA plot. Анализ альтернативного сплайсинга. GO категории, обогащение GO категориями.

XIII – 27.11.20 – Коротков Е.В. Проблема аннотации биологических последовательностей. Методы поиска генов и кодирующие потенциалы. Периодичность кодирующих последовательностей. Применение марковских моделей, нейронных сетей и теории информации для поиска генов. Сайты для аннотации нуклеотидных последовательностей.

XIV – 04.12.20 – Коротков Е.В. Множественное выравнивание как NP-полная задача. Ограничение существующих методов, основанных на парном сравнении последовательностей. Новый метод поиска множественного выравнивания, позволяющий находить множественное выравнивание при числе замен больше чем 2.5 на нуклеотид. Поиск множественного выравнивания для промоторных последовательностей из геномов A.Thaliana, D.melanogaster и H.sapiens. Проблема поиска transcript start site. Группировка промоторов на основе множественного выравнивания. Множественное выравнивание MIR повторов. Другие приложения множественных выравниваний.

XV – 11.12.20 – Коротков Е.В. Проблема аннотации бактериальных генов. Недостатки существующих систем аннотации. Система аннотации бактериальных генов, основанная на филогенетической группировке. Мутации в генах типа сдвиг рамки считывания и склеек генов. Математические методы и алгоритмические подходы для поиска этих мутаций. Классы триплетной периодичности в генах. Базы данных и web-сайты для поиска склеек и сдвигов рамки считывания.

XVI – 18.12.20 – Шайтан А.К. Геномика. Понятние геномики, структурная геномика, функциональная геномика, фармакогеномика, популяционная геномика, сравнительная геномика, эволюционная геномика. Структуры эукариотических и прокариотических геномов. Ортология, паралогия, синтения, COGs (clusters of orthologous groups). Геном человека. Генетические вариации. Понятие гаплотипа и гаплогруппы. Геномные проекты: геном человека, 1000 Genomes, Epigenomics Roadmap, ENCODE, 4D nucleome, TCGA, ICGC. GWAS исследования, связь генотип-фенотип. Заболевания, наследуемые по Менделю и комплексные заболевания. Базы данных dbSNP, OMIM, ClinVar. Геномные браузеры. Демонстрация браузера Ensembl.