bioinf2018-2019

Программа курса (предварительная)

I - Коротков Е.В. Вводная лекция. Три составные части биоинформатики: Computer science, биология и математика. Задачи биоинформатики, 1D и 3D биология. 1.1 Поиск парных подобий нуклеотидных и аминокислотных последовательностей; 1.2 Множественное выравнивание нуклеотидных и аминокислотных последовательностей 1.3 Проблема аннотации биологических последовательностей и поиска генов. 1.4 Поиск регуляторных сигналов 1.5 Генетические сети и моделирование генетической регуляции клетки. 1.6 Структурная биоинформатика. 1.7 Базы данных в биоинформатике. 1.8 Новые направления в биоинформатике. Геномика, метаболомика и протеомика. Лингвистика генетичеких текстов.

II - Шайтан А.К. Понятие информации. Способы измерения информации. Теория информации. Информационная энтропия. Сжатие информации. Теорема Котельникова. Теорема Шенона-Хартли. Шифрование информации. Хранение информации. Источники больших данные в биомедицине. Проблемы передачи больших данных. Базы данных. Типы баз данных. Биологические БД. Типы биологических баз данных. Центры биологических баз данных. Реферативные базы данных и поиск научной литературы. Базы данных нуклеотидных последовательностей ( в том числе GenBank, RefSeq). Базы данных белковых последовательностей. Базы данных трехмерных структур. Базы данных химических соединений. Геномные базы данных. Базы данных геном-фенотип. БД взаимодействий, сигнальных путей. БД результатов секвенирования. БД заболеваний и медицинской информации. БД по экспрессии генов/гистологии. Таксономичекские БД.

III - Новоселецкий В.Н. Сравнение последовательностей. Точечная матрица сходства. Расстояние по Хэммингу и Левенштейну. Матрицы замен PAM и Blosum. Динамическое программирование, локальное и глобальное выравнивание, алгоритмы Нидлмана-Вунша и Смита-Уотермана. Примеры работы сайтов по парному выравниванию.

IV - Новоселецкий В.Н. Экспресс-методы сравнения последовательностей. Программа Blast. Значимость выравнивания. Множественное выравнивание аминокислотных и нуклеотидных последовательностей, динамическое программирование и его недостатки. Филогенетические деревья и их свойства. Методы кластеризации UPGMA и NJ. Прогрессивное выравнивание - программа Clustal. Итеративное выравнивание - программа Muscle. Визуализация выравниваний: профили. Связь между числом мутаций и числом консервативных позиций в множественном выравнивании. Филогенетические деревья: переменная скорость эволюции и притяжение длинных ветвей, методы проверки. Скобочная формула. Выявление уделанных гомологов, скрытые марковские модели.

V - Герасимов Е.С. Методы секвенирования ДНК. Проект “Геном человека”. Общие принципы строения ДНК. Секвенирование по Сэнгеру. Принцип методов, основанных на терминации полимеразной рекации. Методы секвенирования второго поколения: Illumina, 454 Roche, SOLiD, полупроводниковое секвенирование. Секвенирование “третьего поколения”: Oxford Nanopore, PacBio. Ошибки секвенирования. Сравнение технологий секвенирования.

VI - Коротков Е.В. Проблема аннотации биологических последовательностей. Методы поиска генов и кодирующие потенциалы. Периодичность кодирующих последовательностей. Применение марковских моделей, нейронных сетей и теории информации для поиска генов. Сайты для аннотации нуклеотидных последовательностей.

VII - Герасимов Е.С. Ресеквенирование. Цели, задачи, подходы. Сборка de-novo. Общий принцип методов сборки. Разнообразие форм и размеров генома. Основные проблемы, стоящие перед сборщиком: ошибки секвенирования, повторы, естественный полиморфизм, контаминация образца. Алгоритмические подходы: Overlap-consensus-layout, графы де-Брёйна. Влияние длины прочтения и покрытия на качество сборки. Оценка качества сборки. Источники ошибок в сборках. Контиги и скаффолды. Завершение сборки (автоматические, ручное). Альтернативные подходы к сборке (optical mapping, сборка по HiC).

VIII - Новоселецкий В.Н. Структурная биоинформатика: уровни структурной организации белков. Базы данных белковых структур и формат структурных файлов. Типы вторичной структуры белков. Задание поворота в пространстве: матрицы, углы Эйлера и кватернионы. Структурные выравнивания и среднеквадратичное отклонение. Методы минимизации: наискорейший спуск и сопряженные градиенты. Матрицы расстояний. Эволюция и консервативность структуры белков, классификация структур белков, системы SCOP и CATH, поиск белков со схожей структурой.

IX - Новоселецкий В.Н. Структурная геномика. Предсказание структуры белков. Предсказание вторичной структуры и искусственные нейронные сети. Программы PSIPRED и SABLE. Гидрофобность: энтропийная природа и методы определения. Профили гидрофобности и предсказание топологии белка. Скользящее среднее. Моделирование структуры на основании гомологии: программы SwissModel и Modeller. Библиотеки ротамеров. Карты Рамачандрана. Веб-сервис ROSIE как пример универсальной платформы для моделирования. Алгоритмы распознавания пространственной укладки белка (фолда), протягивание. Радиальные функции распределения как способ оценки качества упаковки пространственных структур. Веб-сервис I-TASSER. Лейциновая застежка и предсказание суперспиралей, программа LOGICOIL. Неупорядоченные белки.

X - Новоселецкий В.Н. Смежные вопросы хемоинформатики. Представление химических соединений: молекулярный граф, матрица смежности, линейные нотации SMILES InChI, структурные файлы. Количественные отношения “структура-активность” (QSAR) и способы их предсказания. Обучающая и тестовая выборки. Метод наименьших квадратов и линейная регрессия. Методы проверки зависимостей: кросс-валидация, рандомизация. Молекулярные дескрипторы. Меры сходства выборок (коэффициент Жаккара, коэффициент Танимото). Предсказание биологических свойств. Веб-сервис PASS. Базы данных химических соединений (PubChem, ZINC, PDBbind). Виртуальный скрининг: отбор по формальным признакам, фармакофорный поиск, молекулярный докинг. Веб-сервисы SwissSimilarity и PharmIt. Поверхности молекул: ван-дер-ваальсова, молекулярная и доступная растворителю. Молекулярный докинг: общая постановка задачи. Веб-сервис SwissDock. Генетический алгоритм. Оценка межмолекулярных взаимодействий, оценочные функции. Веб-сервис Platinum. Макромолекулярный докинг.