Биоинформатика - Bioinformatics

Ранняя биоинформатика - вычислительное выравнивание экспериментально определенных последовательностей класса родственных белков; см. § Анализ последовательности для получения дополнительной информации.
Карта Х-хромосомы человека (с веб-сайта Национального центра биотехнологической информации )

Биоинформатики ( / ˌ б . ˌ ɪ п х ər м æ т ɪ к s / ( слушать )Об этом звуке ) является междисциплинарным полем , которое разрабатывает методы и программные средства для понимания биологических данных, в частности , когда наборы данных являются большими и сложными . Как междисциплинарная область науки, биоинформатика сочетает в себе биологию , информатику , информационную инженерию , математику и статистику для анализа и интерпретации биологических данных . Биоинформатика использовалась для анализа in silico биологических запросов с использованием математических и статистических методов.

Биоинформатика включает биологические исследования, которые используют компьютерное программирование как часть своей методологии, а также специфические «конвейеры» анализа, которые используются неоднократно, особенно в области геномики . Обычно биоинформатика используется для идентификации генов- кандидатов и однонуклеотидных полиморфизмов ( SNP ). Часто такая идентификация проводится с целью лучшего понимания генетической основы болезни, уникальных приспособлений, желаемых свойств (особенно у сельскохозяйственных видов) или различий между популяциями. Менее формально биоинформатика также пытается понять организационные принципы в последовательностях нуклеиновых кислот и белков , называемые протеомикой .

Обзор

Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как обработка изображений и сигналов, позволяют извлекать полезные результаты из больших объемов необработанных данных. В области генетики он помогает секвенировать и аннотировать геномы и наблюдаемые в них мутации . Он играет важную роль в анализе текстов биологической литературы и разработке биологических и генных онтологий для организации и запроса биологических данных. Он также играет роль в анализе экспрессии и регуляции генов и белков. Инструменты биоинформатики помогают в сравнении, анализе и интерпретации генетических и геномных данных и, в более общем плане, в понимании эволюционных аспектов молекулярной биологии. На более интегративном уровне он помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии . В структурной биологии он помогает моделировать и моделировать ДНК, РНК, белки, а также биомолекулярные взаимодействия.

История

Исторически термин биоинформатика не означал то, что он означает сегодня. Полин Хогевег и Бен Хеспер изобрели его в 1970 году для обозначения изучения информационных процессов в биотических системах. Это определение помещало биоинформатику как область, параллельную биохимии (изучение химических процессов в биологических системах).

Последовательности

Последовательности генетического материала часто используются в биоинформатике, и ими легче управлять с помощью компьютеров, чем вручную.

Компьютеры стали незаменимыми в молекулярной биологии, когда последовательности белков стали доступны после того, как Фредерик Сэнджер определил последовательность инсулина в начале 1950-х годов. Сравнение нескольких последовательностей вручную оказалось нецелесообразным. Первопроходцем в этой области была Маргарет Окли Дейхофф . Она составила одну из первых баз данных последовательностей белков, первоначально опубликованных в виде книг, и впервые применила методы выравнивания последовательностей и молекулярной эволюции. Еще одним ранним участником биоинформатики был Элвин А. Кабат , который в 1970 году первым ввел анализ биологической последовательности, выпустив обширные тома последовательностей антител с помощью Tai Te Wu в период с 1980 по 1991 год. В 1970-х годах новые методы секвенирования ДНК были применены к бактериофагу MS2 и øX174, и расширенные нуклеотидные последовательности затем анализировали с помощью информационных и статистических алгоритмов. Эти исследования продемонстрировали, что хорошо известные особенности, такие как сегменты кодирования и триплетный код, выявляются в результате прямого статистического анализа и, таким образом, являются доказательством концепции, согласно которой биоинформатика может быть полезной.

Цели

Чтобы изучить, как нормальная клеточная активность изменяется при различных болезненных состояниях, биологические данные должны быть объединены, чтобы сформировать исчерпывающую картину этих активностей. Таким образом, область биоинформатики развивалась так, что наиболее актуальной задачей в настоящее время является анализ и интерпретация различных типов данных. Это также включает нуклеотидные и аминокислотные последовательности , белковые домены и белковые структуры . Фактический процесс анализа и интерпретации данных называется вычислительной биологией . Важные субдисциплины биоинформатики и вычислительной биологии включают:

  • Разработка и внедрение компьютерных программ, обеспечивающих эффективный доступ, управление и использование различных типов информации.
  • Разработка новых алгоритмов (математических формул) и статистических показателей, которые оценивают отношения между членами больших наборов данных. Так , например, существует способы , чтобы найти ген в последовательности, чтобы предсказать структуру белка и / или функцию, а также для кластера белковых последовательностей в семейство родственных последовательностей.

Основная цель биоинформатики - улучшить понимание биологических процессов. Однако, что отличает его от других подходов, так это то, что он ориентирован на разработку и применение вычислительно-ресурсоемких методов для достижения этой цели. Примеры включают: распознавание образов , интеллектуальный анализ данных , алгоритмы машинного обучения и визуализацию . Основные научно - исследовательские работы в этой области включают в себя выравнивание последовательности , генного вывод , геном сборки , дизайн наркотиков , обнаружение наркотиков , выравнивание структуры белка , предсказание структуры белка , предсказание экспрессии генов и белок-белковых взаимодействий , генома исследования ассоциации , моделирование эволюции и деление / митоз клеток.

Биоинформатика в настоящее время влечет за собой создание и развитие баз данных, алгоритмов, вычислительных и статистических методов и теории для решения формальных и практических проблем, возникающих в результате управления и анализа биологических данных.

За последние несколько десятилетий быстрое развитие технологий геномных и других молекулярных исследований и развитие информационных технологий объединились, чтобы произвести огромное количество информации, связанной с молекулярной биологией. Биоинформатика - это название, данное этим математическим и вычислительным подходам, используемым для понимания биологических процессов.

Общие виды деятельности в биоинформатике включают картирование и анализ последовательностей ДНК и белков, выравнивание последовательностей ДНК и белков для их сравнения, а также создание и просмотр трехмерных моделей структур белков.

Отношение к другим полям

Биоинформатика - это область науки, которая похожа на биологические вычисления , но отличается от них , хотя ее часто считают синонимом вычислительной биологии . Биологические вычисления используют биоинженерию и биологию для создания биологических компьютеров , тогда как биоинформатика использует вычисления для лучшего понимания биологии. Биоинформатика и вычислительная биология включают анализ биологических данных, в частности последовательностей ДНК, РНК и белков. Область биоинформатики пережила взрывной рост, начиная с середины 1990-х годов, в основном благодаря проекту « Геном человека» и быстрому прогрессу в технологии секвенирования ДНК.

Анализ биологических данных для получения значимой информации включает в себя написание и запуск программ , которые используют алгоритмы из теории графов , искусственного интеллекта , мягких вычислений , интеллектуального анализа данных , обработки изображений и компьютерного моделирования . Алгоритмы , в свою очередь зависит от теоретических основ , таких как дискретной математики , теории управления , теории систем , теории информации и статистики .

Анализ последовательности

Так как Фаг Φ-x174 был секвенирован в 1977 году, в последовательности ДНК тысяч организмов были декодирована и сохранена в базах данных. Эта информация о последовательностях анализируется для определения генов, кодирующих белки , гены РНК, регуляторные последовательности, структурные мотивы и повторяющиеся последовательности. Сравнение генов внутри одного вида или между разными видами может показать сходство между функциями белков или отношениями между видами (использование молекулярной систематики для построения филогенетических деревьев ). С растущим объемом данных давно стало непрактично анализировать последовательности ДНК вручную. Компьютерные программы, такие как BLAST , обычно используются для поиска последовательностей - по состоянию на 2008 год - из более чем 260 000 организмов, содержащих более 190 миллиардов нуклеотидов .

Секвенирование ДНК

Прежде чем последовательности могут быть проанализированы, они должны быть получены из примера банка хранения данных Genbank. Секвенирование ДНК по-прежнему является нетривиальной проблемой, поскольку необработанные данные могут быть зашумленными или искаженными слабыми сигналами. Были разработаны алгоритмы для базового вызова различных экспериментальных подходов к секвенированию ДНК.

Последовательная сборка

Большинство методов секвенирования ДНК производят короткие фрагменты последовательности, которые необходимо собрать для получения полных последовательностей гена или генома. Так называемый метод секвенирования с дробовиком (который использовался, например, Институтом геномных исследований (TIGR) для секвенирования первого бактериального генома, Haemophilus influenzae ) генерирует последовательности многих тысяч небольших фрагментов ДНК (от 35 до 900 нуклеотиды длинные, в зависимости от технологии секвенирования). Концы этих фрагментов перекрываются и при правильном выравнивании программой сборки генома могут быть использованы для реконструкции всего генома. Секвенирование дробовиком позволяет быстро получить данные о последовательности, но задача сборки фрагментов может быть довольно сложной для больших геномов. Для такого большого генома, как геном человека , для сборки фрагментов может потребоваться много дней процессорного времени на многопроцессорных компьютерах с большой памятью, и полученная сборка обычно содержит многочисленные пробелы, которые необходимо заполнить позже. Секвенирование методом дробовика - это метод выбора практически для всех секвенируемых сегодня геномов, а алгоритмы сборки генома являются важной областью исследований в области биоинформатики.

Аннотации генома

В контексте геномика , аннотации представляют собой процесс маркировки генов и другие биологические функции в последовательности ДНК. Этот процесс необходимо автоматизировать, потому что большинство геномов слишком велики для аннотирования вручную, не говоря уже о желании аннотировать как можно больше геномов, поскольку скорость секвенирования перестала быть узким местом. Аннотация стала возможной благодаря тому факту, что гены имеют узнаваемые начальные и конечные области, хотя точная последовательность, обнаруженная в этих областях, может варьироваться между генами.

Первое описание комплексной системы аннотации генома было опубликовано в 1995 году командой Института геномных исследований, которая выполнила первое полное секвенирование и анализ генома свободноживущего организма, бактерии Haemophilus influenzae . Оуэн Уайт разработал и построил систему программного обеспечения для идентификации генов, кодирующих все белки, РНК переноса, рибосомных РНК (и других сайтов), а также для выполнения начальных функциональных назначений. Большинство современных систем аннотации генома работают аналогично, но программы, доступные для анализа геномной ДНК, такие как программа GeneMark, обученная и используемая для поиска генов, кодирующих белок, у Haemophilus influenzae , постоянно меняются и совершенствуются.

Следуя целям, которые оставалось достичь проекту «Геном человека» после его закрытия в 2003 году, появился новый проект, разработанный Национальным институтом исследования генома человека в США. Так называемый проект ENCODE - это совместный сбор данных о функциональных элементах человеческого генома с использованием технологий секвенирования ДНК следующего поколения и массивов геномных листов, технологий, способных автоматически генерировать большие объемы данных при значительном снижении стоимости каждой базы. но с той же точностью (ошибка базового вызова) и верностью (ошибка сборки).

Прогнозирование функции генов

В то время как аннотация генома в первую очередь основана на сходстве последовательностей (и, следовательно, гомологии ), другие свойства последовательностей могут использоваться для прогнозирования функции генов. Фактически, большинство методов прогнозирования функций генов сосредоточены на белковых последовательностях, поскольку они более информативны и содержат больше функций. Например, распределение гидрофобных аминокислот предсказывает трансмембранные сегменты в белках. Тем не менее, предсказание функции белка может также использовать внешнюю информацию , такие как ген (или белка) экспрессии данные, структуры белка , или белка-белковые взаимодействия .

Вычислительная эволюционная биология

Эволюционная биология - это изучение происхождения и происхождения видов , а также их изменения с течением времени. Информатика помогла эволюционным биологам, позволив исследователям:

  • отслеживать эволюцию большого числа организмов, измеряя изменения в их ДНК , а не только с помощью физической систематики или физиологических наблюдений,
  • сравнивать целые геномы , что позволяет изучать более сложные эволюционные события, такие как дупликация генов , горизонтальный перенос генов , а также прогнозировать факторы, важные для видообразования бактерий ,
  • создавать сложные вычислительные модели популяционной генетики для прогнозирования результатов работы системы с течением времени
  • отслеживать и обмениваться информацией о все большем количестве видов и организмов

Будущая работа направлена ​​на реконструкцию уже более сложного древо жизни .

Область компьютерных исследований, в которой используются генетические алгоритмы , иногда путают с вычислительной эволюционной биологией, но эти две области не обязательно связаны.

Сравнительная геномика

Ядром сравнительного анализа генома является установление соответствия между генами ( анализ ортологии ) или другими геномными признаками у разных организмов. Именно эти межгеномные карты позволяют проследить эволюционные процессы, ответственные за расхождение двух геномов. Множество эволюционных событий, действующих на разных организационных уровнях, формируют эволюцию генома. На самом низком уровне точечные мутации влияют на отдельные нуклеотиды. На более высоком уровне большие хромосомные сегменты подвергаются дупликации, латеральному переносу, инверсии, транспозиции, делеции и вставке. В конечном счете, целые геномы участвуют в процессах гибридизации, полиплоидизации и эндосимбиоза , что часто приводит к быстрому видообразованию. Сложность эволюции генома ставит множество интересных задач для разработчиков математических моделей и алгоритмов, которые прибегают к целому ряду алгоритмических, статистических и математических методов, начиная от точных, эвристических , алгоритмов с фиксированным параметром и аппроксимации для задач, основанных на моделях экономии, до алгоритмов Маркова. цепные алгоритмы Монте-Карло для байесовского анализа задач на основе вероятностных моделей.

Многие из этих исследований основаны на обнаружении гомологии последовательностей для отнесения последовательностей к семействам белков .

Пан геномика

Пангеномика - это концепция, представленная в 2005 году Теттелином и Медини, которая в конечном итоге прижилась в биоинформатике. Пангеном - это полный репертуар генов определенной таксономической группы: хотя изначально он применялся к близкородственным штаммам вида, он может применяться в более широком контексте, таком как род, тип и т. Д. Он разделен на две части - Основной геном: набор генов, общих для всех исследуемых геномов (часто это гены домашнего хозяйства, жизненно важные для выживания) и «Незаменимый / гибкий геном»: набор генов, не присутствующих во всех исследуемых геномах, кроме одного или некоторых. Инструмент биоинформатики BPGA можно использовать для характеристики пан-генома бактериальных видов.

Генетика болезни

С появлением секвенирования следующего поколения мы получаем достаточно данных о последовательностях для картирования генов сложных заболеваний, бесплодия , рака груди или болезни Альцгеймера . Полногеномные ассоциативные исследования - полезный подход для точного определения мутаций, ответственных за такие сложные заболевания. Благодаря этим исследованиям были идентифицированы тысячи вариантов ДНК, которые связаны со схожими заболеваниями и признаками. Кроме того, возможность использования генов для прогноза, диагностики или лечения является одним из наиболее важных приложений. Во многих исследованиях обсуждаются как многообещающие способы выбора используемых генов, так и проблемы и подводные камни использования генов для прогнозирования наличия или прогноза заболевания.

Анализ мутаций при раке

При раке геномы пораженных клеток перестраиваются сложным или даже непредсказуемым образом. Для выявления ранее неизвестных точечных мутаций в различных генах рака используются огромные усилия по секвенированию . Специалисты по биоинформатике продолжают создавать специализированные автоматизированные системы для управления огромным объемом производимых данных о последовательностях, и они создают новые алгоритмы и программное обеспечение для сравнения результатов секвенирования с растущей коллекцией последовательностей генома человека и полиморфизмами зародышевой линии . Используются новые технологии физического обнаружения, такие как микромассивы олигонуклеотидов для выявления хромосомных приростов и потерь (так называемая сравнительная геномная гибридизация ) и массивы однонуклеотидного полиморфизма для обнаружения известных точечных мутаций . Эти методы обнаружения одновременно измеряют несколько сотен тысяч сайтов по всему геному, и при использовании с высокой пропускной способностью для измерения тысяч образцов генерируют терабайты данных за эксперимент. И снова огромные объемы и новые типы данных открывают новые возможности для биоинформатиков. Часто обнаруживается, что данные содержат значительную изменчивость или шум , и поэтому разрабатываются скрытая марковская модель и методы анализа точек изменения для вывода реальных изменений количества копий .

При биоинформатическом анализе геномов рака можно использовать два важных принципа, относящихся к идентификации мутаций в экзоме . Во-первых, рак - это болезнь накопленных соматических мутаций в генах. Второй рак содержит мутации водителя, которые нужно отличать от пассажиров.

Благодаря прорывам, которые эта технология секвенирования следующего поколения обеспечивает в области биоинформатики, геномика рака может кардинально измениться. Эти новые методы и программное обеспечение позволяют специалистам по биоинформатике быстро и по доступной цене секвенировать многие геномы рака. Это могло бы создать более гибкий процесс классификации типов рака путем анализа мутаций в геноме, вызванных раком. Кроме того, отслеживание пациентов по мере прогрессирования заболевания может стать возможным в будущем с помощью последовательности образцов рака.

Другой тип данных, который требует разработки новой информатики, - это анализ поражений, которые, как выяснилось, рецидивируют среди многих опухолей.

Экспрессия генов и белков

Анализ экспрессии генов

Выражение многих генов может быть определена путем измерения мРНК уровней с несколькими способами , включая микрочипов , выражается последовательность кДНК тегов (EST) секвенирование, серийный анализ экспрессии генов (SAGE) тег последовательности, с массовым параллелизмом подписи секвенирование (MPSS), РНК-Seq , также известное как «дробовое секвенирование всего транскриптома» (WTSS) или различные применения мультиплексной гибридизации in-situ. Все эти методы чрезвычайно подвержены шуму и / или подвержены систематической ошибке в биологических измерениях, и основная область исследований в области вычислительной биологии включает разработку статистических инструментов для отделения сигнала от шума в высокопроизводительных исследованиях экспрессии генов. Такие исследования часто используются для определения генов, вовлеченных в заболевание: можно сравнить данные микрочипов раковых эпителиальных клеток с данными незлокачественных клеток для определения транскриптов, которые активируются и подавляются в определенной популяции раковых клеток. .

Анализ экспрессии белка

Белковые микроматрицы и масс-спектрометрия (МС) с высокой пропускной способностью (HT) могут обеспечить моментальный снимок белков, присутствующих в биологическом образце. Биоинформатика очень активно участвует в осмыслении белковых микрочипов и данных ГТ-МС; Первый подход сталкивается с теми же проблемами, что и микроматрицы, нацеленные на мРНК, второй включает в себя проблему сопоставления больших объемов массовых данных с предсказанными массами из баз данных последовательностей белков, а также сложный статистический анализ образцов, в которых обнаруживаются множественные, но неполные пептиды из каждого белка. обнаружен. Локализация клеточного белка в тканевом контексте может быть достигнута с помощью аффинной протеомики, отображаемой в виде пространственных данных на основе иммуногистохимии и тканевых микрочипов .

Анализ регулирования

Генная регуляция - это сложная оркестровка событий, посредством которых сигнал, потенциально внеклеточный сигнал, такой как гормон , в конечном итоге приводит к увеличению или уменьшению активности одного или нескольких белков . Для изучения различных этапов этого процесса были применены методы биоинформатики.

Например, экспрессия гена может регулироваться соседними элементами генома. Анализ промотора включает идентификацию и изучение мотивов последовательности в ДНК, окружающей кодирующую область гена. Эти мотивы влияют на степень транскрибирования этой области в мРНК. Элементы энхансера, расположенные далеко от промотора, также могут регулировать экспрессию генов посредством трехмерных петлевых взаимодействий. Эти взаимодействия могут быть определены с помощью биоинформатического анализа экспериментов по захвату конформации хромосом .

Данные экспрессии могут использоваться для вывода о регуляции генов: можно сравнивать данные микрочипов из самых разных состояний организма, чтобы сформировать гипотезы о генах, участвующих в каждом состоянии. В одноклеточном организме можно сравнить этапы клеточного цикла с различными стрессовыми условиями (тепловой шок, голод и т. Д.). Затем можно применить алгоритмы кластеризации к этим данным экспрессии, чтобы определить, какие гены коэкспрессируются. Например, в вышестоящих областях (промоторах) коэкспрессируемых генов можно проводить поиск чрезмерно представленных регуляторных элементов . Примерами алгоритмов кластеризации, применяемых в кластеризации генов, являются кластеризация k-средних , самоорганизующиеся карты (SOM), иерархическая кластеризация и методы консенсусной кластеризации .

Анализ клеточной организации

Было разработано несколько подходов для анализа расположения органелл, генов, белков и других компонентов внутри клеток. Это важно, поскольку расположение этих компонентов влияет на события в клетке и, таким образом, помогает нам предсказать поведение биологических систем. Онтология гена категория, клеточный компонент , была разработана , чтобы захватить внутриклеточную локализацию во многих биологических базах данных .

Микроскопия и анализ изображений

Микроскопические изображения позволяют нам обнаруживать как органеллы, так и молекулы. Это также может помочь нам различать нормальные и аномальные клетки, например, при раке .

Локализация белка

Локализация белков помогает нам оценить роль белка. Например, если в ядре обнаружен белок, он может участвовать в регуляции генов или сплайсинге . Напротив, если белок обнаружен в митохондриях , он может участвовать в дыхании или других метаболических процессах . Таким образом, локализация белка является важным компонентом прогнозирования функции белка . Доступны хорошо разработанные ресурсы для предсказания субклеточной локализации белков , включая базы данных субклеточного местоположения белков и инструменты для предсказания.

Ядерная организация хроматина

Данные высокопроизводительных экспериментов по захвату конформации хромосом , таких как Hi-C (эксперимент) и ChIA-PET , могут предоставить информацию о пространственной близости локусов ДНК. Анализ этих экспериментов может определить трехмерную структуру и ядерную организацию хроматина. Биоинформатические проблемы в этой области включают разделение генома на домены, такие как топологически ассоциированные домены (TAD), которые организованы вместе в трехмерном пространстве.

Структурная биоинформатика

Трехмерные белковые структуры, подобные этой, часто используются при биоинформатическом анализе.

Прогнозирование структуры белков - еще одно важное приложение биоинформатики. Аминокислотная последовательность белка, так называемой первичной структуры , может быть легко определено из последовательности на ген , который кодирует его. В подавляющем большинстве случаев эта первичная структура однозначно определяет структуру в ее естественной среде. (Конечно, есть исключения, такие как прион губчатой ​​энцефалопатии крупного рогатого скота (коровье бешенство) .) Знание этой структуры жизненно важно для понимания функции белка. Структурная информация обычно подразделяется на вторичную , третичную и четвертичную структуру. Жизнеспособное общее решение таких прогнозов остается открытой проблемой. До сих пор большинство усилий было направлено на эвристику, которая работает большую часть времени.

Одна из ключевых идей биоинформатики - понятие гомологии . В геномной ветви биоинформатики гомология используется для прогнозирования функции гена: если последовательность гена A , функция которого известна, гомологична последовательности гена B, функция которого неизвестна, можно сделать вывод, что B может разделяют функцию А. В структурной ветви биоинформатики гомология используется для определения того, какие части белка важны для формирования структуры и взаимодействия с другими белками. В методе, называемом моделированием гомологии , эта информация используется для прогнозирования структуры белка, если структура гомологичного белка известна. В настоящее время это единственный способ надежно предсказать структуру белка.

Одним из примеров этого является гемоглобин у людей и гемоглобин в бобовых ( леггемоглобин ), которые являются дальними родственниками из одного и того же суперсемейства белков . Оба служат одной и той же цели транспортировки кислорода в организме. Хотя оба этих белка имеют совершенно разные аминокислотные последовательности, их белковые структуры практически идентичны, что отражает их почти идентичные цели и общего предка.

Другие методы прогнозирования структуры белка включают в себя потоки белков и моделирование de novo (с нуля), основанное на физике.

Другой аспект структурной биоинформатики включает использование белковых структур для моделей виртуального скрининга, таких как модели количественной взаимосвязи структуры и активности и протеохимометрические модели (PCM). Кроме того, кристаллическую структуру белка можно использовать в моделировании, например, исследований связывания лиганда и исследований мутагенеза in silico .

Сетевая и системная биология

Сетевой анализ направлен на понимание взаимоотношений внутри биологических сетей, таких как сети метаболического или межбелкового взаимодействия . Хотя биологические сети могут быть построены из одного типа молекулы или объекта (например, генов), сетевая биология часто пытается интегрировать множество различных типов данных, таких как белки, небольшие молекулы, данные экспрессии генов и другие, которые все связаны физически. , функционально или и то, и другое.

Системная биология включает в себя использование компьютерного моделирования из клеточных подсистем (например, в сетях метаболитов и ферментов , которые включают в себя обмен веществ , сигнальная трансдукция пути и гены регуляторных сетей ) как для анализа и визуализации сложных соединений этих клеточных процессов. Искусственная жизнь или виртуальная эволюция пытается понять эволюционные процессы с помощью компьютерного моделирования простых (искусственных) форм жизни.

Сети молекулярного взаимодействия

Взаимодействия между белками часто визуализируются и анализируются с помощью сетей. Эта сеть состоит из белок-белковых взаимодействий Treponema pallidum , возбудителя сифилиса и других заболеваний.

Десятки тысяч трехмерных белковых структур были определены с помощью рентгеновской кристаллографии и ядерно-магнитно-резонансной спектроскопии белков (ЯМР белков), и центральный вопрос в структурной биоинформатике состоит в том, можно ли предсказать возможные межбелковые взаимодействия только на основе этих данных. 3D-формы, без проведения экспериментов по взаимодействию белок-белок . Было разработано множество методов для решения проблемы стыковки белок-белок , хотя кажется, что в этой области еще предстоит проделать большую работу.

Другие взаимодействия, встречающиеся в этой области, включают белок-лиганд (включая лекарство) и белок-пептид . Молекулярно-динамическое моделирование движения атомов вокруг вращающихся связей является фундаментальным принципом вычислительных алгоритмов , называемых алгоритмами стыковки, для изучения молекулярных взаимодействий .

Другие

Литературный анализ

Рост количества опубликованной литературы делает практически невозможным читать каждую статью, что приводит к разрозненным разделам исследований. Литературный анализ направлен на использование вычислительной и статистической лингвистики для добычи этой растущей библиотеки текстовых ресурсов. Например:

  • Распознавание аббревиатуры - определение полной формы и сокращения биологических терминов
  • Распознавание именованных сущностей - распознавание биологических терминов, таких как названия генов
  • Взаимодействие белков с белками - определите, какие белки с какими белками взаимодействуют из текста.

Область исследований основана на статистике и компьютерной лингвистике .

Высокопроизводительный анализ изображений

Вычислительные технологии используются для ускорения или полной автоматизации обработки, количественной оценки и анализа больших объемов биомедицинских изображений с высоким содержанием информации . Современные системы анализа изображений расширяют способность наблюдателя производить измерения на основе большого или сложного набора изображений за счет повышения точности , объективности или скорости. Полностью разработанная система анализа может полностью заменить наблюдателя. Хотя эти системы не являются уникальными для биомедицинских изображений, биомедицинские изображения становятся все более важными как для диагностики, так и для исследований. Вот несколько примеров:

  • высокая производительность и точность количественной оценки и субклеточной локализации ( высокопроизводительный скрининг , цитогистопатология, информатика биоизображений )
  • морфометрия
  • анализ и визуализация клинических изображений
  • определение в реальном времени моделей воздушного потока в дыхательных легких живых животных
  • количественная оценка размера окклюзии в изображениях в реальном времени от развития и восстановления во время повреждения артерии
  • проведение поведенческих наблюдений на основе расширенных видеозаписей лабораторных животных
  • инфракрасные измерения для определения метаболической активности
  • предположение о перекрытии клонов при картировании ДНК , например, по шкале Сулстона

Высокопроизводительный анализ данных отдельных ячеек

Вычислительные методы используются для анализа данных отдельных клеток с высокой пропускной способностью и малым объемом измерений, например, полученных с помощью проточной цитометрии . Эти методы обычно включают обнаружение популяций клеток, соответствующих определенному болезненному состоянию или экспериментальному состоянию.

Информатика биоразнообразия

Информатика биоразнообразия занимается сбором и анализом данных о биоразнообразии , таких как таксономические базы данных или данные микробиома . Примеры таких анализов включают филогенетику , моделирование ниш , картирование видового богатства , штрих-кодирование ДНК или инструменты идентификации видов .

Онтологии и интеграция данных

Биологические онтологии направлены ациклические графики из контролируемых словарей . Они предназначены для сбора биологических концепций и описаний таким образом, чтобы их можно было легко классифицировать и анализировать с помощью компьютеров. При такой классификации можно получить дополнительную ценность от целостного и комплексного анализа.

OBO Foundry была попытка стандартизировать определенные онтологий. Одной из самых распространенных является онтология генов, описывающая функции генов. Существуют также онтологии, описывающие фенотипы.

Базы данных

Базы данных необходимы для исследований и приложений в области биоинформатики. Существует множество баз данных, охватывающих различные типы информации: например, последовательности ДНК и белков, молекулярные структуры, фенотипы и биоразнообразие. Базы данных могут содержать эмпирические данные (полученные непосредственно из экспериментов), предсказанные данные (полученные в результате анализа) или, как правило, и то, и другое. Они могут быть специфичными для конкретного организма, пути или молекулы, представляющей интерес. В качестве альтернативы они могут включать данные, собранные из множества других баз данных. Эти базы данных различаются по своему формату, механизму доступа и тому, являются ли они общедоступными или нет.

Некоторые из наиболее часто используемых баз данных перечислены ниже. Для более полного списка, пожалуйста, проверьте ссылку в начале подраздела.

  • Используется в анализе биологической последовательности: Genbank , UniProt
  • Используется в структурном анализе: Protein Data Bank (PDB)
  • Используется для поиска семейств белков и мотивов : InterPro , Pfam
  • Используется для секвенирования следующего поколения: архив чтения последовательности
  • Используется в сетевом анализе: базы данных метаболических путей ( KEGG , BioCyc ), базы данных анализа взаимодействия, функциональные сети
  • Используется при разработке синтетических генетических схем: GenoCAD

Программное обеспечение и инструменты

Программные инструменты для биоинформатики варьируются от простых инструментов командной строки до более сложных графических программ и автономных веб-сервисов, доступных от различных биоинформатических компаний или государственных учреждений.

Программное обеспечение для биоинформатики с открытым исходным кодом

Многие бесплатные программные инструменты с открытым исходным кодом существуют и продолжают расти с 1980-х годов. Сочетание постоянной потребности в новых алгоритмах для анализа появляющихся типов биологических считываний, потенциала для инновационных экспериментов in silico и свободно доступных баз открытого кода помогло создать возможности для всех исследовательских групп внести свой вклад как в биоинформатику, так и в диапазон доступного программного обеспечения с открытым исходным кодом, независимо от условий их финансирования. Инструменты с открытым исходным кодом часто выступают в качестве инкубаторов идей или подключаемых модулей, поддерживаемых сообществом, в коммерческих приложениях. Они также могут предоставлять стандарты де-факто и общие объектные модели для помощи в решении проблемы интеграции биоинформации.

Ряд программных пакетов с открытым исходным кодом включает в себя название , такие как Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio , Orange с его биоинформатикой дополнения, Apache таверна , UGENE и GenoCAD . Чтобы сохранить эту традицию и создать новые возможности, некоммерческий фонд Open Bioinformatics Foundation с 2000 года поддерживает ежегодную конференцию по биоинформатике с открытым исходным кодом (BOSC).

Альтернативный метод создания общедоступных баз данных биоинформатики - использование движка MediaWiki с расширением WikiOpener . Эта система позволяет всем специалистам в данной области получать доступ к базе данных и обновлять ее.

Веб-сервисы в биоинформатике

Интерфейсы на основе SOAP и REST были разработаны для широкого спектра биоинформатических приложений, позволяющих приложению, работающему на одном компьютере в одной части мира, использовать алгоритмы, данные и вычислительные ресурсы на серверах в других частях мира. Основные преимущества заключаются в том, что конечным пользователям не приходится иметь дело с накладными расходами на программное обеспечение и обслуживание баз данных.

Базовые биоинформатические услуги классифицируются EBI на три категории: SSS (службы поиска последовательностей), MSA (выравнивание множественных последовательностей) и BSA (анализ биологической последовательности). Доступность этих сервисно-ориентированных ресурсов по биоинформатике демонстрирует применимость сетевых биоинформатических решений и варьируется от набора автономных инструментов с общим форматом данных в едином, автономном или веб-интерфейсе до интегрируемой, распределенной и расширяемой биоинформатики. системы управления рабочими процессами .

Системы управления рабочим процессом биоинформатики

Система управления рабочими процессами биоинформатики - это специализированная форма системы управления рабочими процессами, разработанная специально для составления и выполнения ряда этапов вычислений или обработки данных или рабочего процесса в приложении биоинформатики. Такие системы предназначены для

  • предоставить простую в использовании среду, позволяющую самим разработчикам приложений создавать свои собственные рабочие процессы,
  • предоставить ученым интерактивные инструменты, позволяющие им выполнять свои рабочие процессы и просматривать свои результаты в режиме реального времени,
  • упростить процесс обмена и повторного использования рабочих процессов между учеными, и
  • позволяют ученым отслеживать происхождение результатов выполнения рабочего процесса и этапы создания рабочего процесса.

Некоторые из платформ, предоставляющих эту услугу: Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .

Объекты BioCompute и BioCompute

В 2014 году Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США спонсировало конференцию, проведенную в кампусе Бетесда при Национальном институте здравоохранения, для обсуждения воспроизводимости данных в биоинформатике. В течение следующих трех лет консорциум заинтересованных сторон регулярно встречался, чтобы обсудить, что станет парадигмой BioCompute. Эти заинтересованные стороны включали представителей правительства, промышленности и академических организаций. Руководители сессий представляли многочисленные отделения институтов и центров FDA и NIH, некоммерческих организаций, включая Проект человеческого вариома и Европейскую федерацию медицинской информатики , а также исследовательские институты, включая Стэнфорд , Нью-Йоркский центр генома и Университет Джорджа Вашингтона .

Было решено, что парадигма BioCompute будет представлена ​​в форме цифровых «лабораторных тетрадей», которые позволят воспроизводить, воспроизводить, просматривать и повторно использовать протоколы биоинформатики. Это было предложено для обеспечения большей преемственности внутри исследовательской группы в течение обычного потока персонала, способствуя обмену идеями между группами. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США финансировало эту работу, чтобы информация о трубопроводах была более прозрачной и доступной для их регулирующего персонала.

В 2016 году группа вновь собралась в NIH в Bethesda и обсудила потенциал объекта BioCompute , являющегося примером парадигмы BioCompute. Эта работа была скопирована как документ для «стандартного пробного использования» и как препринт, загруженный на bioRxiv. Объект BioCompute позволяет использовать запись в формате JSON среди сотрудников, сотрудников и регулирующих органов.

Образовательные платформы

Программные платформы, предназначенные для обучения концепциям и методам биоинформатики, включают Rosalind и онлайн-курсы, предлагаемые на Учебном портале Швейцарского института биоинформатики . Канадский Биоинформатика Мастерские предоставляет видео и слайды , обучающие семинары на своем веб - сайте в соответствии с лицензией Creative Commons лицензии. Проект 4273π или проект 4273pi также предлагает бесплатные образовательные материалы с открытым исходным кодом. Курс проводится на недорогих компьютерах Raspberry Pi и используется для обучения взрослых и школьников. 4273π активно разрабатывается консорциумом ученых и исследователей, которые занимались биоинформатикой исследовательского уровня с использованием компьютеров Raspberry Pi и операционной системы 4273π.

Mooc платформы также предоставляют онлайн сертификаты в биоинформатике и смежных дисциплин, в том числе Coursera «s биоинформатики специализации ( UC San Diego ) и геномных данных Science Специализация ( Johns Hopkins ), а также EDX » Анализ s данных для Life Sciences XSERIES ( Harvard ). Университет Южной Калифорнии предлагает степень магистра трансляционной биоинформатики с упором на биомедицинские приложения.

Конференции

Есть несколько крупных конференций, посвященных биоинформатике. Некоторые из наиболее ярких примеров - интеллектуальные системы для молекулярной биологии (ISMB), Европейская конференция по вычислительной биологии (ECCB) и исследования в области вычислительной молекулярной биологии (RECOMB).

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки

Послушайте эту статью ( 37 минут )
Разговорный значок Википедии
Этот аудиофайл был создан на основе редакции этой статьи от 20 сентября 2013 года и не отражает последующих правок. ( 2013-09-20 )