Биннинг (метагеномика) - Binning (metagenomics)

В метагеномика , биннинг процесс группирования читает или контиг и назначая их индивидуальный геном . Методы группирования могут быть основаны либо на композиционных характеристиках, либо на совмещении (сходстве), либо на том и другом.

Вступление

Метагеномные образцы могут содержать считывания от огромного количества организмов. Например, в одном грамме почвы может быть до 18000 различных типов организмов, каждый со своим геномом. Метагеномные исследования производят образцы ДНК всего сообщества и делают их доступными в виде нуклеотидных последовательностей определенной длины . В большинстве случаев неполный характер полученных последовательностей затрудняет сборку отдельных генов, не говоря уже о восстановлении полных геномов каждого организма. Таким образом, методы биннинга представляют собой «максимальные усилия» для идентификации считываний или контигов в определенном геноме, известном как геном, собранный в метагеноме (MAG). Таксономия MAG может быть выведена путем размещения в справочном филогенетическом дереве с использованием таких алгоритмов, как GTDB-Tk.

Первые исследования, в которых брали образцы ДНК от нескольких организмов, использовали определенные гены для оценки разнообразия и происхождения каждого образца. Эти маркерные гены были предварительно секвенированы из клональных культур известных организмов, поэтому всякий раз, когда один из таких генов появлялся в считывании или контиге из метагеномного образца, считывание могло быть отнесено к известному виду или к OTU этого вида. Проблема с этим методом заключалась в том, что только крошечная часть последовательностей содержала ген-маркер, оставляя большую часть данных неназначенной.

Современные методы биннинга используют как ранее доступную информацию, независимую от образца, так и внутреннюю информацию, присутствующую в образце. В зависимости от разнообразия и сложности выборки их степень успеха варьируется: в некоторых случаях они могут разрешать последовательности до отдельных видов, в то время как в некоторых других последовательности идентифицируются в лучшем случае с очень широкими таксономическими группами.

Объединение метагеномных данных из различных сред обитания может значительно расширить древо жизни. Такой подход к глобально доступным метагеномам объединил 52 515 индивидуальных микробных геномов и увеличил разнообразие бактерий и архей на 44%.

Алгоритмы

Алгоритмы объединения могут использовать предыдущую информацию и, таким образом, действовать как контролируемые классификаторы , или они могут пытаться найти новые группы, которые действуют как неконтролируемые классификаторы . Многие, конечно, делают и то, и другое. Классификаторы используют ранее известные последовательности, выполняя выравнивание по базам данных , и пытаются разделить последовательности на основе специфических для организма характеристик ДНК, таких как GC-контент .

Mande et al., (2012) представляет обзор предпосылки, методологий, преимуществ, ограничений и проблем различных методов, доступных для объединения наборов метагеномных данных, полученных с использованием метода секвенирования с дробовиком. Некоторые из наиболее известных алгоритмов биннинга описаны ниже.

TETRA

TETRA - это статистический классификатор, который использует шаблоны использования тетрануклеотидов в геномных фрагментах. В ДНК четыре возможных нуклеотида , поэтому могут быть разные фрагменты из четырех последовательных нуклеотидов; эти фрагменты называются тетрамерами. TETRA работает, составляя таблицу частот каждого тетрамера для данной последовательности. На основе этих частот затем вычисляются z- значения, которые показывают, насколько чрезмерно или недостаточно представлен тетрамер в противоречии с тем, что можно было бы ожидать, глядя на индивидуальные нуклеотидные композиции. Z-значения для каждого тетрамера собираются в вектор, и векторы, соответствующие разным последовательностям, сравниваются попарно, чтобы получить меру того, насколько похожи разные последовательности из образца. Ожидается, что наиболее похожие последовательности принадлежат организмам в одной OTU.

МЕГАН

В подходе DIAMOND + MEGAN все чтения сначала выравниваются по эталонной базе данных белков, такой как NCBI-nr, а затем полученные выравнивания анализируются с использованием алгоритма наивного LCA, который помещает чтение в самый нижний таксономический узел в таксономии NCBI. это относится прежде всего ко всем таксонам, с которыми чтение имеет существенное выравнивание. Здесь выравнивание обычно считается «значительным», если его битовая оценка превышает заданный порог (который зависит от длины чтения) и находится в пределах 10%, скажем, от наилучшего результата, наблюдаемого для этого чтения. Обоснование использования эталонных последовательностей белков, а не эталонных последовательностей ДНК, состоит в том, что существующие базы данных эталонных ДНК охватывают лишь небольшую часть истинного разнообразия геномов, существующих в окружающей среде.

Филопифия

Phylopythia - это один контролируемый классификатор, разработанный исследователями в лабораториях IBM, и в основном это машина опорных векторов, обученная с помощью ДНК-кмеров из известных последовательностей.

SOrt-ITEMS

SOrt-ITEMS (Monzoorul et al., 2009) - это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs из Tata Consultancy Services (TCS) Ltd., Индия. Пользователям необходимо выполнить поиск сходства входных метагеномных последовательностей (считываний) с базой данных белков nr с помощью поиска BLASTx. Сгенерированный вывод blastx затем используется программой SOrt-ITEMS в качестве входных данных. В этом методе используется диапазон пороговых значений параметра выравнивания BLAST, чтобы сначала определить соответствующий таксономический уровень (или ранг), на котором может быть назначено чтение. Затем для окончательного определения метагеномного чтения применяется подход, основанный на ортологии. Другие алгоритмы биннинга на основе выравнивания, разработанные Innovation Labs of Tata Consultancy Services (TCS), включают DiScRIBinATE, ProViDE и SPHINX. Ниже приводится краткое изложение методологии этих алгоритмов.

ДИСКРИБИНАТ

DiScRIBinATE (Ghosh et al., 2010) - это алгоритм объединения на основе выравнивания, разработанный лабораторией инноваций компании Tata Consultancy Services (TCS) Ltd., Индия. DiScRIBinATE заменяет ортологический подход SOrt-ITEMS более быстрым подходом «без выравнивания». Было замечено, что включение этой альтернативной стратегии сократило время разбиения вдвое без какой-либо значительной потери точности и специфичности назначений. Кроме того, новая стратегия переклассификации, включенная в DiScRIBinATE, как представляется, снижает общий уровень ошибочной классификации.

Предоставлять

ProViDE (Ghosh et al., 2011) - это основанный на выравнивании подход биннинга, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd. для оценки вирусного разнообразия в метагеномных образцах. ProViDE использует подход, основанный на обратной ортлогии, аналогичный SOrt-ITEMS, для таксономической классификации метагеномных последовательностей, полученных из наборов данных вирома. Это настраиваемый набор пороговых значений параметров BLAST, специально подходящий для вирусных метагеномных последовательностей. Эти пороговые значения отражают модель дивергенции последовательностей и неоднородную таксономическую иерархию, наблюдаемую внутри / между различными таксономическими группами вирусного царства.

PCAHIER

PCAHIER (Zheng et al., 2010), другой алгоритм объединения, разработанный Технологическим институтом Джорджии, использует частоты n-мерных олигонуклеотидов в качестве характеристик и использует иерархический классификатор (PCAHIER) для объединения коротких метагеномных фрагментов. Анализ главных компонентов использовался для уменьшения высокой размерности пространства признаков. Эффективность PCAHIER была продемонстрирована путем сравнения с неиерархическим классификатором и двумя существующими алгоритмами биннинга (TETRA и Phylopythia).

СФИНКС

SPHINX (Mohammed et al., 2011), другой алгоритм биннинга, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd., использует гибридную стратегию, которая обеспечивает высокую эффективность биннинга за счет использования принципов как «композиции», так и «совмещения». алгоритмы биннинга на основе ''. Подход был разработан с целью анализа наборов метагеномных данных так же быстро, как и подходы на основе композиции, но, тем не менее, с точностью и специфичностью алгоритмов на основе сопоставления. Было замечено, что SPHINX классифицирует метагеномные последовательности так же быстро, как и алгоритмы на основе композиции. Кроме того, было обнаружено, что эффективность биннинга (с точки зрения точности и специфичности назначений) SPHINX сравнима с результатами, полученными с использованием алгоритмов на основе выравнивания.

INDUS и TWARIT

Представляют другие основанные на композиции алгоритмы биннинга, разработанные Innovation Labs компании Tata Consultancy Services (TCS) Ltd. Эти алгоритмы используют ряд олигонуклеотидных композиционных (а также статистических) параметров для сокращения времени биннинга при сохранении точности и специфичности таксономических назначений.

Другие алгоритмы

Этот список не является исчерпывающим:

  • TACOA (Диаз и др., 2009)
  • Параллельно-МЕТА (Su et al., 2011)
  • PhyloPythiaS (Патил и др., 2011)
  • РИТА (MacDonald et al., 2012)
  • БиМета (Le et al., 2015)
  • MetaPhlAn (Segata et al., 2012)
  • SeMeta (Le et al., 2016)
  • Quikr (Koslicki et al., 2013)
  • Таксонер (Pongor et al., 2014)
  • MaxBin (Ву и др., 2014)
  • MetaBAT 2 (Канг и др., 2019)
  • CONCOCT (Alneberg et al., 2014)
  • Анвио (Эрен и др., 2015)
  • DAS Tool (Sieber et al., 2018) - оболочка, объединяющая несколько алгоритмов биннинга

Все эти алгоритмы используют разные схемы для последовательностей биннинга, такие как иерархическая классификация , и работают либо под наблюдением, либо без надзора . Эти алгоритмы обеспечивают общее представление о том, насколько разнообразны образцы, и потенциально могут связать состав сообщества и его функции в метагеномах.

использованная литература