Байесовский инструмент для анализа метилирования - Bayesian tool for methylation analysis

Байесовский инструмент для анализа метилирования , также известный как BATMAN , представляет собой статистический инструмент для анализа профилей иммунопреципитации метилированной ДНК (MeDIP). Его можно применять к большим наборам данных, созданным с использованием либо массивов олигонуклеотидов (MeDIP-chip), либо секвенирования следующего поколения (MeDIP-seq), обеспечивая количественную оценку состояния абсолютного метилирования в интересующей области.

Рабочий процесс Бэтмена

Теория

MeDIP (иммунопреципитация метилированной ДНК) - это экспериментальный метод, используемый для оценки уровней метилирования ДНК с использованием антител для выделения метилированных последовательностей ДНК. Выделенные фрагменты ДНК либо гибридизуют с микрочипом (MeDIP-chip), либо секвенируют с помощью секвенирования следующего поколения (MeDIP-seq). Хотя это говорит вам, какие области генома метилированы, он не дает абсолютных уровней метилирования. Представьте себе два различных геномную область, A и B . Область A имеет шесть CpG (метилирование ДНК в соматических клетках млекопитающих обычно происходит по динуклеотидам CpG ), три из которых метилированы. Область B имеет три CpG, все из которых метилированы. Поскольку антитело просто распознает метилированную ДНК , оно будет связывать обе эти области в равной степени, и, следовательно, последующие шаги будут показывать одинаковые сигналы для этих двух областей. Это не дает полной картины метилирования в этих двух областях (в области A только половина CpG метилирована, тогда как в области B все CpG метилированы). Следовательно, чтобы получить полную картину метилирования для данной области, вам нужно нормализовать сигнал, полученный в эксперименте MeDIP, на количество CpG в регионе, и именно это и делает алгоритм Бэтмена . Анализ сигнала MeDIP в приведенном выше примере дал бы оценку Бэтмена 0,5 для области A (т.е. область метилирована на 50%) и 1 для области B (т.е. область метилирована на 100%). Таким образом, Бэтмен преобразует сигналы экспериментов MeDIP в уровни абсолютного метилирования.

Развитие Бэтмена

Основным принципом алгоритма Бэтмена является моделирование эффектов различной плотности динуклеотидов CpG и их влияния на обогащение MeDIP фрагментов ДНК. Основные предположения Бэтмена:

  1. Почти все метилирование ДНК у млекопитающих происходит по динуклеотидам CpG.
  2. Большинство регионов с низким содержанием CpG метилированы конститутивно, тогда как большинство участков с высоким содержанием CpG (островков CpG) конститутивно неметилированы.
  3. В эксперименте MeDIP нет фрагментных смещений (примерный диапазон размеров фрагментов ДНК составляет 400–700 п.н.).
  4. Ошибки на микрочипе обычно распределяются с точностью.
  5. Только метилированные CpG вносят вклад в наблюдаемый сигнал.
  6. Состояние метилирования CpG обычно сильно коррелирует по сотням оснований, поэтому CpG, сгруппированные вместе в окнах 50 или 100 п.н., будут иметь одинаковое состояние метилирования.

Основные параметры в Бэтмене:

  1. C cp : коэффициент связи между зондом p и динуклеотидом c CpG , определяется как доля молекул ДНК , гибридизующихся с зондом p, которые содержат CpG  c .
  2. C tot  : общий параметр влияния CpG, определяется как сумма факторов связи для любого данного зонда, которая обеспечивает меру локальной плотности CpG.
  3. m c  : статус метилирования в положении c , который представляет долю хромосом в образце, в которой он метилирован. m c рассматривается как непрерывная переменная, поскольку большинство образцов, используемых в исследованиях MeDIP, содержат несколько типов клеток.

Исходя из этих предположений, сигнал от канала MeDIP в MeDIP-чипе или эксперименте с MeDIP-seq зависит от степени обогащения фрагментов ДНК, перекрывающих этот зонд, что, в свою очередь, зависит от количества связывания антитела и, следовательно, от количества метилированных CpG на этих фрагментах. В модели Бэтмена полный набор данных из эксперимента MeDIP / чип, A, может быть представлен статистической моделью в форме следующего распределения вероятностей :

где ( x | μσ 2 ) - гауссова функция плотности вероятности . Стандартные байесовские методы могут использоваться для вывода f ( m | A ), то есть распределения вероятных состояний метилирования с учетом одного или нескольких наборов выходов MeDIP-chip / MeDIP-seq. Чтобы решить эту проблему логического вывода, Бэтмен использует вложенную выборку ( http://www.inference.phy.cam.ac.uk/bayesys/ ) для генерации 100 независимых выборок из f ( m | A ) для каждой мозаичной области генома, затем суммирует наиболее вероятное состояние метилирования в окнах размером 100 пар оснований, подгоняя бета-распределения к этим образцам. Режимы наиболее вероятных бета-распределений использовались как окончательные вызовы метилирования.

Ограничения

При рассмотрении вопроса об использовании Бэтмена может быть полезно принять во внимание следующие моменты:

  1. Бэтмен - это не программа ; это алгоритм, выполняемый с использованием командной строки . Как таковой, он не особенно удобен для пользователя и представляет собой довольно сложный в вычислительном отношении процесс.
  2. Поскольку это некоммерческий подход, при использовании Бэтмена очень мало поддержки, кроме того, что указано в руководстве.
  3. Это довольно трудоемко (анализ одной хромосомы может занять несколько дней). (Примечание: в одной правительственной лаборатории запуск Бэтмена на наборе из 100 массивов Agilent для метилирования человеческой ДНК (около 250 000 зондов на массив) занял менее часа в программном обеспечении Agilent Genomic Workbench. Наш компьютер имел процессор 2 ГГц и 24 ГБ ОЗУ. , 64-битная Windows 7.)
  4. Необходимо учитывать вариацию количества копий (CNV). Например, оценка области со значением CNV 1,6 при раке (потеря 0,4 по сравнению с нормой) должна быть умножена на 1,25 (= 2 / 1,6), чтобы компенсировать потерю.
  5. Одно из основных предположений Бэтмена состоит в том, что все метилирование ДНК происходит в динуклеотидах CpG. В то время как это обычно относится к соматическим клеткам позвоночных , существуют ситуации, когда широко распространено метилирование не-CpG, например, в клетках растений и эмбриональных стволовых клетках .

Ссылки