к -мер - k-mer

Последовательность ATGG имеет два 3-мера: ATG и TGG.

В биоинформатики , K -mers являются подстроки длины , содержащиеся в биологической последовательности. В первую очередь используются в контексте компьютерной геномики и анализа последовательностей , в котором k -меры состоят из нуклеотидов ( например, A, T, G и C), k -меры используются для сборки последовательностей ДНК , улучшения экспрессии гетерологичных генов , идентифицировать виды в метагеномных образцах и создавать ослабленные вакцины . Обычно термин k -мер относится ко всем подпоследовательностям длины последовательности , так что последовательность AGAT будет иметь четыре мономера (A, G, A и T), три 2-мера (AG, GA, AT), два 3-мерные (AGA и GAT) и один 4-мерный (AGAT). В более общем смысле, последовательность длины будет иметь k -меры и общее количество возможных k -меров, где - количество возможных мономеров (например, четыре в случае ДНК ).

Вступление

k -меры - это просто подпоследовательности длины . Например, ниже показаны все возможные k -меры последовательности ДНК:

Пример 8-мерного спектра для E. coli, сравнивающего частоту 8-мерных ( т. Е. Множественности ) с их количеством встречаемости.
k -меры для GTAGAGCTGT
k k -меры
1 G, T, A, G, A, G, C, T, G, T
2 GT, TA, AG, GA, AG, GC, CT, TG, GT
3 GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4 GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5 GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6 GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7 GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8 GTAGAGCT, TAGAGCTG, AGAGCTGT
9 GTAGAGCTG, TAGAGCTGT
10 GTAGAGCTGT

Метод визуализации k -меров, спектр k -меров , показывает множественность каждого k -мера в последовательности по сравнению с количеством k -меров с этой множественностью. Количество мод в k -мерном спектре для генома вида варьируется, при этом большинство видов имеет одномодальное распределение. Однако все млекопитающие имеют мультимодальное распространение. Количество мод в k -мерном спектре также может варьироваться между областями генома: у людей есть унимодальные k -мерные спектры в 5 'UTR и экзонах, но мультимодальные спектры в 3' UTR и интронах .

Силы, влияющие на ДНК k -mer Частота

На частоту использования k -меров влияют многочисленные силы, действующие на нескольких уровнях, которые часто находятся в конфликте. Важно отметить, что k -меры для более высоких значений k также подвержены влиянию сил, влияющих на более низкие значения k . Например, если 1-мер A не встречается в последовательности, ни один из 2-мер, содержащих A (AA, AT, AG и AC), также не появится, тем самым связывая эффекты различных сил.

k = 1

Когда k = 1, имеется четыре k- мера ДНК , то есть A, T, G и C. На молекулярном уровне существует три водородных связи между G и C, тогда как между A и T есть только две водородные связи. Связи в результате дополнительной водородной связи (и более сильных стэкинг-взаимодействий) более термически стабильны, чем связи AT. Млекопитающие и птицы имеют более высокое отношение Gs и Cs к As и Ts ( содержание GC ), что привело к гипотезе о том, что термостабильность является движущим фактором изменения содержания GC. Однако, будучи многообещающей, эта гипотеза не выдержала критики: анализ среди множества прокариот не показал никаких доказательств того, что содержание GC коррелирует с температурой, как предсказывала гипотеза тепловой адаптации. Действительно, если естественный отбор должны были быть движущей силой изменения ОГО-контент, что потребовало бы , что единичные нуклеотидные замены , которые часто молчат , чтобы изменить пригодность организма.

Скорее, текущие данные свидетельствуют о том, что конверсия генов, обусловленная GC (gBGC), является движущим фактором вариаций в содержании GC. gBGC - это процесс, который происходит во время рекомбинации, который заменяет Gs и Cs на As и Ts. Этот процесс, хотя и отличается от естественного отбора, тем не менее может оказывать избирательное давление на ДНК, склонную к фиксации замен GC в геноме. Следовательно, gBGC можно рассматривать как «самозванца» естественного отбора. Как и следовало ожидать, содержание GC больше на сайтах, подвергающихся большей рекомбинации. Кроме того, организмы с более высокой скоростью рекомбинации демонстрируют более высокое содержание GC, что соответствует предсказанным эффектам гипотезы gBGC. Интересно, что gBGC, по-видимому, не ограничивается эукариотами . Бесполые организмы, такие как бактерии и археи, также подвергаются рекомбинации посредством преобразования генов, процесса замены гомологичных последовательностей, приводящего к множеству идентичных последовательностей по всему геному. То, что рекомбинация способна увеличивать содержание GC во всех сферах жизни, предполагает, что gBGC универсально консервативен. Является ли gBGC (в основном) нейтральным побочным продуктом молекулярного механизма жизни или он сам находится в процессе отбора, еще предстоит определить. Точный механизм и эволюционное преимущество или недостаток gBGC в настоящее время неизвестны.

k = 2

Несмотря на сравнительно большой объем литературы, обсуждающей систематические ошибки содержания GC, о динуклеотидных отклонениях написано относительно мало. Что известно, так это то, что эти динуклеотидные смещения относительно постоянны по всему геному, в отличие от содержания GC, которое, как видно выше, может значительно варьироваться. Это важное открытие, которое нельзя упускать из виду. Если бы динуклеотидное смещение подвергалось давлению, возникающему в результате трансляции , тогда были бы разные паттерны динуклеотидного смещения в кодирующих и некодирующих областях, обусловленные сниженной эффективностью трансляции некоторых динуцелотидов. Поскольку это не так, можно сделать вывод, что силы, модулирующие динуклеотидное смещение, не зависят от трансляции. Дополнительным доказательством против трансляционного давления, влияющего на динуклеотидную предвзятость, является тот факт, что динуклеотидные предубеждения вирусов, которые в значительной степени зависят от трансляционной эффективности, формируются их вирусным семейством в большей степени, чем их хозяевами, чьи трансляционные механизмы захватывают вирусы.

Счетчик увеличение содержания GC-gBGC является подавлением CG , что снижает частоту CG 2-меров за счетом дезаминирования из метилированных динуклеотидов CG, в результате замен РКИ с TGS, тем самым снижая GC-содержание. Это взаимодействие подчеркивает взаимосвязь между силами, действующими на k -меры при различных значениях k.

Один интересный факт о динуклеотидном смещении заключается в том, что он может служить измерением «расстояния» между филогенетически схожими геномами. Геномы пар близкородственных организмов имеют больше сходных динуклеотидных предубеждений, чем между парами более отдаленно связанных организмов.

k = 3

Есть двадцать природных аминокислот , которые используются для создания белков, кодируемых ДНК. Однако нуклеотидов всего четыре. Следовательно, не может быть однозначного соответствия между нуклеотидами и аминокислотами. Точно так же имеется 16 2-меров, что также недостаточно для однозначного представления каждой аминокислоты. Однако в ДНК 64 различных 3-мера, чего достаточно для уникального представления каждой аминокислоты. Эти неперекрывающиеся 3-меры называются кодонами . Хотя каждый кодон отображается только на одну аминокислоту, каждая аминокислота может быть представлена ​​несколькими кодонами . Таким образом, одна и та же аминокислотная последовательность может иметь несколько представлений ДНК. Интересно, что каждый кодон аминокислоты не используется в равных пропорциях. Это называется смещением использования кодонов (CUB). Когда k = 3, необходимо различать истинную 3-мерную частоту и CUB. Например, последовательность ATGGCA содержит четыре 3-мерных слова (ATG, TGG, GGC и GCA), в то время как содержит только два кодона (ATG и GCA). Однако CUB является основным движущим фактором предвзятости использования 3-мер (составляет до из них, поскольку ⅓ k -меров в кодирующей области являются кодонами) и будет основным предметом внимания этого раздела.

Точная причина различий между частотами различных кодонов до конца не изучена. Известно, что предпочтение кодонов коррелирует с обилием тРНК, при этом кодоны, соответствующие более многочисленным тРНК, соответственно встречаются чаще и что более высоко экспрессируемые белки показывают больше CUB. Это говорит о том, что выбор по эффективности или точности перевода является движущей силой вариации CUB.

к = 4

Подобно эффекту, наблюдаемому при динуклеотидном смещении, тетрануклеотидные смещения филогенетически сходных организмов более похожи, чем у менее близкородственных организмов. Точная причина вариации тетрануклеотидного смещения не совсем понятна, но была выдвинута гипотеза, что она является результатом поддержания генетической стабильности на молекулярном уровне.

Приложения

Частота набора k -меров в геноме вида, в геномной области или в классе последовательностей может использоваться в качестве «сигнатуры» лежащей в основе последовательности. Сравнение этих частот в вычислительном отношении проще, чем выравнивание последовательностей, и является важным методом анализа последовательностей без выравнивания . Его также можно использовать в качестве анализа первого этапа перед выравниванием.

Последовательная сборка

На этом рисунке показан процесс разделения считываний на более мелкие k -меры (в данном случае 4-мерные), чтобы их можно было использовать в графе Де Брейна. (A) Показывает начальный сегмент секвенируемой ДНК. (B) Показывает чтения, которые были сделаны в результате секвенирования, а также показывает, как они совпадают. Проблема с этим выравниванием заключается в том, что они перекрываются k-2, а не k-1 (что необходимо в графах Де Брёйна). (C) Показывает, что показания разделены на более мелкие 4-мерные. (D) Отбрасывает повторяющиеся 4-мерные, а затем показывает их выравнивание. Обратите внимание, что эти k -меры перекрываются на k-1 и затем могут использоваться в графе Де Брёйна.

При сборке последовательности k -меры используются при построении графов Де Брёйна . Чтобы создать График Де Брёйна, k -меры, хранящиеся в каждом ребре с длиной, должны перекрывать другую строку на другом ребре , чтобы создать вершину . Чтения, сгенерированные в результате секвенирования следующего поколения , обычно будут иметь разную длину чтения. Например, считывания с помощью технологии секвенирования Illumina захватывают 100-мерные считывания. Однако проблема с секвенированием состоит в том, что фактически генерируются только небольшие фракции из всех возможных 100-меров, присутствующих в геноме. Это связано с ошибками чтения, но, что более важно, просто с простыми дырами в покрытии, которые возникают во время секвенирования. Проблема в том, что эти небольшие доли возможных k -меров нарушают ключевое предположение графов Де Брёйна о том, что все считанные k -меры должны перекрывать соседний k -мер в геноме на (что не может произойти, если все возможные k -меры нет).

Решение этой проблемы состоит в том, чтобы разбить эти считывания размера k -меров на более мелкие k -меры, чтобы полученные меньшие k -меры представляли все возможные k -меры этого меньшего размера, которые присутствуют в геноме. Кроме того, разделение k -меров на меньшие размеры также помогает решить проблему разной начальной длины чтения. В этом примере пять считываний не учитывают все возможные 7-меры генома, и поэтому граф Де Брейна не может быть создан. Но когда они разделены на 4-мерные, полученных подпоследовательностей достаточно, чтобы реконструировать геном с помощью графа Де Брёйна.

Помимо непосредственного использования для сборки последовательностей, k -меры также могут быть использованы для обнаружения неправильной сборки генома путем идентификации чрезмерно представленных k -меров, что предполагает наличие повторяющихся последовательностей ДНК , которые были объединены. Кроме того, k -меры также используются для обнаружения бактериального загрязнения во время сборки эукариотического генома, подход, заимствованный из области метагеномики.

Выбор размера k- мер

Выбор размера k -мера имеет множество различных эффектов на сборку последовательности. Эти эффекты сильно различаются для k -меров меньшего и большего размера . Следовательно, необходимо понять различные размеры k -меров, чтобы выбрать подходящий размер, который уравновешивает эффекты. Влияние размеров показано ниже.

Меньшие k- мерные размеры
  • Более низкий к размеру -mer будет уменьшить количество ребер , сохраненных в графике, и как таковые, поможет уменьшить объем пространства , необходимое для последовательности ДНК магазина.
  • Меньшие размеры увеличивают вероятность перекрытия всех k -меров и, как таковые, наличия подпоследовательностей, необходимых для построения графа Де Брёйна.
  • Однако, имея k -меры меньшего размера , вы также рискуете иметь много вершин в графе, ведущих в один k-мер. Следовательно, это затруднит реконструкцию генома, поскольку существует более высокий уровень неоднозначности пути из-за большего количества вершин, которые необходимо будет пересечь.
  • Информация теряется по мере того, как k -меры становятся меньше.
    • Например, вероятность AGTCGTAGATGCTG ниже, чем ACGT, и, как таковая, содержит больший объем информации (см. Энтропию (теория информации) для получения дополнительной информации).
  • У меньших k -меров также есть проблема, заключающаяся в том, что они не могут разделить области в ДНК, где встречаются маленькие микросателлиты или повторы. Это связано с тем, что k -меры меньшего размера будут стремиться полностью находиться внутри области повтора, и поэтому трудно определить количество повторов, которые действительно имели место.
    • Например, для подпоследовательности ATGTGTGTGTGTGTACG количество повторений TG будет потеряно, еслиразмер k -меров меньше 16. Это связано с тем, что большинство k -меров будут находиться в повторяющейся области и могут быть просто отброшены как повторы одного и того же k -мера вместо того, чтобы ссылаться на количество повторов.
Высшие k- мерные размеры
  • Наличие k -меров большего размера увеличит количество ребер в графе, что, в свою очередь, увеличит объем памяти, необходимый для хранения последовательности ДНК.
  • При увеличении размера k -меров количество вершин также будет уменьшаться. Это поможет в построении генома, поскольку на графике будет меньше путей.
  • Более крупные k -меры также подвергаются более высокому риску не иметь внешних вершин из каждого k-мер. Это происходит из-за того, что более крупные k -меры увеличивают риск того, что он не будет перекрываться с другим k -мером . Следовательно, это может привести к разрывам при чтении и, как таковое, может привести к большему количеству более мелких контигов .
  • Большие размеры k- мер помогают решить проблему небольших повторяющихся участков. Это связано с тем, что k -мер будет содержать баланс повторяющейся области и прилегающих последовательностей ДНК (при условии, что они имеют достаточно большой размер), что может помочь разрешить количество повторений в этой конкретной области.

Генетика и геномика

Что касается болезни, то для обнаружения генетических островков, связанных с патогенностью, применялось динуклеотидное смещение. Предыдущая работа также показала, что тетрануклеотидные предубеждения способны эффективно обнаруживать горизонтальный перенос генов как у прокариот, так и у эукариот.

Еще одно применение k -меров - таксономия, основанная на геномике. Например, GC-контент был использован для различения видов Erwinia с умеренным успехом. Аналогично прямому использованию GC-содержимого для таксономических целей является использование T m , температуры плавления ДНК. Поскольку связи GC более термически стабильны, последовательности с более высоким содержанием GC демонстрируют более высокую T m . В 1987 году Специальный комитет по согласованию подходов к бактериальной систематике предложил использовать ΔT m в качестве фактора при определении границ видов в рамках концепции филогенетических видов , хотя это предложение, похоже, не получило поддержки в научном сообществе.

Другие приложения в генетике и геномике включают:

Метагеномика

Частота k- мер и вариация спектра широко используются в метагеномике как для анализа, так и для биннинга. При биннинге задача состоит в том, чтобы разделить считанные данные секвенирования в «бункеры» считываний для каждого организма (или оперативной таксономической единицы ), которые затем будут собраны. TETRA - это замечательный инструмент, который берет метагеномные образцы и объединяет их в организмы на основе их тетрануклеотидных ( k = 4) частот. Другими инструментами, которые аналогично полагаются на частоту k- мер для метагеномного биннинга, являются CompostBin ( k = 6), PCAHIER, PhyloPythia (5 ≤ k ≤ 6), CLARK ( k ≥ 20) и TACOA (2 ≤  k  ≤ 6). Недавние разработки также применили глубокое обучение к метагеномному объединению с использованием k -меров.

Другие приложения в метагеномике включают:

  • Восстановление рамок чтения из сырых чтений
  • Оценка видовой численности в метагеномных образцах
  • Определение того, какие виды присутствуют в образцах
  • Идентификация биомаркеров болезней по образцам

Биотехнологии 

Изменение частот k -меров в последовательностях ДНК широко используется в биотехнологических приложениях для контроля эффективности трансляции. В частности, он использовался как для повышения, так и для снижения уровня продукции белка.

Что касается увеличения продукции белка, то снижение частоты неблагоприятных динуклеотидов было использовано для повышения скорости синтеза белка. Кроме того, систематическая ошибка использования кодонов была изменена для создания синонимичных последовательностей с более высокими скоростями экспрессии белка. Точно так же оптимизация пар кодонов, комбинация динуцелотида и оптимизации кодонов, также успешно использовалась для увеличения экспрессии.

Наиболее изученное применение k -меров для снижения эффективности трансляции - это манипуляции с парами кодонов для ослабления вирусов с целью создания вакцин. Исследователи смогли перекодировать вирус денге , вирус, вызывающий лихорадку денге , таким образом, что его смещение по парным кодонам больше отличалось от предпочтения использования кодонов млекопитающими, чем от вируса дикого типа. Несмотря на то, что кодированный вирус содержит идентичную аминокислотную последовательность, он продемонстрировал значительно ослабленную патогенность , вызывая сильный иммунный ответ. Этот подход также эффективно использовался для создания вакцины против гриппа, а также вакцины против герпесвируса болезни Марека (MDV). Примечательно, что манипуляции со смещением пар кодонов, используемые для ослабления MDV, не привели к эффективному снижению онкогенности вируса, что подчеркивает потенциальную слабость этого подхода в биотехнологических приложениях. На сегодняшний день ни одна деоптимизированная вакцина с парными кодонами не одобрена для использования.

Две последующие статьи помогают объяснить фактический механизм, лежащий в основе деоптимизации пар кодонов: смещение пар кодонов является результатом смещения динуклеотидов. Изучая вирусы и их хозяев, обе группы авторов смогли сделать вывод, что молекулярный механизм, который приводит к ослаблению вирусов, - это увеличение количества динуклеотидов, плохо подходящих для трансляции.

Содержание GC, из-за его влияния на температуру плавления ДНК , используется для прогнозирования температуры отжига в ПЦР , другом важном биотехнологическом инструменте.

Реализация

Псевдокод

Определение возможных k -меров чтения может быть выполнено простым циклическим переходом по длине строки на единицу и извлечением каждой подстроки длины . Псевдокод для этого выглядит следующим образом:

procedure k-mers(string seq, integer k) is
    L ← length(seq)
    arr ← new array of L − k + 1 empty strings

    // iterate over the number of k-mers in seq, 
    // storing the nth k-mer in the output array
    for n ← 0 to L − k + 1 exclusive do
        arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive

    return arr

В конвейерах биоинформатики

Поскольку число k -меров растет экспоненциально для значений k , подсчет k -меров для больших значений k (обычно> 10) представляет собой вычислительно трудную задачу. Хотя простые реализации, такие как приведенный выше псевдокод, работают для малых значений k , их необходимо адаптировать для приложений с высокой пропускной способностью или когда k велико. Для решения этой проблемы были разработаны различные инструменты:

  • Jellyfish использует многопоточную хеш-таблицу без блокировок для подсчета k- мер и имеет привязки Python , Ruby и Perl.
  • KMC - это инструмент для подсчета k- мер, который использует многодисковую архитектуру для оптимизации скорости.
  • Gerbil использует подход хеш-таблицы, но с дополнительной поддержкой ускорения графического процессора.
  • K-mer Analysis Toolkit (KAT) использует модифицированную версию Jellyfish для анализа количества k- мер

Смотрите также

использованная литература

внешние ссылки