Геном человека -Human genome

Геномная информация
Кариотип человека с полосами и подполосами.png
Схематическое изображение диплоидного кариотипа человека , показывающее организацию генома в хромосомы, а также аннотированные полосы и подполосы, как видно на полосе G. На этом рисунке показаны как женская (XX), так и мужская (XY) версии 23-й пары хромосом. Хромосомные изменения во время клеточного цикла отображаются вверху по центру. Митохондриальный геном показан в масштабе внизу слева.
Идентификатор генома NCBI 51
плоидность диплоидный
Размер генома 3 117 275 501 пара оснований (п.н.)
Количество хромосом 23 пары

Геном человека представляет собой полный набор последовательностей нуклеиновых кислот человека , закодированных в виде ДНК в пределах 23 пар хромосом в ядрах клеток и в небольшой молекуле ДНК, обнаруженной в отдельных митохондриях . Их обычно рассматривают отдельно как ядерный геном и митохондриальный геном . Геномы человека включают как последовательности ДНК, кодирующие белки, так и различные типы ДНК, не кодирующие белки . Последняя представляет собой разнообразную категорию, которая включает ДНК, кодирующую нетранслируемую РНК, например, рибосомную РНК , транспортную РНК , рибозимы , малые ядерные РНК и несколько типов регуляторных РНК . Он также включает промоторы и связанные с ними ген-регуляторные элементы , ДНК, играющую структурные и репликативные роли, такие как каркасные области , теломеры , центромеры и точки начала репликации , а также большое количество мобильных элементов , вставленную вирусную ДНК, нефункциональные псевдогены и простые , часто повторяющиеся последовательности . Интроны составляют большой процент некодирующей ДНК . Часть этой некодирующей ДНК является нефункциональной мусорной ДНК , такой как псевдогены, но нет твердого мнения об общем количестве мусорной ДНК.

Гаплоидные геномы человека, содержащиеся в половых клетках ( яйцеклетки и клетки сперматозоидов , созданные в фазе мейоза полового размножения до оплодотворения ), состоят из 3 054 815 472 пар оснований ДНК (если используется Х-хромосома), тогда как женские диплоидные геномы (обнаружены в соматических клетки ) имеют в два раза больше ДНК.

Хотя между геномами людей существуют значительные различия (порядка 0,1% из-за однонуклеотидных вариантов и 0,6% из-за инделей ), они значительно меньше, чем различия между людьми и их ближайшими живыми родственниками, бонобо и шимпанзе (~ 1,1% фиксированных однонуклеотидных вариантов и 4% при включении инделей). Размер пар оснований тоже может варьироваться; длина теломер уменьшается после каждого цикла репликации ДНК .

Хотя последовательность генома человека была полностью определена с помощью секвенирования ДНК, она еще не полностью понята. Большинство, но не все, генов были идентифицированы с помощью сочетания высокопроизводительных экспериментальных и биоинформатических подходов, однако предстоит еще много работы для дальнейшего выяснения биологических функций их белковых и РНК- продуктов (в частности, аннотация полного CHM13v2). .0 последовательность все еще продолжается). И все же перекрывающиеся гены довольно распространены, в некоторых случаях позволяя двум генам, кодирующим белок, из каждой цепи повторно использовать пары оснований дважды (например, гены DCDC2 и KAAG1). Недавние результаты показывают, что большая часть огромных количеств некодирующей ДНК в геноме связана с биохимической активностью, включая регуляцию экспрессии генов , организацию архитектуры хромосом и сигналы, контролирующие эпигенетическое наследование . В ДНК человека также присутствует значительное количество ретровирусов , по крайней мере 3 из которых, как было доказано, обладают важной функцией (например, ВИЧ -подобные HERV-K, HERV-W и HERV-FRD играют роль в формировании плаценты путем вызывает слияние клеток).

В 2003 году ученые сообщили о секвенировании 85% всего генома человека, но по состоянию на 2020 год по крайней мере 8% все еще отсутствовали.

В 2021 году ученые сообщили о секвенировании полного женского генома (то есть без Y-хромосомы). Эта последовательность идентифицировала 19 969 последовательностей, кодирующих белок , что составляет примерно 1,5% генома, и всего 63 494 гена, большинство из которых являются генами некодирующей РНК . Геном состоит из регуляторных последовательностей ДНК , LINE , SINE , интронов и последовательностей, функция которых пока не определена. Y-хромосома человека , состоящая из 62 460 029 пар оснований из другой клеточной линии и обнаруженная у всех мужчин, была полностью секвенирована в январе 2022 года.

Последовательность действий

Первые последовательности генома человека были опубликованы в почти полной черновой форме в феврале 2001 года проектом Human Genome Project и Celera Corporation . О завершении проекта по секвенированию генома человека было объявлено в 2004 году публикацией проекта последовательности генома, в результате чего в последовательности остался всего 341 пробел, представляющий собой высокоповторяющуюся и другую ДНК, которую нельзя было секвенировать с помощью технологий, доступных в то время. Геном человека был первым из всех позвоночных, который был секвенирован почти до конца, и по состоянию на 2018 год с помощью секвенирования следующего поколения были определены диплоидные геномы более миллиона человек .

Эти данные используются во всем мире в биомедицинских науках , антропологии , криминалистике и других отраслях науки. Такие геномные исследования привели к прогрессу в диагностике и лечении заболеваний, а также к новым открытиям во многих областях биологии, включая эволюцию человека .

К 2018 году общее количество генов было увеличено как минимум до 46 831 плюс еще 2300 генов микроРНК . Опрос населения 2018 года обнаружил еще 300 миллионов оснований генома человека, которых не было в эталонной последовательности. До получения полной последовательности генома оценки количества генов человека варьировались от 50 000 до 140 000 (иногда неясно, включали ли эти оценки гены, не кодирующие белок). По мере улучшения качества последовательности генома и методов идентификации генов, кодирующих белок, количество распознанных генов, кодирующих белок, сократилось до 19 000–20 000.

В июне 2016 года ученые официально объявили о HGP-Write — плане по синтезу генома человека.

В 2022 году консорциум Telomere-to-Telomere (T2T) сообщил о полной последовательности женского генома человека, заполнив все пробелы в Х- хромосоме (2020 год) и 22 аутосомах (май 2021 года). Ранее не секвенированные части содержат гены иммунного ответа , которые помогают адаптироваться к инфекциям и выживать, а также гены, важные для прогнозирования реакции на лекарства . Завершенная последовательность генома человека также обеспечит лучшее понимание формирования человека как индивидуального организма и того, как люди различаются между собой и другими видами.

Достижение полноты

Хотя в 2001 году было объявлено о «завершении» проекта генома человека, в нем оставались сотни пробелов, при этом около 5–10% общей последовательности оставались неопределенными. Отсутствующая генетическая информация была в основном в повторяющихся гетерохроматиновых регионах и вблизи центромер и теломер , а также в некоторых эухроматиновых регионах, кодирующих гены. В 2015 году осталось 160 эухроматических пробелов, когда были определены последовательности, охватывающие еще 50 ранее несеквенированных областей. Только в 2020 году была определена первая действительно полная последовательность теломер-теломер хромосомы человека, а именно Х-хромосомы . Первая полная последовательность теломер в теломер аутосомной хромосомы человека, хромосома 8 , появилась год спустя. Полный геном человека (без Y-хромосомы) был опубликован в 2021 году, а с Y-хромосомой - в январе 2022 года.

Молекулярная организация и содержание генов

Общая длина эталонного генома человека , который не представляет собой последовательность какого-либо конкретного человека. Геном состоит из 22 парных хромосом, называемых аутосомами , плюс 23-я пара половых хромосом (XX) у самки и (XY) у самца. Гаплоидный геном составляет 3 054 815 472 пары оснований, когда включена Х-хромосома , и 2 963 015 935 пар оснований, когда Y-хромосома заменена на X-хромосому. Все эти хромосомы представляют собой большие линейные молекулы ДНК, содержащиеся в ядре клетки. Геном также включает митохондриальную ДНК , сравнительно небольшую кольцевую молекулу, присутствующую во множестве копий в каждой митохондрии .

Справочные данные человека по хромосомам
Хромосома
_
Длина Базовые
пары
Вариации
_
Гены
, кодирующие белок
Псевдогены
_
Общая
длинная
нкРНК
Общая
малая
нкРНК
микроРНК рРНК мяРНК мяРНК Разное
нкРНК
Ссылки
Положение центромеры
( Mbp )
Совокупный (%
)
1 8,5 см 248 387 328 12 151 146 2058 1220 1200 496 134 66 221 145 192 ЭБИ 125 7,9
2 8,3 см 242 696 752 12 945 965 1309 1023 1037 375 115 40 161 117 176 ЭБИ 93,3 16.2
3 6,7 см 201 105 948 10 638 715 1078 763 711 298 99 29 138 87 134 ЭБИ 91 23
4 6,5 см 193 574 945 10 165 685 752 727 657 228 92 24 120 56 104 ЭБИ 50,4 29,6
5 6,2 см 182 045 439 9 519 995 876 721 844 235 83 25 106 61 119 ЭБИ 48,4 35,8
6 5,8 см 172 126 628 9 130 476 1048 801 639 234 81 26 111 73 105 ЭБИ 61 41,6
7 5,4 см 160 567 428 8 613 298 989 885 605 208 90 24 90 76 143 ЭБИ 59,9 47,1
8 5,0 см 146 259 331 8 221 520 677 613 735 214 80 28 86 52 82 ЭБИ 45,6 52
9 4,8 см 150 617 247 6 590 811 786 661 491 190 69 19 66 51 96 ЭБИ 49 56,3
10 4,6 см 134 758 134 7 223 944 733 568 579 204 64 32 87 56 89 ЭБИ 40,2 60,9
11 4,6 см 135 127 769 7 535 370 1298 821 710 233 63 24 74 76 97 ЭБИ 53,7 65,4
12 4,5 см 133 324 548 7 228 129 1034 617 848 227 72 27 106 62 115 ЭБИ 35,8 70
13 3,9 см 113 566 686 5 082 574 327 372 397 104 42 16 45 34 75 ЭБИ 17,9 73,4
14 3,6 см 101 161 492 4 865 950 830 523 533 239 92 10 65 97 79 ЭБИ 17,6 76,4
15 3,5 см 99 753 195 4 515 076 613 510 639 250 78 13 63 136 93 ЭБИ 19 79,3
16 3,1 см 96 330 374 5 101 702 873 465 799 187 52 32 53 58 51 ЭБИ 36,6 82
17 2,8 см 84 276 897 4 614 972 1197 531 834 235 61 15 80 71 99 ЭБИ 24 84,8
18 2,7 см 80 542 538 4 035 966 270 247 453 109 32 13 51 36 41 ЭБИ 17.2 87,4
19 2,0 см 61 707 364 3 858 269 1472 512 628 179 110 13 29 31 61 ЭБИ 26,5 89,3
20 2,1 см 66 210 255 3 439 621 544 249 384 131 57 15 46 37 68 ЭБИ 27,5 91,4
21 1,6 см 45 090 682 2 049 697 234 185 305 71 16 5 21 19 24 ЭБИ 13.2 92,6
22 1,7 см 51 324 926 2 135 311 488 324 357 78 31 5 23 23 62 ЭБИ 14,7 93,8
Икс 5,3 см 154 259 566 5 753 881 842 874 271 258 128 22 85 64 100 ЭБИ 60,6 99,1
Д 2,0 см 62 460 029 211 643 71 388 71 30 15 7 17 3 8 ЭБИ 10.4 100
мтДНК 5,4 мкм 16 569 929 13 0 0 24 0 2 0 0 0 ЭБИ Н/Д 100
гапл 1-23 + X 104 см 3 054 815 472 20328 14212 14656 4983 1741 г. 523 1927 г. 1518 2205
1-23 + Y 101 см 2 963 015 935 19557 13726 14456 4755 1628 508 1859 г. 1457 2113
дипл + мт 208,23 см 6 109 647 513 40669 28424 29312 9990 3482 1048 3854 3036 4410
дипл + мт 205,00 см 6 017 847 976 39898 27938 29112 9762 3369 1033 3786 2975 4318
Оригинальный анализ опубликован в базе данных Ensembl Европейского института биоинформатики (EBI) и Института Сангера Wellcome Trust . Длины хромосом оцениваются путем умножения числа пар оснований (более старого эталонного генома, а не CHM13v2.0) на 0,34 нанометра (расстояние между парами оснований в наиболее распространенной структуре двойной спирали ДНК; недавняя оценка длин хромосом человека на основе обновленных данные сообщают о 205,00 см для диплоидного мужского генома и 208,23 см для женского, что соответствует весу 6,41 и 6,51 пикограмма (пг) соответственно). Количество белков основано на количестве исходных транскриптов мРНК-предшественников и не включает продукты альтернативного сплайсинга пре-мРНК или модификации структуры белка, которые происходят после трансляции .

Вариации — это уникальные различия последовательностей ДНК, которые были выявлены в последовательностях отдельных геномов человека, проанализированных Ensembl по состоянию на декабрь 2016 года. Ожидается, что количество выявленных вариаций будет увеличиваться по мере секвенирования и анализа дальнейших персональных геномов . В дополнение к содержанию генов, показанному в этой таблице, в геноме человека было идентифицировано большое количество неэкспрессируемых функциональных последовательностей (см. ниже). Связывает открытые окна с эталонными последовательностями хромосом в браузере генома EBI.

Малые некодирующие РНК — это РНК длиной до 200 оснований, которые не обладают потенциалом кодирования белка. К ним относятся: микроРНК , или микроРНК (посттранскрипционные регуляторы экспрессии генов), малые ядерные РНК , или мяРНК (РНК-компоненты сплайсосом ) , и малые ядрышковые РНК , или мноРНК (участвующие в проведении химических модификаций других молекул РНК). Длинные некодирующие РНК представляют собой молекулы РНК длиной более 200 оснований, которые не обладают потенциалом кодирования белка. К ним относятся: рибосомные РНК , или рРНК (РНК-компоненты рибосом ), и множество других длинных РНК, которые участвуют в регуляции экспрессии генов , эпигенетических модификациях нуклеотидов ДНК и гистоновых белков, а также в регуляции активности белок-кодирующих гены. Небольшие расхождения между общим числом малых нкРНК и числом конкретных типов малых нкНРА возникают из-за того, что первые значения взяты из выпуска 87 Ensembl, а вторые — из выпуска 68 Ensembl.

Количество генов в геноме человека не совсем ясно, поскольку функция многочисленных транскриптов остается неясной. Особенно это касается некодирующих РНК . Количество генов, кодирующих белок, известно лучше, но все еще существует порядка 1400 сомнительных генов, которые могут кодировать или не кодировать функциональные белки, обычно кодируемые короткими открытыми рамками считывания .
Расхождения в оценках количества генов человека в разных базах данных по состоянию на июль 2018 г.
Генкод Ансамбль Refseq ШАХМАТЫ
гены, кодирующие белок 19 901 20 376 20 345 21 306
гены днкРНК 15 779 14 720 17 712 18 484
антисмысловая РНК 5501 28 2694
разная РНК 2213 2222 13 899 4347
Псевдогены 14 723 1740 15 952
общее количество транскриптов 203 835 203 903 154 484 328 827
Количество генов (оранжевый) и пар оснований (зеленый, в миллионах) на каждой хромосоме

Информационное содержание

Гаплоидный геном человека (23 хромосомы ) имеет длину около 3 миллиардов пар оснований и содержит около 30 000 генов . Поскольку каждая пара оснований может быть закодирована двумя битами, это около 750 мегабайт данных. Индивидуальная соматическая ( диплоидная ) клетка содержит вдвое больше, то есть около 6 миллиардов пар оснований. У мужчин их меньше, чем у женщин, потому что Y-хромосома составляет около 62 миллионов пар оснований, а X - около 154 миллионов. Поскольку последовательность отдельных геномов отличается друг от друга менее чем на 1%, вариации генома данного человека из общего эталона можно без потерь сжать примерно до 4 мегабайт.

Скорость энтропии генома значительно различается между кодирующими и некодирующими последовательностями. Он близок к максимуму в 2 бита на пару оснований для кодирующих последовательностей (около 45 миллионов пар оснований), но меньше для некодирующих частей. Он колеблется от 1,5 до 1,9 бит на пару оснований для отдельной хромосомы, за исключением Y-хромосомы, которая имеет коэффициент энтропии ниже 0,9 бит на пару оснований.

Кодирующая и некодирующая ДНК

Содержимое генома человека обычно делят на кодирующие и некодирующие последовательности ДНК. Кодирующая ДНК определяется как последовательности, которые могут транскрибироваться в мРНК и транслироваться в белки в течение жизненного цикла человека; эти последовательности занимают лишь небольшую часть генома (<2%). Некодирующая ДНК состоит из всех тех последовательностей (около 98% генома), которые не используются для кодирования белков.

Некоторые некодирующие ДНК содержат гены молекул РНК с важными биологическими функциями ( некодирующие РНК , например рибосомная РНК и транспортная РНК ). Изучение функции и эволюционного происхождения некодирующей ДНК является важной целью современных исследований генома, в том числе проекта ENCODE (Энциклопедия элементов ДНК), который направлен на изучение всего генома человека с использованием различных экспериментальных инструментов, результаты которых показательны. молекулярной активности. Однако остается спорным вопрос, подразумевает ли сама по себе молекулярная активность (транскрипция ДНК в РНК) то, что полученная РНК имеет значимую биологическую функцию, поскольку эксперименты показали, что случайная нефункциональная ДНК также будет воспроизводимо рекрутировать факторы транскрипции, что приводит к транскрипции в нефункциональную РНК.

Нет единого мнения о том, что представляет собой «функциональный» элемент в геноме, поскольку генетики, эволюционные биологи и молекулярные биологи используют разные определения и методы. Из-за неоднозначности терминологии возникли разные школы мысли. В эволюционных определениях «функциональная» ДНК, независимо от того, является ли она кодирующей или некодирующей, способствует приспособленности организма и, следовательно, поддерживается негативным эволюционным давлением , тогда как «нефункциональная» ДНК не приносит пользы организму и, следовательно, под нейтральным селективным давлением. Этот тип ДНК был описан как мусорная ДНК . В генетических определениях «функциональная» ДНК связана с тем, как сегменты ДНК проявляются фенотипом, а «нефункциональная» связана с эффектами потери функции в организме. В биохимических определениях «функциональная» ДНК относится к последовательностям ДНК, которые определяют молекулярные продукты (например, некодирующие РНК) и биохимическую активность с механистическими ролями в регуляции генов или генома (т.е. последовательности ДНК, которые влияют на активность клеточного уровня, такую ​​как тип клеток, состояние и молекулярные процессы). процессы). В литературе нет единого мнения относительно количества функциональной ДНК, поскольку, в зависимости от того, как понимается «функция», диапазоны оцениваются от 90 % генома человека, вероятно, нефункциональной ДНК (мусорной ДНК), до 80 %. генома, вероятно, функциональна. Также возможно, что мусорная ДНК может приобрести функцию в будущем и, следовательно, может сыграть роль в эволюции, но это, вероятно, будет происходить очень редко. Наконец, ДНК, вредная для организма и находящаяся под отрицательным селективным давлением, называется мусорной ДНК.

Поскольку число некодирующих ДНК значительно превышает количество кодирующих ДНК, концепция секвенированного генома стала более сфокусированной аналитической концепцией, чем классическая концепция ДНК-кодирующего гена.

Кодирующие последовательности (гены, кодирующие белок)

Гены человека, классифицированные по функциям транскрибируемых белков, указаны как по количеству кодирующих генов, так и по процентному содержанию всех генов.

Последовательности, кодирующие белок, представляют собой наиболее широко изученный и наиболее понятный компонент генома человека. Эти последовательности в конечном итоге приводят к продукции всех белков человека , хотя некоторые биологические процессы (например, перестройки ДНК и альтернативный сплайсинг пре-мРНК ) могут привести к продукции гораздо большего количества уникальных белков, чем количество генов, кодирующих белок. Полная модульная способность кодирования белка генома содержится в экзоме и состоит из последовательностей ДНК, кодируемых экзонами , которые могут транслироваться в белки. Из-за его биологической важности и того факта, что он составляет менее 2% генома, секвенирование экзома стало первой важной вехой проекта «Геном человека».

Количество генов, кодирующих белок . Около 20 000 белков человека аннотированы в таких базах данных, как Uniprot . Исторически оценки количества белковых генов сильно различались, достигая 2 000 000 в конце 1960-х, но несколько исследователей указали в начале 1970-х, что расчетная мутационная нагрузка от вредных мутаций устанавливает верхний предел примерно в 40 000 для общего числа генов. функциональных локусов (включая кодирующие белок и функциональные некодирующие гены). Количество генов, кодирующих белки человека, ненамного больше, чем у многих менее сложных организмов, таких как круглые черви и плодовые мушки . Это различие может быть результатом широкого использования альтернативного сплайсинга пре-мРНК у людей, который обеспечивает возможность построения очень большого количества модульных белков за счет селективного включения экзонов.

Емкость кодирования белка на хромосому . Гены, кодирующие белок, распределены по хромосомам неравномерно, от нескольких десятков до более чем 2000, с особенно высокой плотностью генов в хромосомах 1, 11 и 19. Каждая хромосома содержит различные генобогатые и бедные генами участки, которые может быть коррелирован с полосами хромосом и GC-содержанием . Значение этих неслучайных паттернов плотности генов изучено недостаточно.

Размер генов, кодирующих белок . Размер кодирующих белок генов в человеческом геноме демонстрирует огромную изменчивость. Например, ген гистона H1a (HIST1HIA) является относительно небольшим и простым, в нем отсутствуют интроны, и он кодирует мРНК длиной 781 нуклеотид, которая производит белок из 215 аминокислот из своей открытой рамки считывания из 648 нуклеотидов . Дистрофин (DMD) был крупнейшим кодирующим белок геном в эталонном геноме человека 2001 года, охватывающим в общей сложности 2,2 миллиона нуклеотидов, в то время как более поздний систематический метаанализ обновленных данных о геноме человека выявил еще более крупный кодирующий белок ген, RBFOX1 ( РНК связывающий белок, гомолог 1 fox-1), охватывающий в общей сложности 2,47 миллиона нуклеотидов. Титин (TTN) имеет самую длинную кодирующую последовательность (114 414 нуклеотидов), наибольшее количество экзонов (363) и самый длинный отдельный экзон (17 106 нуклеотидов). По оценкам, основанным на тщательно отобранном наборе генов, кодирующих белок, по всему геному, средний размер составляет 26 288 нуклеотидов (среднее значение = 66 577), средний размер экзона — 133 нуклеотида (среднее значение = 309), среднее количество экзонов — 8 ( среднее значение = 11), а медиана кодируемого белка составляет 425 аминокислот (среднее значение = 553) в длину.

Примеры генов, кодирующих белок человека
белок Хром Ген Длина экзоны длина экзона Длина интрона Альтернативный сплайсинг
Белок предрасположенности к раку молочной железы 2 типа 13 BRCA2 83 736 27 11 386 72 350 да
Муковисцидоз регулятор трансмембранной проводимости 7 CFTR 202 881 27 4440 198 441 да
Цитохром б МТ MTCYB 1140 1 1140 0 нет
Дистрофин Икс ДМД 2 220 381 79 10 500 2 209 881 да
Глицеральдегид-3-фосфатдегидрогеназа 12 ГАФД 4444 9 1425 3019 да
Бета-субъединица гемоглобина 11 ХББ 1605 3 626 979 нет
Гистон Н1 А 6 HIST1H1A 781 1 781 0 нет
Титин 2 ТТН 281 434 364 104 301 177 133 да

Некодирующая ДНК (нкДНК)

Некодирующая ДНК определяется как все последовательности ДНК в геноме, которые не обнаружены в экзонах, кодирующих белок, и поэтому никогда не представлены в аминокислотной последовательности экспрессируемых белков. Согласно этому определению, более 98% геномов человека состоит из нкДНК.

Были идентифицированы многочисленные классы некодирующей ДНК, включая гены некодирующей РНК (например, тРНК и рРНК), псевдогены, интроны, нетранслируемые области мРНК, регуляторные последовательности ДНК, повторяющиеся последовательности ДНК и последовательности, относящиеся к мобильным генетическим элементам.

Многочисленные последовательности, входящие в состав генов, также определяются как некодирующие ДНК. К ним относятся гены некодирующей РНК (например, тРНК, рРНК) и нетранслируемые компоненты генов, кодирующих белок (например, интроны и 5'- и 3'-нетранслируемые области мРНК).

Последовательности, кодирующие белок (в частности, кодирующие экзоны ), составляют менее 1,5% генома человека. Кроме того, около 26% генома человека составляют интроны . Помимо генов (экзонов и интронов) и известных регуляторных последовательностей (8–20%), геном человека содержит участки некодирующей ДНК. Точное количество некодирующей ДНК, которая играет роль в клеточной физиологии, является предметом горячих споров. Недавний анализ проекта ENCODE показывает, что 80% всего генома человека либо транскрибируется, либо связывается с регуляторными белками, либо связано с какой-либо другой биохимической активностью.

Однако остается спорным вопрос о том, вносит ли вся эта биохимическая активность вклад в физиологию клетки, или же значительная ее часть является результатом транскрипционного и биохимического шума, который должен активно отфильтровываться организмом. За исключением последовательностей, кодирующих белок, интронов и регуляторных областей, большая часть некодирующей ДНК состоит из: Многие последовательности ДНК, которые не играют роли в экспрессии генов, выполняют важные биологические функции. Сравнительные исследования геномики показывают, что около 5% генома содержит высококонсервативные последовательности некодирующей ДНК , иногда в масштабах времени, составляющих сотни миллионов лет, что подразумевает, что эти некодирующие области находятся под сильным эволюционным давлением и очищающим отбором .

Многие из этих последовательностей регулируют структуру хромосом, ограничивая области образования гетерохроматина и регулируя структурные особенности хромосом, такие как теломеры и центромеры . Другие некодирующие области служат источниками репликации ДНК . Наконец, несколько областей транскрибируются в функциональную некодирующую РНК, которая регулирует экспрессию генов, кодирующих белок (например), трансляцию и стабильность мРНК (см. микроРНК ) , структуру хроматина (включая , например, модификации гистонов ), метилирование ДНК (например). рекомбинация ДНК (например) и перекрестная регуляция других некодирующих РНК (например). Также вероятно, что многие транскрибируемые некодирующие области не играют никакой роли и что эта транскрипция является продуктом активности неспецифической РНК-полимеразы .

Псевдогены

Псевдогены представляют собой неактивные копии генов, кодирующих белки, часто генерируемые дупликацией генов , которые стали нефункциональными из-за накопления инактивирующих мутаций. Число псевдогенов в геноме человека составляет порядка 13 000, а в некоторых хромосомах почти равно числу функциональных генов, кодирующих белок. Дупликация генов является основным механизмом, с помощью которого в ходе молекулярной эволюции генерируется новый генетический материал .

Например, семейство генов обонятельных рецепторов является одним из наиболее документированных примеров псевдогенов в геноме человека. Более 60 процентов генов в этом семействе являются нефункциональными псевдогенами у человека. Для сравнения, только 20 процентов генов в семействе генов обонятельных рецепторов мыши являются псевдогенами. Исследования показывают, что это видоспецифичная характеристика, поскольку все наиболее близкородственные приматы имеют пропорционально меньше псевдогенов. Это генетическое открытие помогает объяснить менее острое обоняние у людей по сравнению с другими млекопитающими.

Гены некодирующей РНК (нкРНК)

Молекулы некодирующей РНК играют важную роль в клетках, особенно во многих реакциях синтеза белка и процессинга РНК . Некодирующие РНК включают тРНК , рибосомную РНК, микроРНК , яРНК и другие гены некодирующей РНК, включая около 60 000 длинных некодирующих РНК (днРНК). Хотя количество зарегистрированных генов днРНК продолжает расти, а точное количество в геноме человека еще предстоит определить, многие из них считаются нефункциональными.

Многие нкРНК являются критическими элементами регуляции и экспрессии генов. Некодирующая РНК также участвует в эпигенетике, транскрипции, сплайсинге РНК и механизме трансляции. Роль РНК в генетической регуляции и заболеваниях предлагает новый потенциальный уровень неизученной геномной сложности.

Интроны и нетранслируемые участки мРНК

В дополнение к молекулам нкРНК, которые кодируются дискретными генами, исходные транскрипты генов, кодирующих белки, обычно содержат обширные некодирующие последовательности в виде интронов, 5' - нетранслируемых областей (5'-UTR) и 3'-нетранслируемых областей. (3'-UTR). В большинстве кодирующих белок генов человеческого генома длина последовательностей интронов в 10-100 раз превышает длину последовательностей экзонов.

Регуляторные последовательности ДНК

Геном человека имеет множество различных регуляторных последовательностей , которые имеют решающее значение для контроля экспрессии генов . По консервативным оценкам, эти последовательности составляют 8% генома, однако экстраполяции из проекта ENCODE показывают, что 20-40% генома составляют регуляторные последовательности генов. Некоторые типы некодирующей ДНК представляют собой генетические «переключатели», которые не кодируют белки, но регулируют, когда и где экспрессируются гены (так называемые энхансеры ).

Регуляторные последовательности известны с конца 1960-х гг. Первая идентификация регуляторных последовательностей в геноме человека основывалась на технологии рекомбинантной ДНК. Позже, с появлением геномного секвенирования, идентификация этих последовательностей могла быть сделана на основе эволюционной консервации. Эволюционная ветвь между приматами и мышами , например, произошла 70–90 миллионов лет назад. Таким образом, компьютерные сравнения последовательностей генов, которые идентифицируют консервативные некодирующие последовательности, будут свидетельствовать об их важности для выполнения таких функций, как регуляция генов.

Другие геномы были секвенированы с тем же намерением помочь методам сохранения, например, геном иглобрюха . Однако регуляторные последовательности исчезают и регенерируют в ходе эволюции с высокой скоростью.

С 2012 года усилия были смещены в сторону поиска взаимодействий между ДНК и регуляторными белками с помощью метода ChIP-Seq или пробелов, в которых ДНК не упакована гистонами ( сверхчувствительные к ДНКазе сайты ), оба из которых сообщают, где находятся активные регуляторные последовательности в ДНК. исследуемый тип клеток.

Повторяющиеся последовательности ДНК

Повторяющиеся последовательности ДНК составляют примерно 50% генома человека.

Около 8% генома человека состоит из тандемных массивов ДНК или тандемных повторов, повторяющихся последовательностей низкой сложности, которые имеют несколько смежных копий (например, «CAGCAGCAG...»). Тандемные последовательности могут быть различной длины, от двух нуклеотидов до десятков нуклеотидов. Эти последовательности сильно различаются даже среди близкородственных людей и поэтому используются для генеалогического тестирования ДНК и судебно-медицинского анализа ДНК .

Повторяющиеся последовательности из менее чем десяти нуклеотидов (например, динуклеотидный повтор (AC) n ) называются микросателлитными последовательностями. Среди микросателлитных последовательностей особое значение имеют тринуклеотидные повторы, которые иногда встречаются в кодирующих участках генов белков и могут приводить к генетическим нарушениям. Например, болезнь Хантингтона возникает в результате экспансии тринуклеотидного повтора (CAG) n в гене гентингтина на хромосоме 4 человека. Теломеры (концы линейных хромосом) заканчиваются микросателлитным гексануклеотидным повтором последовательности (TTAGGG) n .

Тандемные повторы более длинных последовательностей (массивы повторяющихся последовательностей длиной 10–60 нуклеотидов) называются минисателлитами .

Мобильные генетические элементы (транспозоны) и их реликты

Мобильные генетические элементы , последовательности ДНК, которые могут реплицироваться и вставлять свои копии в других местах генома хозяина, являются многочисленным компонентом генома человека. Наиболее распространенная линия транспозонов, Alu , имеет около 50 000 активных копий и может быть вставлена ​​во внутригенные и межгенные области. Еще одна линия, LINE-1, имеет около 100 активных копий на геном (число варьируется у разных людей). Вместе с нефункционирующими остатками старых транспозонов они составляют более половины всей ДНК человека. Транспозоны, иногда называемые «прыгающими генами», сыграли важную роль в формировании человеческого генома. Некоторые из этих последовательностей представляют собой эндогенные ретровирусы , ДНК-копии вирусных последовательностей, которые навсегда интегрированы в геном и теперь передаются последующим поколениям.

Мобильные элементы в геноме человека можно разделить на ретротранспозоны LTR (8,3% всего генома), SINE (13,1% всего генома), включая элементы Alu , LINE (20,4% всего генома), SVA (SINE- VNTR -Alu) и ДНК-транспозоны класса II (2,9% всего генома).

Геномная вариация у людей

Эталонный геном человека

За исключением однояйцевых близнецов, все люди демонстрируют значительные различия в последовательностях геномной ДНК. Эталонный геном человека (HRG) используется в качестве стандартной эталонной последовательности.

Есть несколько важных моментов, касающихся эталонного генома человека:

  • HRG представляет собой гаплоидную последовательность. Каждая хромосома представлена ​​один раз.
  • HRG представляет собой составную последовательность и не соответствует какому-либо реальному человеку.
  • HRG периодически обновляется для исправления ошибок, неясностей и неизвестных «пробелов».
  • HRG никоим образом не представляет собой «идеального» или «совершенного» человека. Это просто стандартизированное представление или модель, которая используется для сравнительных целей.

Консорциум ссылок на геном отвечает за обновление HRG. Версия 38 была выпущена в декабре 2013 года.

Измерение генетической изменчивости человека

Большинство исследований генетической изменчивости человека было сосредоточено на однонуклеотидных полиморфизмах (SNP), которые представляют собой замены в отдельных основаниях вдоль хромосомы. По оценкам большинства анализов, SNP встречаются в среднем 1 из 1000 пар оснований в эухроматиновом геноме человека, хотя они не встречаются с одинаковой плотностью. Таким образом, следует популярное утверждение, что «мы все, независимо от расы , генетически на 99,9% одинаковы», хотя большинство генетиков несколько оговорили бы это. Например, в настоящее время считается, что гораздо большая часть генома участвует в изменении числа копий . Крупномасштабные совместные усилия по каталогизации вариаций SNP в геноме человека предпринимаются Международным проектом HapMap .

Геномные локусы и длина некоторых типов небольших повторяющихся последовательностей сильно различаются от человека к человеку, что является основой технологий ДНК-дактилоскопии и ДНК-тестирования на отцовство . Считается, что гетерохроматиновые части человеческого генома, насчитывающие в общей сложности несколько сотен миллионов пар оснований, весьма изменчивы в пределах человеческой популяции (они настолько повторяющиеся и такие длинные, что их невозможно точно секвенировать с помощью современных технологий) . Эти области содержат несколько генов, и неясно, является ли какой-либо значительный фенотипический эффект следствием типичных вариаций повторов или гетерохроматина.

Большинство грубых геномных мутаций в зародышевых клетках гамет , вероятно, приводят к нежизнеспособным эмбрионам; однако ряд заболеваний человека связан с крупномасштабными геномными аномалиями. Синдром Дауна , синдром Тернера и ряд других заболеваний возникают в результате нерасхождения целых хромосом. Раковые клетки часто имеют анеуплоидию хромосом и хромосомных плеч, хотя причинно-следственная связь между анеуплоидией и раком не установлена.

Картирование геномных вариаций человека

В то время как последовательность генома перечисляет порядок каждого основания ДНК в геноме, карта генома идентифицирует ориентиры. Карта генома менее подробна, чем последовательность генома, и помогает ориентироваться в геноме.

Примером вариационной карты является HapMap, разрабатываемый в рамках Международного проекта HapMap . HapMap представляет собой карту гаплотипов генома человека, «которая будет описывать общие закономерности изменения последовательности ДНК человека». Он каталогизирует образцы мелкомасштабных вариаций генома, которые включают отдельные буквы ДНК или основания.

Исследователи опубликовали первую основанную на последовательностях карту крупномасштабных структурных вариаций человеческого генома в журнале Nature в мае 2008 года. Крупномасштабные структурные вариации — это различия в геноме людей, которые варьируются от нескольких тысяч до нескольких миллионов оснований ДНК. ; некоторые из них представляют собой увеличение или уменьшение участков последовательности генома, а другие проявляются в виде реорганизации участков последовательности. Эти вариации включают различия в количестве копий определенного гена у людей, делеции, транслокации и инверсии.

Структурная вариация

Структурная изменчивость относится к генетическим вариантам, которые затрагивают более крупные сегменты генома человека, в отличие от точечных мутаций . Часто структурные варианты (SV) определяются как варианты из 50 пар оснований (bp) или более, такие как делеции, дупликации, вставки, инверсии и другие перестройки. Около 90% структурных вариантов представляют собой некодирующие делеции, но у большинства людей таких делеций более тысячи; размер делеций колеблется от десятков пар оснований до десятков тысяч пар оснований. В среднем люди несут около 3 редких структурных вариантов, которые изменяют кодирующие области, например удаляют экзоны . Около 2% людей несут ультраредкие структурные варианты мегабазового масштаба, особенно перестройки. То есть в хромосоме могут быть инвертированы миллионы пар оснований; ультраредкие означает, что они обнаруживаются только у отдельных лиц или членов их семей и, таким образом, возникли совсем недавно.

Частота SNP в геноме человека

Однонуклеотидные полиморфизмы (SNP) не встречаются однородно в геноме человека. На самом деле существует огромное разнообразие частот SNP между генами, отражающее различное селективное давление на каждый ген, а также различную скорость мутаций и рекомбинаций в геноме. Однако исследования SNP смещены в сторону кодирующих областей, и полученные из них данные вряд ли отражают общее распределение SNP по всему геному. Таким образом, протокол Консорциума SNP был разработан для идентификации SNP без смещения в сторону кодирующих областей, и 100 000 SNP Консорциума обычно отражают разнообразие последовательностей в хромосомах человека. Консорциум SNP стремится увеличить количество SNP, идентифицированных в геноме, до 300 000 к концу первого квартала 2001 года.

Распределение SNP TSC вдоль длинного плеча хромосомы 22 (из https://web.archive.org/web/20130903043223/http://snp.cshl.org/ ). Каждый столбец представляет интервал в 1 Мб; приблизительное цитогенетическое положение указано на оси x. Можно увидеть четкие пики и впадины плотности SNP, возможно, отражающие разные скорости мутаций, рекомбинации и отбора.

Изменения в некодирующей последовательности и синонимичные изменения в кодирующей последовательности , как правило, более распространены, чем несинонимичные изменения, что отражает большее селективное давление, снижающее разнообразие в положениях, определяющих идентичность аминокислот. Переходные изменения встречаются чаще, чем трансверсии, при этом динуклеотиды CpG демонстрируют самую высокую скорость мутаций, предположительно из-за дезаминирования.

Персональные геномы

Последовательность личного генома — это (почти) полная последовательность пар химических оснований, составляющих ДНК одного человека. Поскольку медикаментозное лечение по-разному влияет на разных людей из-за генетических вариаций, таких как однонуклеотидные полиморфизмы (SNP), анализ личных геномов может привести к персонализированному медицинскому лечению на основе индивидуальных генотипов.

Первая последовательность личного генома, которую нужно было определить, была последовательность Крейга Вентера в 2007 году. Личные геномы не были секвенированы в рамках общедоступного проекта «Геном человека» для защиты личности добровольцев, предоставивших образцы ДНК. Эта последовательность была получена из ДНК нескольких добровольцев из разных популяций. Однако в начале работы по секвенированию генома Celera Genomics под руководством Вентера было принято решение перейти от секвенирования составного образца к использованию ДНК одного человека, которым, как позже выяснилось, был сам Вентер. Таким образом, последовательность генома человека Celera, опубликованная в 2000 году, в основном принадлежала одному человеку. Последующая замена ранних данных, полученных из композита, и определение диплоидной последовательности, представляющей оба набора хромосом , а не гаплоидной последовательности, о которой первоначально сообщалось, позволили выпустить первый персональный геном. В апреле 2008 года был завершен проект Джеймса Уотсона . В 2009 году Стивен Квейк опубликовал свою собственную последовательность генома, полученную с помощью секвенатора собственной разработки Heliscope. Команда из Стэнфорда под руководством Юана Эшли опубликовала основу для медицинской интерпретации геномов человека, реализованную на геноме Quake, и впервые приняла медицинские решения на основе всего генома. Эта команда расширила подход к семейству Уэст, первому семейству, секвенированному в рамках программы персонального секвенирования генома Illumina. С тех пор были выпущены сотни последовательностей личных геномов, в том числе Десмонда Туту и ​​палео-эскимоса . В 2012 году были обнародованы полные последовательности геномов двух семейных трио среди 1092 геномов. В ноябре 2013 года испанская семья сделала четыре персональных набора экзомных данных (около 1% генома) общедоступными по лицензии Creative Commons . Проект « Персональный геном» (начатый в 2005 г.) является одним из немногих, которые сделали общедоступными как последовательности генома, так и соответствующие медицинские фенотипы.

Секвенирование отдельных геномов выявило уровни генетической сложности, которые ранее не оценивались. Персональная геномика помогла выявить значительный уровень разнообразия генома человека, связанный не только с SNP, но и со структурными вариациями. Однако применение таких знаний для лечения болезней и в области медицины только начинается. Секвенирование экзома становится все более популярным в качестве инструмента, помогающего в диагностике генетических заболеваний, поскольку экзом составляет только 1% геномной последовательности, но на него приходится примерно 85% мутаций, которые в значительной степени способствуют заболеванию.

Человеческие нокауты

У людей нокауты генов в природе встречаются как гетерозиготные или гомозиготные нокауты генов с потерей функции . Эти нокауты часто трудно различить, особенно в пределах гетерогенного генетического фона. Их также трудно найти, поскольку они встречаются на низких частотах.

Популяции с высоким уровнем родства с родителями приводят к большему количеству нокаутов гомозиготных генов по сравнению с аутбредными популяциями.

Популяции с высоким уровнем кровного родства , такие как страны с высоким уровнем браков двоюродных братьев и сестер, демонстрируют самые высокие частоты нокаутов гомозиготных генов. К таким популяциям относятся Пакистан, Исландия и амиши. Эти популяции с высоким уровнем родства с родителями были объектами исследования нокаута на людях, которое помогло определить функцию определенных генов у людей. Выявляя конкретные нокауты, исследователи могут использовать фенотипический анализ этих людей, чтобы охарактеризовать ген, который был нокаутирован.

Родословная, показывающая спаривание двоюродных братьев (носители, несущие гетерозиготные нокауты, спариваются, как отмечено двойной линией), что приводит к потомству, обладающему гомозиготным нокаутом гена.

Нокауты в определенных генах могут вызывать генетические заболевания, потенциально иметь благоприятные эффекты или даже не приводить к полному отсутствию фенотипического эффекта. Однако определение фенотипического эффекта нокаута у людей может быть сложной задачей. Проблемы, связанные с характеристикой и клинической интерпретацией нокаутов, включают трудности с определением вариантов ДНК, определением нарушения функции белка (аннотация) и рассмотрением степени влияния мозаицизма на фенотип.

Одним из крупных исследований, посвященных нокауту у людей, является пакистанское исследование риска инфаркта миокарда. Было обнаружено, что люди, обладающие гетерозиготным нокаутом гена потери функции гена APOC3 , имели более низкие уровни триглицеридов в крови после употребления пищи с высоким содержанием жиров по сравнению с людьми без мутации. Однако люди, обладающие гомозиготным нокаутом гена потери функции гена APOC3, показали самый низкий уровень триглицеридов в крови после теста с жировой нагрузкой, поскольку они не продуцируют функциональный белок APOC3.

Генетические нарушения человека

Большинство аспектов биологии человека включают как генетические (унаследованные), так и негенетические (средовые) факторы. Некоторые унаследованные вариации влияют на аспекты нашей биологии, которые не являются медицинскими по своей природе (рост, цвет глаз, способность ощущать вкус или запах определенных соединений и т. д.). Более того, некоторые генетические нарушения вызывают заболевание только в сочетании с соответствующими факторами окружающей среды (например, диетой). С учетом этих оговорок генетические нарушения могут быть описаны как клинически определенные заболевания, вызванные изменчивостью последовательности геномной ДНК. В самых простых случаях расстройство может быть связано с изменением одного гена. Например, кистозный фиброз вызывается мутациями в гене CFTR и является наиболее распространенным рецессивным заболеванием у представителей европеоидной расы, известно более 1300 различных мутаций.

Болезнетворные мутации в определенных генах обычно серьезны с точки зрения функции генов и, к счастью, встречаются редко, поэтому генетические нарушения также редки по отдельности. Однако, поскольку существует множество генов, которые могут изменяться, вызывая генетические нарушения, в совокупности они составляют значительный компонент известных заболеваний, особенно в педиатрии. Молекулярно охарактеризованные генетические нарушения — это те, для которых был идентифицирован лежащий в их основе причинный ген. В настоящее время в базе данных OMIM аннотировано около 2200 таких расстройств .

Исследования генетических нарушений часто проводятся с помощью семейных исследований. В некоторых случаях используются популяционные подходы, особенно в случае так называемых исходных популяций, таких как популяции в Финляндии, франко-канадской, Юте, Сардинии и т. д. Диагностика и лечение генетических нарушений обычно выполняются врачом- генетиком . обучен клинической/медицинской генетике. Результаты проекта «Геном человека» , вероятно, обеспечат повышение доступности генетического тестирования на генетические заболевания и, в конечном итоге, улучшение лечения. Родители могут быть проверены на наличие наследственных заболеваний и проконсультированы о последствиях, вероятности наследования и о том, как избежать или улучшить его у своих потомков.

Существует множество различных видов вариаций последовательности ДНК, начиная от полных дополнительных или отсутствующих хромосом и заканчивая изменениями отдельных нуклеотидов. Обычно предполагается, что многие естественные генетические вариации в человеческих популяциях фенотипически нейтральны, т. е. оказывают незначительное влияние на физиологию индивидуума или вообще не влияют на него (хотя могут существовать незначительные различия в приспособленности, определяемые эволюционными временными рамками). Генетические нарушения могут быть вызваны любым или всеми известными типами изменчивости последовательностей. Для молекулярной характеристики нового генетического нарушения необходимо установить причинно-следственную связь между конкретным вариантом геномной последовательности и исследуемым клиническим заболеванием. Такие исследования составляют область молекулярной генетики человека.

С появлением генома человека и международного проекта HapMap стало возможным исследовать тонкие генетические влияния на многие распространенные заболевания, такие как диабет, астма, мигрень, шизофрения и т. д. Хотя были установлены некоторые причинно-следственные связи между вариантами геномной последовательности в определенные гены и некоторые из этих заболеваний, часто получившие широкую огласку в средствах массовой информации, обычно не считаются генетическими нарушениями как таковыми , поскольку их причины сложны и включают множество различных генетических факторов и факторов окружающей среды. Таким образом, в отдельных случаях могут возникнуть разногласия относительно того, следует ли называть конкретное заболевание генетическим заболеванием.

Дополнительными генетическими нарушениями, о которых следует упомянуть, являются синдром Каллмана и синдром Пфайффера (ген FGFR1), дистрофия роговицы Фукса (ген TCF4), болезнь Гиршпрунга (гены RET и FECH), синдром Барде-Бидля 1 (гены CCDC28B и BBS1), синдром Барде-Бидля 10 (ген BBS10) и плечелопаточно-лицевой мышечной дистрофии 2 типа (гены D4Z4 и SMCHD1).

Секвенирование генома теперь может сузить геном до конкретных участков, чтобы более точно найти мутации, которые приведут к генетическому расстройству. Варианты числа копий (CNV) и однонуклеотидные варианты (SNV) также могут быть обнаружены одновременно с секвенированием генома с помощью более новых доступных процедур секвенирования, называемых секвенированием следующего поколения (NGS). Это анализирует только небольшую часть генома, около 1-2%. Результаты этого секвенирования могут быть использованы для клинической диагностики генетического состояния, включая синдром Ашера , заболевания сетчатки, нарушения слуха, диабет, эпилепсию, болезнь Лея , наследственный рак, нервно-мышечные заболевания, первичные иммунодефициты, тяжелый комбинированный иммунодефицит (ТКИД) и заболевания митохондрий. NGS также может использоваться для выявления носителей заболеваний до зачатия. Заболевания, которые могут быть обнаружены в этой последовательности, включают болезнь Тея-Сакса , синдром Блума , болезнь Гоше , болезнь Канавана , семейную дисавтономию , кистозный фиброз, спинальную мышечную атрофию и синдром ломкой Х-хромосомы . Следующее секвенирование генома может быть сужено, чтобы специально искать болезни, более распространенные в определенных этнических группах.

Распространенность и ассоциированный ген/хромосома некоторых генетических нарушений человека
расстройство Распространенность Вовлеченная хромосома или ген
Хромосомные условия
синдром Дауна 1:600 Хромосома 21
синдром Клайнфельтера 1: 500–1000 мужчин Дополнительная Х-хромосома
Синдром Тернера 1:2000 самки Потеря Х-хромосомы
Серповидноклеточная анемия 1 из 50 рождений в некоторых частях Африки; реже в других местах β-глобин (на хромосоме 11)
Синдром Блума 1:48000 евреев-ашкенази БЛМ
Раки
Рак молочной железы / яичников (восприимчивость) ~ 5% случаев этих типов рака BRCA1, BRCA2
САП (наследственная неполипозная палочка) 1:3500 БТР
синдром Линча 5–10% всех случаев рака кишечника МЛХ1, МШ2, МШ6, ПМС2
анемия Фанкони 1:130000 рождений FANCC
Неврологические состояния
болезнь Гентингтона 1:20000 Хантингтин
Болезнь Альцгеймера - раннее начало 1:2500 PS1 , PS2 , приложение
Тай-Сакс 1:3600 рождений у евреев ашкенази Ген HEXA (на хромосоме 15)
Болезнь Канавана 2,5% восточноевропейских евреев Ген ASPA (на хромосоме 17)
Семейная дисавтономия 600 известных случаев по всему миру с момента обнаружения Ген IKBKAP (на хромосоме 9)
Синдром ломкой Х-хромосомы 1,4:10000 у мужчин, 0,9:10000 у женщин Ген FMR1 (на Х-хромосоме)
Муколипидоз IV типа От 1:90 до 1:100 у евреев-ашкенази MCOLN1
Другие условия
Муковисцидоз 1:2500 CFTR
Мышечная дистрофия Дюшенна 1:3500 мальчиков Дистрофин
Мышечная дистрофия Беккера 1,5-6:100000 самцов ДМД
Бета-талассемия 1:100000 ХББ
Врожденная гиперплазия надпочечников 1: 280 у коренных американцев и эскимосов-юпиков

1:15000 у американских европеоидов

CYP21A2
Болезнь накопления гликогена I типа 1:100000 рождений в Америке G6PC
Мочевая болезнь кленового сиропа 1:180000 в США

1: 176 в общинах меннонитов / амишей

1:250000 в Австрии

БКДХА, БКДХБ, ДБТ, ДЛД
Болезнь Ниманна-Пика, связанная с SMPD1 1200 случаев по всему миру СМПД1
синдром Ашера 1:23000 в США

1:28000 в Норвегии

1:12500 в Германии

CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A

Эволюция

Сравнительные геномные исследования геномов млекопитающих показывают, что примерно 5% генома человека сохранилось в результате эволюции с момента расхождения существующих линий примерно 200 миллионов лет назад, содержащих подавляющее большинство генов. Опубликованный геном шимпанзе отличается от генома человека на 1,23% при прямом сравнении последовательностей. Около 20% этой цифры приходится на вариации внутри каждого вида, оставляя только ~ 1,06% постоянного расхождения последовательностей между людьми и шимпанзе в общих генах. Однако эта разница нуклеотид за нуклеотидом затмевается той частью каждого генома, которая не является общей, включая около 6% функциональных генов, которые уникальны для человека или шимпанзе.

Другими словами, значительные наблюдаемые различия между людьми и шимпанзе могут быть в большей или большей степени связаны с вариациями на уровне генома в количестве, функциях и экспрессии генов, а не с изменениями последовательности ДНК в общих генах. Действительно, даже у людей было обнаружено ранее недооцененное количество вариаций числа копий (CNV), которые могут составлять до 5–15% человеческого генома. Другими словами, между людьми может быть +/- 500 000 000 пар оснований ДНК, некоторые из которых являются активными генами, другие инактивированы или активны на разных уровнях. Полное значение этого открытия еще предстоит увидеть. В среднем типичный ген, кодирующий белок человека, отличается от своего ортолога шимпанзе всего двумя аминокислотными заменами; почти треть генов человека имеют точно такую ​​же трансляцию белка, как и их ортологи шимпанзе. Основное различие между двумя геномами заключается в хромосоме 2 человека , которая эквивалентна продукту слияния хромосом 12 и 13 шимпанзе (позже переименованных в хромосомы 2A и 2B соответственно).

В ходе недавней эволюции люди претерпели экстраординарную потерю генов обонятельных рецепторов , что объясняет наше относительно грубое обоняние по сравнению с большинством других млекопитающих. Эволюционные данные свидетельствуют о том, что появление цветового зрения у людей и некоторых других видов приматов уменьшило потребность в обонянии.

В сентябре 2016 года ученые сообщили, что, основываясь на генетических исследованиях ДНК человека, всех неафриканцев в современном мире можно проследить до одной популяции , которая покинула Африку между 50 000 и 80 000 лет назад.

Митохондриальная ДНК

Митохондриальная ДНК человека представляет огромный интерес для генетиков, поскольку она, несомненно, играет роль в митохондриальных заболеваниях . Это также проливает свет на эволюцию человека; например, анализ изменчивости митохондриального генома человека привел к постулированию недавнего общего предка для всех людей по материнской линии (см. Митохондриальная Ева ).

Из-за отсутствия системы проверки ошибок копирования митохондриальная ДНК (мтДНК) имеет более высокую скорость изменения, чем ядерная ДНК. Эта в 20 раз более высокая частота мутаций позволяет использовать мтДНК для более точного отслеживания материнского происхождения. Исследования мтДНК в популяциях позволили проследить древние пути миграции, такие как миграция коренных американцев из Сибири или полинезийцев из Юго-Восточной Азии . Его также использовали, чтобы показать, что в европейской смеси генов, унаследованной по чисто материнской линии, нет следов ДНК неандертальца . Из-за ограничительного способа наследования мтДНК «все или ничего» этот результат (отсутствие следов мтДНК неандертальца) был бы вероятным, если бы не было большого процента неандертальского происхождения или не был сильный положительный отбор для этой мтДНК. Например, возвращаясь на 5 поколений назад, только 1 из 32 предков человека внес свой вклад в мтДНК этого человека, поэтому, если один из этих 32 был чистым неандертальцем, ожидаемое ~ 3% аутосомной ДНК этого человека было бы неандертальского происхождения, но они имели бы ~ 97% вероятность отсутствия следов мтДНК неандертальца.

Эпигеном

Эпигенетика описывает множество особенностей генома человека, которые выходят за рамки его первичной последовательности ДНК, такие как упаковка хроматина , модификации гистонов и метилирование ДНК , и которые важны для регуляции экспрессии генов, репликации генома и других клеточных процессов. Эпигенетические маркеры усиливают и ослабляют транскрипцию определенных генов, но не влияют на фактическую последовательность нуклеотидов ДНК. Метилирование ДНК является основной формой эпигенетического контроля над экспрессией генов и одной из наиболее изученных тем в эпигенетике. В ходе развития профиль метилирования ДНК человека претерпевает резкие изменения. В клетках ранней зародышевой линии геном имеет очень низкий уровень метилирования. Эти низкие уровни обычно описывают активные гены. По мере развития родительские метки импринтинга приводят к увеличению активности метилирования.

Эпигенетические паттерны могут быть идентифицированы между тканями внутри человека, а также между самими людьми. Идентичные гены, имеющие различия только в своем эпигенетическом состоянии, называются эпиаллелями . Эпиаллели можно разделить на три категории: непосредственно определяемые генотипом человека, находящиеся под влиянием генотипа и полностью независимые от генотипа. На эпигеном также существенно влияют факторы окружающей среды. Диета, токсины и гормоны влияют на эпигенетическое состояние. Исследования диетических манипуляций показали, что диеты с дефицитом метила связаны с гипометилированием эпигенома. Такие исследования устанавливают эпигенетику как важный интерфейс между окружающей средой и геномом.

Смотрите также

Рекомендации

Внешние ссылки