Содержание
Введение
Любой человек который только начинает разбираться в таких понятиях как гаплогруппы, изучение Y хромосомы итд., сталкивается с большим количество непонятных терминов и информации. Даже получив результаты свои, которые говорят о принадлежности к конкретной гаплогруппе, соотнести себя с другими и понять суть очень не просто.
Конечный результатом исследования Y хромосомы в генеалогических целях является размещение на мировом древе Y хромосомы. Для этого необходимо пройти самые глубокие и соответственно самые дорогие тесты. Только после этого можно получить датировку жизни общих предков с другими индивидами прошедшими тесты.
Таким образом можно выделить 2 уровня восприятия. 1 — результаты теста конкретного человека, определение гаплогруппы, снипов, кладов и субкладов. Сама по себе эта информация без привязки к другими людям ничего не значит. Тута включается второй уровень, глобальный. Умение анализировать древо Y хромосомы, понимать возраст возникновения веток, возраст жизни общих предков итд.
Существуют также более простые тесты, стоимость которых значительно ниже. Результатом таких (маркерных) тестов является предсказание вероятной ветки на мировом древе. Однако по таким тестам все будет на уровне прогнозов и оценок. Тут возникает один из главных вопросов любого «исследователя» истории своего рода. А что мне даст углубление теста? За что я плачу? Ответа простого нет. Для понимания сути необходимо вникнуть еще глубже в тему. К сожалению нет волшебной таблетки которая откроет «тайные знания». Информацию приходится собирать по крупицам. Надеемся представленная здесь информация хоть немного поможет упростить погружение в тему.
Что такое снип?
Снип — важнейшее понятие и без понимания того, что это такое, невозможно уловить суть всех наших публикаций.
Снип (или SNP) это мутация (полиморфизм).
ДНК — нуклеиновая кислота. Базовые кирпичики ДНК – азотистые основания. Сокращено они пишутся A, T, G, C. Условно назовем их буквами.
Итогом процесса секвенирования Y хромосомы является отрезок длиной более 50 млн. позиций. В каждой позиции расположена соответствующая буква. Изменение одной буквы на другую и есть мутация. Если говорить упрощенно, то такие мутации происходят (почти всегда) в одной конкретной позиции. Подобная мутация и есть снип. У каждого снипа есть свой адрес.
Референсный или эталонный геном
Референс это образец. Это как эталонный 1 кг. Ставим на весы и сравниваем.
Референсы бывают разных версий. Не все участки Y хромосомы удалось пока еще прочитать. Со временем темных зон все меньше. Именно поэтому и появляются новые версии референса.
К началу 22 г. самая распространенная версия референса HG38. Эта версия появилась 2019 г.
Сейчас уже начали появляться новые версии референсов.
Хорошие и плохие снипы
Хоть мы и представили Y хромосому как отрезок длиной в 50+ млн. позиций, на самом деле структура Y хромосомы намного сложнее. В ней есть области которые взаимодействуют с X хромосомой, есть участки стабильные и не стабильные. Для генеалогических изысканий используют только стабильные участки. Подробнее можно прочитать в работе на которой основаны расчеты Yfull — Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования.
«Хорошие» участки называют зоной combBED. Координаты этих областей можно посмотреть в таблице.
Общая длина «хорошей» зоны — которую использует Yfull 8 467 165 позиций. Если снип не попадает в эти особые участки, тогда он не используется в расчетах.
Что такое ВБОП (TMRCA)?
TMRCA 4200 ybp (years before present, т.е. лет до настоящего) показывает расчетное время жизни общего предка. Т.е. все кто к настоящему моменту относятся к терминальному снипу G-L1264 имели общего предка +- 4200 лет назад и у них у всех еще 6 общих снипов, которых нет у тех кто не подпадает под G-L1264 ветку.
Что такое приватный снип?
Приватным называют снип который есть только у одного образца. Количество приватных снипов напрямую влияет на расчет времени жизни общего предка. Статистически 1 новый снип образовывается 1 раз в 144,41 года.
Как Yfull рассчитывает возраста?
Пример расчтета для субклада G-Z31275
После нажатия на кнопку info открывается подробная информация
1. Возраст ветки.
2. Кол-во приватных снипов в области combBED.
3. Покрытие зоны combBED. Чем ближе к 8 467 165 тем лучше.
4. Кол-во приватных снипов корректируется с учетом покрытия.
5. Скорректированное кол-во SNPs (снипов).
6. Формула. Кол-во SNPs * 144,41 + 60.
7. Расчет для каждого отдельно.
8-9. Расчеты с учетом всех образов.
На самом деле не самые сложные расчеты. Главные переменные это количество SNPs в области combBED и покрытие.
Что такое терминальный снип?
Самый полезный инструмент для изучения снипов это гаплодрево. 2 самых популярных гаплодрева Yfull и FTDNA.
На скриншоте ниже гаплодрево Yfull
Цифрой 2 обозначен терминальный снип L1264. Приставка G- показывает к какой гаплогруппе он относится. Отличии терминального снипа состоит в том, что в него входит сразу несколько снипов. На нашем примере это Y12281/FGC21518 (это один и тот же снип который имеет два различных названия), S11286, L1264 итд. Всего 6 снипов. Т.е. терминальный снип L1264 включает 6 снипов.
Почему так получилось? Это не очень тривиальный вопрос, очень многими тяжело воспринимается.
В идеале все терминальные снипы должны состоять из всего одного снипа. Вот свежий пример. До последнего (февраль 2022 г.) обновления древа Yfull у G-L1264 было 3 дочерних субклада:
G-BY109806
G-FGC21495
G-Z44222
G-BY109806 состоял из собственно BY109806, FT33, Y141846 и Y142023
После размещения на древо одного из новых образцов структура изменилась. У этого нового образца оказался положительный снип Y142023 а остальные (BY109806, FT33, Y141846) отрицательные. Это привело к тому, что над BY109806 появилась ветка Y142023
На древе Yfull есть один уникальный терминальный снип, чемпион по количеству определяющих снипов.
В чем отличие Y-STR маркеров от SNPs?
У маркеров есть несколько плюсов в сравнении со снипами.
1 — цена. Стоимость маркерного анализа дешевле. Золотой стандарт Y37 стоит от 85$. Меньше смысла покупать нет, больше тоже не особо нужно, дальше важнее уже снипы.
2 — база протестированных. База STR маркеров значительно больше, чем количество людей у протестированных полносниповыми тестами.
Маркеры это участки Y хромосомы по строго определенным адресам. Эти адреса у всех мужчин одни и те же. Длина всех 37 участков мизерная, в сравнении с размерами Y хромосомы, поэтому и дешевле получается.
Главный минус маркеров в том, что они меняются в любую сторону. Есть участки более подвижные, есть менее, но шанс на скачок есть всегда. Изменения могут быть как в плюс так и минус. Это приводит к тому, что порой очень далекие друг от друга люди при маркерном анализе кажутся близкими.
Результаты маркерного теста используются для прогноза снипов. Для этого используются разные инструменты. Один из основных калькулятор Nevgen. В калькулятор вставляются все маркеры и система выдает прогноз. Маркеры это всегда прогноз, без подтверждения снипа никогда нельзя быть уверенным в результатах маркерного теста.
В отличии от маркеров снипы никогда не меняются. Они есть у всех потомков мужчины у которого происходят мутации. Не бывают исчезновений их (в теории возможно, но почти никогда не встречается). Минус в том, что снипы расположены в совершенно разных местах и просто так гадать смысла нет. Выход только полное секвенирование Y хромосомы или даже всего генома. Стоимость таких тестов уже значительно больше чем 85$ — от 290$. Но по результатам таких тестов будут и макреры и снипы.
Для подсчета возраста критически важно вычислить количество приватных снипов, а этом возможно только при полном секвенировании Y хромосомы.
Однако существенный плюс маркерных тестов это количество протестированных. На примере ниже анализ маркерных совпадений Y37 теста. Все они попадают в G-Z31275.
2 комментария к “«Хорошие» и «плохие» снипы, маркеры, что такое combBED и как со всем этим справиться”