Популяционно-статистический метод изучения генетики: сущность и значение | Nastroy.net

16.07.2018 12:00

В последние годы было выдвинуто очень большое разнообразие статистических методологий на различных уровнях сложности для анализа данных генотипа и выявления генетических вариаций, которые могут отвечать за повышение восприимчивости к болезням. Что такое популяционно-статистический метод изучения генетики? Какова его сущность и значение в изучении наследственности?

Тип вычислительной биологии

Статистическая генетика является научной областью, связанной с разработкой популяционно-статистических методов для выводов из генетических данных. Этот термин наиболее часто используется в контексте генетики человека. Исследования в данной области обычно включают разработку теории или методологии для поддержки исследований в одной из трех взаимосвязанных областей:

  • популяционная генетика - изучение эволюционных процессов, влияющих на генетическую изменчивость между организмами.
  • генетическая эпидемиология - изучение влияния генов на болезни.
  • количественная генетика - изучение влияния генов на «нормальные» фенотипы.

Статистические генетики склонны тесно сотрудничать с генетиками, молекулярными биологами, клиницистами и биоинформатиками. Статистическая генетика - это тип вычислительной биологии.

Предмет изучения

Популяционная генетика занимается изучением генетической структуры популяций, их генофонда. Также она освещает вопросы, связанные со взаимодействием факторов, которые обусловливают как постоянство, так и изменение структуры генома. Что такое популяция? Это совокупность особей одного вида, которые свободно скрещиваются и занимают конкретную территориальную область, а также имеют общий генофонд (совокупность генов), переходящий из поколения в поколение.

Популяционно-статистический метод генетики применяется при изучении наследственных болезней, чередования нормальных и патологических генов, генотипов и фенотипов в популяциях различных местностей, стран и городов. В чем его уникальность? Сущность популяционно-статистического метода заключается в том, что он направлен на изучение закономерностей распространения наследственных болезней в популяциях, отличающихся по своему строению. Исследуется возможность прогнозирования их повторения в дальнейших поколениях.

Популяционно-статистический метод и его значение

Статистический генетический анализ количественных признаков в больших родословных является огромной вычислительной задачей из-за необходимости учета независимости среди родственников. С растущим осознанием того, что варианты редких последовательностей могут быть важны в количественных вариациях человека, исследования наследуемости и ассоциации с участием крупных родословных будут увеличиваться по частоте из-за большей вероятности наблюдения нескольких копий редких вариантов среди связанных лиц.

Поэтому важно иметь статистические процедуры генетических испытаний, которые используют всю имеющуюся информацию для извлечения доказательств относительно генетической ассоциации. Оптимальное тестирование ассоциации фенотипов связано с точным вычислением статистики отношения истины, которая требует повторной инверсии потенциально больших матриц. В контексте объединения всей последовательности генома такое вычисление может быть неправильным.

Статистические методы генетического анализа

В связи с продвижением в лабораторных технологиях популяционно-статистический метод и генетические эпидемиологические подходы к комплексным заболеваниям быстро меняются, чтобы справиться с огромностью генетических данных. По мере изменения лабораторных технологий появилась возможность генерировать более полные генетические данные геномной генерации с целыми данными последовательности генома.

Возникли проблемы с множественным тестированием и появление редких генетических вариантов, которые были ограничены традиционными статистическими методами, что привело к разработке методов редкого варианта анализа. Текущие исследования сосредоточены не только на анализе отдельных генетических вариантов, но также и на анализе нескольких генетических вариантов, особенно с использованием сетевых методов.

Быстрое развитие генетики

Исследования в области генетики быстро развивались, начиная от исследований отдельных областей и заканчивая широкомасштабными исследованиями генома. И хотя изучение генетических ассоциаций проводятся уже много лет, даже для самых простых анализов существует мало консенсуса относительно наиболее подходящих статистических процедур.

Статистическая генетика - это область сближения генетики и количественного анализа. За последние несколько лет она пережила резкий сдвиг парадигмы, от преимущественно теоретического субъекта, в котором мало возможностей для эмпирических данных до строго ориентированной на определенные дисциплины, где существование больших хранилищ генетических данных позволяет исследователям генерировать и исследовать новые научные гипотезы.

Рентабельные технологии

С появлением относительно рентабельной технологии с высокой пропускной способностью генотипирования теперь можно исследовать этиологию сложных заболеваний, биологических процессов через которые наследуется ДНК и эволюционные истории человеческих популяций. С медицинской точки зрения, прогресс использования популяционно-статистического метода в изучении роли наследственности находится в разработке и анализе исследований фармакогенетики, то есть исследований, в которых генетическая изменчивость коррелирует с реакцией на лекарственные средства.

Это может в конечном счете привести к разработке подхода «персонализированной медицины» в здравоохранении. Разумеется, для каждой из этих областей исследования требуются специализированные методы вывода и вычислений. Данный обзор популяционно-статистических методов в генетике ограничивается картированием ассоциаций: мощная методология, которая, как считается, поможет понять генетическую основу заболеваний человека и других представляющих интерес фенотипов.

Вместо того чтобы пытаться широко освещать методы сопоставления ассоциаций, экспозиция сужается, чтобы включать в себя только подходы к анализу данных для исследований в случае болезни или для ситуаций, когда доступны только больные люди. Цель данной статьи - пригласить читателя в нетехнический тур по ряду выбранных популяционно-статистических методов генетики, используемых в настоящее время для картирования генов.

Закон Харди-Вайнберга

Основным примером популяционно-статистического метода является закон Харди-Вайнберга. В его основе есть закономерность, которая была обнаружена в 1908 году математиком из Англии Дж. Харди и врачом В. Вайнбергом из Германии для выведения совершенной популяции. Закон вследствие получил название в честь этих двух имен. Для того чтобы популяция была идеальной, необходимы следующие условия:

  1. Организмы должны свободно скрещиваться.
  2. Отсутствует отбор и мутационные явления.
  3. Ограничены миграционные процессы, как внешние, так и внутренние.
  4. Доминантные гомозиготы, гетерозиготы и рецессивные гомозиготы передаются по наследству в неизменном виде.

Совершенное равновесие может быть нарушено рядом факторов, среди которых близкородственные браки, мутации, отбор, миграции и многое другое. Закон Харди-Вайнберга считается основой при рассмотрении генетических преобразований, происходящих в естественных и искусственно созданных популяциях растений, животных и человека.

Принципы ассоциации

Отличительной особенностью конструкции case-control является то, что испытуемые, включенные в выборку, случайным образом выбираются из данной популяции по статусу болезни ретроспективно. Генетические составы лиц, принадлежащих к двум группам, случаям и контролю, сравниваются в надежде, что их различия в некоторых узких областях генома могут служить причинным объяснением статуса болезни. Среди различных типов генетических маркеров однонуклеотидные полиморфизмы (ОНП) играют центральную роль в картировании сложных заболеваний. По всему человеческому геному существует не менее 10 миллионов ОНП с частотой > 1%, которые, как полагают, составляют около 90% генетической вариации человека.

Основополагающим понятием в картографии ассоциации является неравновесность сцепления между генетическим маркером и локусом, который влияет на изучаемый признак. Она фиксирует отклонение от вероятностной независимости среди аллелей или генетических маркеров. Например, неравновесность сцепления между двумя аллелями, например A и B, можно количественно определить путем измерения разницы между pAB, вероятностью наблюдения гаплотипа AB (т. е. линейного расположения двух аллелей на одной и той же хромосоме, унаследованной как единое целое) и произведением pApB, где pA и pB- вероятности наблюдения аллелей A и B соответственно. Однако в большинстве случаев гаплотипы не доступны напрямую, и их частоты должны быть с полной вероятностью определены из данных генотипа.

Выводные методы, основанные на вариантах алгоритма минимизации ожиданий, итерационная техника для получения оценок максимального правдоподобия в моделях отсутствующих данных, являются популярным выбором для получения выборочных частот гаплотипов. Задокументирована точность алгоритма минимизации ожиданий для оценки частот гаплотипов при различных схемах моделирования как функции частот аллелей, так и многих других факторов. Недавние разработки используют наблюдение, в котором в коротких регионах гаплотипы в популяции склонны группироваться в группы, и эта кластеризация имеет тенденцию варьироваться вдоль хромосомы.

Результирующие закономерности генетической вариации могут быть хорошо описаны скрытыми марковскими моделями, а оценки параметров были выполнены с помощью алгоритма, чтобы вывести гаплотипическую фазу, а также отсутствующие данные генотипа. Альтернативно мера композитного генотипического неравновесия может быть вычислена непосредственно из двухлокусных генотипических данных, в предположении случайного спаривания, он соответствует вышеупомянутой аллелической меридиане. Ряд других общих коэффициентов и их свойств изучались как аналитически, так и посредством моделирования.

Близнецовый метод в изучении генома

Области применения популяционно-статистического и близнецового метода включают в себя изучение закономерностей наследования признаков в парах близнецов. Предложенный еще в 1875 году ученым Гальтоном, этот метод изначально применялся для оценки роли наследственности и среды в развитии психических свойств человека. Сейчас он широко применяется в изучении наследственности и изменчивости нормальных и патологических признаков. С его помощью можно выявить наследственный характер определенного признака, определить пенетрантность аллеля и дать оценку влияющих на организм внешних факторов.

Суть близнецового метода:

  • В разных группах близнецов сравнивается один и тот же признак, учитывается также сходство или различие их генотипов.
  • У монозиготных близнецов наблюдается полная генетическая идентичность. Их сравнение в условиях отличающегося постэмбрионального развития дает возможность обнаружить признаки, которые были сформированы благодаря внешней среде.

Изучение генома в популяционно-статистическом методе исследования генетики человека позволяет более всесторонний поиск генетических факторов риска. В ближайшее время эти исследования будут менее дорогими и, следовательно, более доступными. Со статистической и вычислительной точки зрения исследования генома в целом предлагают нетривиальные проблемы, связанные, среди прочего, с очень большим количеством маркеров, которые должны быть включены в анализ, по сравнению с обычно меньшими размерами выборки.

Развитие новых аналитических методов

Вопрос, вызывающий много дискуссий и заправляющий развитие новых аналитических методов, заключается в том, вызваны сложные заболевания одним общим вариантом или многими вариантами, имеющими небольшие эффекты. В распространенной гипотезе об общем заболевании указывается, что генетический риск распространенных заболеваний часто будет вызван аллелями, вызывающими заболевание, обнаруженными на относительно высоких частотах. До сих пор доказательства в его пользу были ограничены.

Допустимо предположить, что общие заболевания, как ожидается, будут контролироваться более сложными генетическими механизмами, характеризующимися совместным действием нескольких генов, причем каждый ген имеет лишь небольшой краевой эффект, возможно, потому, что естественный отбор удаляет гены, имеющие более крупные эффекты. В этом случае группы маркеров следует тестировать совместно для объединения, что может быть сделано двумя основными способами: группируя маркеры вместе в генотипах с несколькими локусами, чтобы основная единица статистического анализа все еще была индивидуальной или через гаплотипы, таким образом эффективно удваивая размер выборки.

Общие методы для гаплотипов

Вместо того чтобы рассматривать каждый маркер отдельно, можно совместно тестировать конкретные комбинации аллельных вариантов в серии плотно связанных маркеров на одной и той же хромосоме, то есть гаплотипы. Включая информацию из нескольких соседних маркеров, гаплотипы сохраняют общую структуру и более непосредственно отражают истинные полиморфизмы.

Самый простой способ проверить, существует ли связь между гаплотипом и статусом болезни, - это рассматривать каждый гаплотип как отдельную категорию, возможно, объединяя все редкие гаплотипы вместе в дополнительный класс. Этот процесс обычно выполняется в два этапа: во-первых, оцениваются частоты гаплотипов, затем рассчитывается стандартный тест для ассоциации, например статистическая статистика отношения правдоподобия. Чтобы справиться с раздутой статистикой теста из-за оценки гаплотипа, распределение теста под нулем может быть получено случайным перетасовкой состояния болезни, а затем повторной оценкой частот гаплотипов.

Хотя этот подход позволяет оценить общую связь между гаплотипами и болезнью, он не дает вывода о влиянии конкретных гаплотипов или особенностей гаплотипа. Для решения этих проблем ряд тестов конкретных эффектов гаплотипа основаны на предполагаемой вероятности заболевания, где статус болезни рассматривается как результат, а гаплотипы вводят модель регрессии как ковариаты. Субъекты с двусмысленными гаплотипами размещаются путем вычисления ожидаемого значения ковариатов, обусловленного генотипами субъекта, с использованием предполагаемых частот гаплотипов.

Популяционно-статистический метод изучения генетики человека

В популяциях человека, образованных относительно недавним смешиванием отдельных групп предков, таких как афро-американцы, пропускная способность распространяется на большие расстояния, чем в других, менее гетерогенных популяциях. Для заболеваний, которые различаются по распространенности между двумя или более популяциями предков, эта дальняя пропускная способность может быть использована для поиска генетических вариантов, ответственных за этническую разницу в риске заболевания.

Основное замечание состоит в том, что в смешанных популяциях маркеры с локусом, ответственным за этническое различие в риске заболевания, будут иметь большую, чем ожидалось, долю предков от населения высокого риска. Картирование генов может быть выполнено путем поиска узких геномных областей, которые показывают чрезмерные пропорции родословных от одной из составляющих популяций предков в методологии, называемой картированием примеси.

Членство населения в каждом локусе для всех испытуемых должно быть статистически оценено по типичным маркерам. Общепринятая вероятностная модель для описания стохастической вариации в родословной предполагает, что хромосомы могут быть представлены блоками общей генерации, с точками прерывания между соседними блоками, происходящими как пуассоновский процесс, и переходами между смежными предковыми блоками, управляемыми цепью Маркова. По этой модели было построено несколько методов вывода, чтобы оценить происхождение больных хромосом и обнаружить представленные популяции предков.

Моделирующие исследования и аналитические расчеты показывают, что сопоставление примесей имеет несколько преимуществ по сравнению с установленными подходами к картированию на основе популяции, например, для поиска всего генома требуется гораздо меньше маркеров и оно менее подвержено влиянию аллельной гетерогенности.

Источник