Искусственный интеллект научили искать опасные генетические мутации. Как это работает?
Исследователи из Гарвардской медицинской школы и Оксфордского университета разработали инструмент искусственного интеллекта под названием EVE (Evolutionary model of Variant Effect), который использует сложный тип машинного обучения для обнаружения генетической изменчивости у сотен тысяч видов организмов. Это позволяет делать прогнозы, как вариации генов влияют на здоровье человека. «Лента.ру» подробно рассказывает об исследовании, опубликованном в журнале Nature.
Ген плохой и ген хороший
Полная расшифровка генома человека в 2003 году стала историческим событием в науке и позволила установить эталонный геном человека. Тем не менее этот геном не является стандартом или примером «нормального» генома человека. Быстро растущий объем данных о секвенированной ДНК (то есть ДНК с полностью установленным молекулярным строением) меняет эталонный геном по мере того, как биологи больше узнают о генетической изменчивости. У множества генов есть многочисленные вариации, вызванные мутациями.
Однако до сих пор трудно выявить связь между конкретными изменениями в геноме и какими-либо болезнями, поскольку количество вариантов в человеческой популяции превышает количество, которое ученые могут исследовать. На сегодняшний день были обнаружены 6,5 миллиона вариантов генов, которые кодируют белки, отличающихся друг от друга минимум одной аминокислотой (такие мутации называются точечными или миссенс-мутациями). Эти замены могут не влиять на функции белка, а могут серьезно нарушить его активность. До сих пор неизвестны последствия 98 процентов таких миссенс-мутаций, даже если они затрагивают гены, которые, как уже известно, связаны с той или иной болезнью.
Например, существует ряд генов, у которых исследователи идентифицировали мутации, несущие высокий риск заболевания: варианты генов BRCA1 и BRCA2 провоцируют рак груди и яичников, а изменения в гене-супрессоре опухоли p53 могут вызвать различные типы злокачественных опухолей. Но даже в этих генах могут возникать другие неизученные мутации, значение которых остается неясным. Нельзя каждую мутацию в ДНК считать вызывающей болезнь, поскольку это может привести к ошибочному диагнозу. Человек, несущий в себе доброкачественную мутацию, из-за этого вынужден проходить многочисленные анализы, ненужные медицинские вмешательства, испытывать тревогу и стресс. И наоборот, неверная интерпретация мутации в ДНК человека как несущественной или доброкачественной может дать ложное успокоение, когда могут потребоваться внимательное наблюдение, дальнейшее тестирование и профилактические меры.
Неконтролируемое обучение
Для решения этой проблемы ученые разработали EVE — новый метод классификации вариантов генов человека на основе эволюционных взаимоотношений между ДНК. Для этого искусственный интеллект определяет, насколько часто вариации встречаются у других видов живых организмов. Сначала для каждой вариации (аминокислотной замены) вычисляется так называемый эволюционный индекс, то есть относительная частота встречаемости мутировавшего варианта генов по отношению к его дикому типу, то есть нормальному варианту. Затем эволюционный индекс сопоставляется с клиническими исходами, то есть по частоте встречаемости варианта в природе можно определить, является ли он доброкачественным или патогенным.
6,5 миллиона столько известно на настоящий момент вариантов генов, которые кодируют белки, отличающихся друг от друга минимум одной аминокислотой.
В основе EVE лежат неконтролируемые алгоритмы обучения. Это тип искусственного интеллекта, при создании которого используются неклассифицируемые данные, и алгоритм самостоятельно учится сортировать их и распознавать закономерности. Напротив, при контролируемом обучении данные уже содержат метки, которые указывают на правильную закономерность. В этом случае ИИ дают выборку из изображений кошек и собак, при этом сообщается, где какой вид животного, и алгоритм учится распознавать их на незнакомых ему изображениях. При неконтролируемом обучении ИИ должен сам научиться распознавать животное.
а) Модель предсказывает патогенность (красный цвет) или доброкачественность (синий цвет) различных генетических вариантов. Серый цвет означает неопределенность клинического исхода. Примерно 25 процентов всех вариантов EVE определяет как неопределенные. b) Модель определяет уровень патогенности каждой замены аминокислоты в различных вариантах гена SCN1B. Позиции аминокислот в белке отображены по горизонтали, последствия замен — по вертикали. Буквы слева обозначают, на какую аминокислоту производится замена.
Большинство современных вычислительных методов, используемых для оценки значимости вариантов генов, используют контролируемое обучение. Недостатком этого подхода является то, что ИИ может переобучиться. В этом случае он хорошо работает только с тем набором данных, что применялся для обучения, но при этом ошибается в дополнительных наборах данных и не может делать предсказания. По задумке, EVE должен работать с информацией о генах, охватывающих огромное число видов живых организмов, именно поэтому неконтролируемое обучение здесь предпочтительнее.
Очень высокая точность
Эволюция обычно сохраняет особенности, которые имеют решающее значение или, по крайней мере, важны для выживания разных видов. Расположение аминокислот, повторяющееся у разных видов, является биологически важным маркером, указывающим на то, что эти последовательности необходимы для жизненно важных функций организма. Замены аминокислот из-за мутаций в этом случае связаны с патогенностью. Хотя сами виды организмов могут быть эволюционно далеки друг от друга, в совокупности они предоставляют очень ценный объем данных.
EVE проанализировал генетические последовательности 140 тысяч видов, включая исчезающие и вымершие организмы. Нейронная сеть оценила вероятность, что каждая миссенс-мутация среди 250 миллионов белковых последовательностей является доброкачественной или патогенной. Чтобы проверить модель, ученые обратились к данным о соответствующих человеческих мутациях, клиническое значение которых уже известно. Оказалось, что EVE делала довольно точные прогнозы
EVE испытали на выборке из 3219 человеческих генов, которые, как уже было известно, связаны с определенными заболеваниями, и модель успешно определила клиническую значимость каждого интересующего варианта. Результаты показывают, что 256 тысяч ранее идентифицированных вариантов генов человека, значение которых было до сих пор неизвестным, следует классифицировать как доброкачественные или вызывающие заболевания.
Однако при этом EVE не может полностью исключить человека-исследователя. Точность модели очень сильно зависит от выборки генетических вариантов. Модель сообщает ученому, насколько он может ей доверять. Исследователь должен решать, должен ли он исключить из рассмотрения варианты с наиболее неопределенными исходами, чтобы повысить точность предсказания для всех остальных, выявляя патогенные или доброкачественные варианты с 90-процентной вероятностью.
***
Разработчики заявили, что их новый тип моделирования все еще находится в зачаточном состоянии. В будущем они планируют научить искусственный интеллект работать с областями генома, которые не кодируют белок, а играют роль регуляторов активности различных генов. По подсчетам, доля этой ДНК, также известной как мусорной, может составлять до 95 процентов всего человеческого генома.
Команда также участвует в глобальном проекте Atlas of Variant Effects Alliance, цель которого — составить карту эффектов вариаций в геноме и создать исчерпывающий атлас всех возможных вариантов генов человека и их влияния на функцию и физиологию белков. Это позволит улучшить диагностику, прогноз и лечение заболеваний человека.
Александр Еникеев
По материалам: “Лента.Ру”