TechFusion.ruМедицинаИнтернет ДНК: миллиарды нуклеотидов в облаке

Интернет ДНК: миллиарды нуклеотидов в облаке

Ученые научились полностью секвенировать геном человека, а это — миллиарды пар нуклеотидов. Где хранить всю эту информацию, а главное — как и для чего ее использовать? Для решения этих вопросов врачам и ученым со всего мира требуется единое облачное пространство — «Интернет ДНК»


Каждый человек несет в себе уникальную генетическую информацию, «зашитую» в молекулах ДНК. Наша ДНК состоит примерно из 3 млрд пар нуклеотидов. Нуклеотиды различаются между собой по тому азотистому основанию, на котором они построены: аденин (A), тимин (T), гуанин (G), цитозин (C). Пример записи произвольного участка ДНК выглядит следующим образом:

C T A A C C A T A G T T 

И так — еще около миллиарда раз.

Результаты полного секвенирования генома одного человека занимают порядка 200-500 гигабайт. Если представить, что всем людям в мире секвенируют геном, эти огромные данные будет просто негде хранить. Да и нужно ли это? Зачем нам вообще знать геном всего человечества?

Мировой геном

Каждый из нас несет в себе неповторимую комбинацию из 3 млрд пар нуклеотидов, но насколько мы на самом деле уникальны? Примерно на 0,1%. ДНК всех людей схожа приблизительно на 99,9%, а различие между двумя отдельно взятыми индивидами составит «всего» 4-5 млн пар нуклеотидов.

Насколько эта разница критична? В том, что делает каждого из нас уникальной личностью, безусловно, 4-5 млн пар нуклеотидов играют свою роль. А вот в изучении тяжелых наследственных заболеваний и онкологии, обусловленной генетическими факторами — не всегда. В этом отношении мы слишком похожи, и необходимо сравнить геномы очень большого количества людей, чтобы выявить корреляции между генами и определенными болезнями.

Сотрудники Международного Альянса по Геномике и Здравоохранению (Global Alliance for Genomics and Health, GA4GH) с 2013 года занимаются созданием инфраструктуры для работы с геномными данными. Они привлекают в Альянс организации, которые могут делиться накопленной информацией и связывают разрозненные базы со всему миру в единую систему. Цель GA4GH — создать большую облачную базу геномов, которую называют «Интернет ДНК».

Среди задач Альянса — выработка общих протоколов работы с геномной информацией. На основании тех баз данных, которые ученые уже собрали, проводятся исследовательские проекты, позволяющие найти связь между генами и опасными заболеваниями. Одно из наиболее популярных направлений в геномике — изучение зависимости онкологических заболеваний от генетических факторов с использованием данных пациентов со всего мира. Этим в GA4GH занимается группа BRCA Challenge.

Патогенные мутации в генах BRCA1 и BRCA2 значительно увеличивают риск женщины заболеть раком груди и яичников. При «поломке» в гене BRCA1 вероятность рака груди достигает 55-65%, BRCA2 — 45%. Также подобные мутации могут приводить к раку яичников: BRCA1 в 39% случаев, BRCA2 — от 11 до 17%. Не всегда безопасны они и для мужчин: по некоторым исследованиям, мутации BRCA1/2 влияют на риск рака простаты. Для людей обоих полов такие мутации могут увеличивать риск колоректального рака и рака поджелудочной железы.

В целом, «поломки» в генах BRCA1 и BRCA2 встречаются примерно у 1 из 400-800 человек. Гораздо чаще мутацию находят у евреев ашкенази — в 1 случае из 50. Все ли эти мутации приводят к раку? Как оказалось, нет.

Исследователи проекта BRCA Challenge проанализировали геном многих тысяч человек и обнаружили почти 12 тысяч вариантов BRCA1/2. Причем только часть мутаций определили как патогенные, а другие варианты оказались безопасными.

В мире живут миллионы людей с различными «поломками» BRCA1 и BRCA2. Доступ к базе вариантов проекта BRCA Challenge — возможность для генетических лабораторий из разных стран поставить им правильный диагноз. Без этого существует вероятность совершить одну из двух типичных ошибок: пропустить патогенную мутацию или, наоборот, вынести приговор при наличии безвредной мутации гена.

Создатели проекта BRCA Challenge идентифицировали 3,5 тысячи вариантов BRCA1 и BRCA2 — любая лаборатория в мире может обратиться к их базе данных и проверить, является ли мутация их пациента патогенной или нет. Правда, в базе все еще много вариантов BRCA1/2 с неопределенной патогенностью.

Исследователи надеются, что люди будут чаще проходить генетические тесты, делиться своими данными и медицинской историей — это поможет постоянно улучшать базу BRCA Challenge. Тем более, секвенирование участка ДНК, кодирующего гены BRCA1 и BRCA2, сейчас стоит совсем недорого: в США цена за последние годы упала с 3 тысяч долларов до 250 долларов, в России стоимость подобных тестов начинает от нескольких тысяч рублей.

Трудности роста

Но гены BRCA1 и BRCA2 — лишь 2 гена из более чем 20 тысяч. Сколько же нужно данных, чтобы определить патогенные мутации в каждом из них?

Напрашивается вывод, что чем больше генетических данных о человечестве будет собрано, тем лучше будет всем — врачам, ученым, пациентам. На самом деле, все несколько сложнее. Помимо объективной проблемы хранения данных возникает еще ряд сложностей.

  • Стоимость vs ценность

Сейчас секвенирование генома одного человека стоит около тысячи долларов. Это совсем недорого, если учитывать, что расшифровка первого генома человека обошлась в миллионы. И все же дорого, если понимать, что выгода секвенирования для обычного человека не очевидна. Максимум, что получит сегодня среднестатистический человек после расшифровки его генома — информацию о своем происхождении и некоторые вероятностные данные о склонностях к болезням. Стоит ли это таких ощутимых денег?

«Мы планируем проект секвенирования генома тысячи человек, перенесших инсульт. Это будет исследование с конкретной целью, изучающее генетические факторы определенного заболевания. Я считаю, что просто так нет смысла секвенировать весь геном всего населения России, — рассказал генеральный директор и сооснователь компании Genotek Валерий Ильинский. — Кроме того, что это долго и дорого, что потом делать со всеми этими данными?».

Дэвид Хаусcлер, эксперт по биоинформатике Калифорнийского университета в Санта-Круз, один из основателей Международного Альянса по Геномике и Здравоохранению, считает, что в пределах 5-10 лет полное секвенирование генома будет стоить уже около 100 долларов. В таком случае оно станет доступным большей части населения развитых стран, но и тогда придется предложить врачам и другим людям серьезные аргументы в пользу секвенирования.

  • Юридические проблемы

В каждой стране в разных компаниях, занимающихся генетическим тестированием, в государственных учреждениях и частных клиниках есть разрозненные данные расшифрованных ДНК. Но их объединение и обмен затрудняются юридическими проволочками. Распространение медицинской информации за пределами страны часто ограничено законом. Более того, есть строгие правила о хранении персональных данных — без разрешения пациентов нельзя ни с кем делиться их медицинской информацией, даже анонимно.

«Я бы предложил совместить хранение генетической информации и медицинских данных в формате блокчейна. Это даст и контроль сохранности данных, и контроль уровня доступа. Технология блокчейна достаточно гибкая, она позволит каждому человеку самостоятельно определять, кто может использовать его данные: разрешить полный доступ, открыть данные определенному врачу либо сделать данные закрытыми», — отметил генеральный директор биомедицинского холдинга «Атлас» Сергей Мусиенко.

  • Технологические сложности

На сегодняшний день существуют три основных проблемы работы с данными: плохая доступность данных, их растущий объем, а также несовершенства программ для работы с ними.

«Проблема размера геномных данных очень существенна: это рост данных и скорости их изменения. При этом добавляются новые технологии секвенирования, а перемещение данных для их объединения и анализа в одном центре из различных источников часто требует неприемлемого времени. Это может проходить несколько месяцев», — рассказал ведущий разработчик в области биоинформатики R&D Центра Dell EMC в Сколково Андрей Запарий.

Новая медицина серьезно зависит от прогресса именно в области информационных технологий. Она базируется на технологиях обработки, хранения, анализа и инженерии молекулярных данных, объединенных с «традиционной» медицинской информацией — описанием проявлений болезни, результатами анализов и т.п.

Дэвид Хаусcлер и его коллеги из GA4GH создают платформу с открытым API для сбора и анализа генетической информации со всего мира. Также они хранят исходный код на Github — разработчики могут присоединиться к команде GA4GH или просто изучить инструкции по настройке API.

Команды Dell EMC, Massachusetts General Hospital (MGH) и Partners Healthcare разрабатывают платформу для углубленной аналитики данных, предназначенную для врачей и исследователей. Она позволяет быстро найти необходимые данные и получить развернутый ответ с учетом всех возможных связей и контекста. Это может помочь в принятии решения по диагнозу и дальнейшему лечению.

Платформа объединит различные типы данных: геномные варианты, описания, сделанные врачами, электронные медицинские карты, медицинские справочники и классификаторы (онтологии), базы ассоциаций между геномными параметрами и прочие. Сейчас готов первый прототип: 400 ГБ данных (2,5 тысячи образцов генома, 2 млн уникальных вариантов), поиск по базе занимает десятки секунд. Разработчики ищут способы ускорить поиск, сделать его максимально удобным для врачей, более компактно и надежно хранить данные. Ядро технологии — движок iResearch — можно найти на Github.

  • Качество данных и интерпретация

В конечном итоге важно, какие выводы можно сделать из генетических данных, какие практические рекомендации дать врачам и пациентам.

Для этого, в первую очередь, необходимо обеспечить качество исходных данных. В открытой базе генетической информации ClinVar, например, многие нормальные последовательности нуклеотидов определяют как мутации. Все потому, что доступ в базу открыт всем подряд, и новую информацию о мутациях могут добавить те, кто не проверил ее на достаточно большой выборке.

«По данным ClinVar, лично у меня должно быть 10 патогенных мутаций и страшных наследственных заболеваний. Поэтому мы не пользуемся такими открытыми базами данных. Мы купили платную базу — доступ к ней обошелся в 60 тысяч евро на год. Качество ее тоже не идеальное, но намного лучше, чем у ClinVar», — рассказал Валерий Ильинский.

FDA, американский надзорный орган, отвечающий за качество лекарственных препаратов, недавно предложил ввести сертификацию и стандарты для баз данных с генетической информацией. И это вполне справедливо, ведь на основании таких баз врачи выписывают лекарства, в том числе подбирают дорогую терапию при онкологических заболеваниях.

А что в России?

Теоретически и в нашей стране врачи могут назначать индивидуальные таргетные препараты от рака на основе генетического анализа. В реальности количество таких препаратов можно пересчитать по пальцам. Нет никакого смысла подбирать лекарство с помощью сложного генетического анализа, если выбора в итоге нет. Нужно, чтобы в стране зарегистрировали порядка 100-150 таргетных препаратов от рака, чтобы генотипирование в онкологии имело смысл.

И про деньги

За развитие технологий, баз данных, систем обмена геномной информации кто-то должен заплатить. И цена — определенно — будет высокой. В некоторых странах этот процесс может частично спонсировать государство, система страховой медицины. «Но в первую очередь, за все это платят фармкомпании. Если они будут достаточно заинтересованы в развитии технологий работы с генетическими данными, если увидят в этом свою выгоду, тогда дело пойдет в гору», — резюмировал Сергей Мусиенко.