bts merchandisebts shopbts sweatshirtbts clothesarmy bombbts official army bombbangtan bombbts army bomb ver 4bts army bomb ver 3bts army bombbts light stickbts official light stickbts light stick ver 4bts light stick ver 3bts dollsbt21 plushiesbts hoodiebts jacketbt21 hoodiebts shirt
TechFusion.ruМедицинаИнтернет ДНК: миллиарды нуклеотидов в облаке

Интернет ДНК: миллиарды нуклеотидов в облаке

Ученые научились полностью секвенировать геном человека, а это — миллиарды пар нуклеотидов. Где хранить всю эту информацию, а главное — как и для чего ее использовать? Для решения этих вопросов врачам и ученым со всего мира требуется единое облачное пространство — «Интернет ДНК»


Каждый человек несет в себе уникальную генетическую информацию, «зашитую» в молекулах ДНК. Наша ДНК состоит примерно из 3 млрд пар нуклеотидов. Нуклеотиды различаются между собой по тому азотистому основанию, на котором они построены: аденин (A), тимин (T), гуанин (G), цитозин (C). Пример записи произвольного участка ДНК выглядит следующим образом:

C T A A C C A T A G T T 

И так — еще около миллиарда раз.

Результаты полного секвенирования генома одного человека занимают порядка 200-500 гигабайт. Если представить, что всем людям в мире секвенируют геном, эти огромные данные будет просто негде хранить. Да и нужно ли это? Зачем нам вообще знать геном всего человечества?

Мировой геном

Каждый из нас несет в себе неповторимую комбинацию из 3 млрд пар нуклеотидов, но насколько мы на самом деле уникальны? Примерно на 0,1%. ДНК всех людей схожа приблизительно на 99,9%, а различие между двумя отдельно взятыми индивидами составит «всего» 4-5 млн пар нуклеотидов.

Насколько эта разница критична? В том, что делает каждого из нас уникальной личностью, безусловно, 4-5 млн пар нуклеотидов играют свою роль. А вот в изучении тяжелых наследственных заболеваний и онкологии, обусловленной генетическими факторами — не всегда. В этом отношении мы слишком похожи, и необходимо сравнить геномы очень большого количества людей, чтобы выявить корреляции между генами и определенными болезнями.

Сотрудники Международного Альянса по Геномике и Здравоохранению (Global Alliance for Genomics and Health, GA4GH) с 2013 года занимаются созданием инфраструктуры для работы с геномными данными. Они привлекают в Альянс организации, которые могут делиться накопленной информацией и связывают разрозненные базы со всему миру в единую систему. Цель GA4GH — создать большую облачную базу геномов, которую называют «Интернет ДНК».

Среди задач Альянса — выработка общих протоколов работы с геномной информацией. На основании тех баз данных, которые ученые уже собрали, проводятся исследовательские проекты, позволяющие найти связь между генами и опасными заболеваниями. Одно из наиболее популярных направлений в геномике — изучение зависимости онкологических заболеваний от генетических факторов с использованием данных пациентов со всего мира. Этим в GA4GH занимается группа BRCA Challenge.

Патогенные мутации в генах BRCA1 и BRCA2 значительно увеличивают риск женщины заболеть раком груди и яичников. При «поломке» в гене BRCA1 вероятность рака груди достигает 55-65%, BRCA2 — 45%. Также подобные мутации могут приводить к раку яичников: BRCA1 в 39% случаев, BRCA2 — от 11 до 17%. Не всегда безопасны они и для мужчин: по некоторым исследованиям, мутации BRCA1/2 влияют на риск рака простаты. Для людей обоих полов такие мутации могут увеличивать риск колоректального рака и рака поджелудочной железы.

В целом, «поломки» в генах BRCA1 и BRCA2 встречаются примерно у 1 из 400-800 человек. Гораздо чаще мутацию находят у евреев ашкенази — в 1 случае из 50. Все ли эти мутации приводят к раку? Как оказалось, нет.

Исследователи проекта BRCA Challenge проанализировали геном многих тысяч человек и обнаружили почти 12 тысяч вариантов BRCA1/2. Причем только часть мутаций определили как патогенные, а другие варианты оказались безопасными.

В мире живут миллионы людей с различными «поломками» BRCA1 и BRCA2. Доступ к базе вариантов проекта BRCA Challenge — возможность для генетических лабораторий из разных стран поставить им правильный диагноз. Без этого существует вероятность совершить одну из двух типичных ошибок: пропустить патогенную мутацию или, наоборот, вынести приговор при наличии безвредной мутации гена.

Создатели проекта BRCA Challenge идентифицировали 3,5 тысячи вариантов BRCA1 и BRCA2 — любая лаборатория в мире может обратиться к их базе данных и проверить, является ли мутация их пациента патогенной или нет. Правда, в базе все еще много вариантов BRCA1/2 с неопределенной патогенностью.

Исследователи надеются, что люди будут чаще проходить генетические тесты, делиться своими данными и медицинской историей — это поможет постоянно улучшать базу BRCA Challenge. Тем более, секвенирование участка ДНК, кодирующего гены BRCA1 и BRCA2, сейчас стоит совсем недорого: в США цена за последние годы упала с 3 тысяч долларов до 250 долларов, в России стоимость подобных тестов начинает от нескольких тысяч рублей.

Трудности роста

Но гены BRCA1 и BRCA2 — лишь 2 гена из более чем 20 тысяч. Сколько же нужно данных, чтобы определить патогенные мутации в каждом из них?

Напрашивается вывод, что чем больше генетических данных о человечестве будет собрано, тем лучше будет всем — врачам, ученым, пациентам. На самом деле, все несколько сложнее. Помимо объективной проблемы хранения данных возникает еще ряд сложностей.

  • Стоимость vs ценность

Сейчас секвенирование генома одного человека стоит около тысячи долларов. Это совсем недорого, если учитывать, что расшифровка первого генома человека обошлась в миллионы. И все же дорого, если понимать, что выгода секвенирования для обычного человека не очевидна. Максимум, что получит сегодня среднестатистический человек после расшифровки его генома — информацию о своем происхождении и некоторые вероятностные данные о склонностях к болезням. Стоит ли это таких ощутимых денег?

«Мы планируем проект секвенирования генома тысячи человек, перенесших инсульт. Это будет исследование с конкретной целью, изучающее генетические факторы определенного заболевания. Я считаю, что просто так нет смысла секвенировать весь геном всего населения России, — рассказал генеральный директор и сооснователь компании Genotek Валерий Ильинский. — Кроме того, что это долго и дорого, что потом делать со всеми этими данными?».

Дэвид Хаусcлер, эксперт по биоинформатике Калифорнийского университета в Санта-Круз, один из основателей Международного Альянса по Геномике и Здравоохранению, считает, что в пределах 5-10 лет полное секвенирование генома будет стоить уже около 100 долларов. В таком случае оно станет доступным большей части населения развитых стран, но и тогда придется предложить врачам и другим людям серьезные аргументы в пользу секвенирования.

  • Юридические проблемы

В каждой стране в разных компаниях, занимающихся генетическим тестированием, в государственных учреждениях и частных клиниках есть разрозненные данные расшифрованных ДНК. Но их объединение и обмен затрудняются юридическими проволочками. Распространение медицинской информации за пределами страны часто ограничено законом. Более того, есть строгие правила о хранении персональных данных — без разрешения пациентов нельзя ни с кем делиться их медицинской информацией, даже анонимно.

«Я бы предложил совместить хранение генетической информации и медицинских данных в формате блокчейна. Это даст и контроль сохранности данных, и контроль уровня доступа. Технология блокчейна достаточно гибкая, она позволит каждому человеку самостоятельно определять, кто может использовать его данные: разрешить полный доступ, открыть данные определенному врачу либо сделать данные закрытыми», — отметил генеральный директор биомедицинского холдинга «Атлас» Сергей Мусиенко.

  • Технологические сложности

На сегодняшний день существуют три основных проблемы работы с данными: плохая доступность данных, их растущий объем, а также несовершенства программ для работы с ними.

«Проблема размера геномных данных очень существенна: это рост данных и скорости их изменения. При этом добавляются новые технологии секвенирования, а перемещение данных для их объединения и анализа в одном центре из различных источников часто требует неприемлемого времени. Это может проходить несколько месяцев», — рассказал ведущий разработчик в области биоинформатики R&D Центра Dell EMC в Сколково Андрей Запарий.

Новая медицина серьезно зависит от прогресса именно в области информационных технологий. Она базируется на технологиях обработки, хранения, анализа и инженерии молекулярных данных, объединенных с «традиционной» медицинской информацией — описанием проявлений болезни, результатами анализов и т.п.

Дэвид Хаусcлер и его коллеги из GA4GH создают платформу с открытым API для сбора и анализа генетической информации со всего мира. Также они хранят исходный код на Github — разработчики могут присоединиться к команде GA4GH или просто изучить инструкции по настройке API.

Команды Dell EMC, Massachusetts General Hospital (MGH) и Partners Healthcare разрабатывают платформу для углубленной аналитики данных, предназначенную для врачей и исследователей. Она позволяет быстро найти необходимые данные и получить развернутый ответ с учетом всех возможных связей и контекста. Это может помочь в принятии решения по диагнозу и дальнейшему лечению.

Платформа объединит различные типы данных: геномные варианты, описания, сделанные врачами, электронные медицинские карты, медицинские справочники и классификаторы (онтологии), базы ассоциаций между геномными параметрами и прочие. Сейчас готов первый прототип: 400 ГБ данных (2,5 тысячи образцов генома, 2 млн уникальных вариантов), поиск по базе занимает десятки секунд. Разработчики ищут способы ускорить поиск, сделать его максимально удобным для врачей, более компактно и надежно хранить данные. Ядро технологии — движок iResearch — можно найти на Github.

  • Качество данных и интерпретация

В конечном итоге важно, какие выводы можно сделать из генетических данных, какие практические рекомендации дать врачам и пациентам.

Для этого, в первую очередь, необходимо обеспечить качество исходных данных. В открытой базе генетической информации ClinVar, например, многие нормальные последовательности нуклеотидов определяют как мутации. Все потому, что доступ в базу открыт всем подряд, и новую информацию о мутациях могут добавить те, кто не проверил ее на достаточно большой выборке.

«По данным ClinVar, лично у меня должно быть 10 патогенных мутаций и страшных наследственных заболеваний. Поэтому мы не пользуемся такими открытыми базами данных. Мы купили платную базу — доступ к ней обошелся в 60 тысяч евро на год. Качество ее тоже не идеальное, но намного лучше, чем у ClinVar», — рассказал Валерий Ильинский.

FDA, американский надзорный орган, отвечающий за качество лекарственных препаратов, недавно предложил ввести сертификацию и стандарты для баз данных с генетической информацией. И это вполне справедливо, ведь на основании таких баз врачи выписывают лекарства, в том числе подбирают дорогую терапию при онкологических заболеваниях.

А что в России?

Теоретически и в нашей стране врачи могут назначать индивидуальные таргетные препараты от рака на основе генетического анализа. В реальности количество таких препаратов можно пересчитать по пальцам. Нет никакого смысла подбирать лекарство с помощью сложного генетического анализа, если выбора в итоге нет. Нужно, чтобы в стране зарегистрировали порядка 100-150 таргетных препаратов от рака, чтобы генотипирование в онкологии имело смысл.

И про деньги

За развитие технологий, баз данных, систем обмена геномной информации кто-то должен заплатить. И цена — определенно — будет высокой. В некоторых странах этот процесс может частично спонсировать государство, система страховой медицины. «Но в первую очередь, за все это платят фармкомпании. Если они будут достаточно заинтересованы в развитии технологий работы с генетическими данными, если увидят в этом свою выгоду, тогда дело пойдет в гору», — резюмировал Сергей Мусиенко.