Google для ДНК: как программисты помогают генетикам

15 лет назад был просеквенирован всего один человеческий геном. Сейчас в клиниках и институтах всего мира хранятся огромные массивы генетических данных. Эта информация очень ценна для врачей и исследователей: в генетическом коде кроются причины многих заболеваний. Однако архивы человеческих геномов огромны и плохо структурированы, поэтому ориентироваться в них ученым очень сложно, и получить необходимую информацию они не могут.

Поисковик для ДНК: как программисты помогают генетикам

Гигабайты в одной клетке

Персонализованная медицина основана на обработке и анализе гигантских массивов данных, таких как структура ДНК, РНК и белковых молекул. Вместе с результатами различных анализов, снимками и записями в медицинской карте, они позволяют получить наиболее полную картину состояния пациента. Однако прежде, чем врач сможет воспользоваться этими данными, их необходимо подвергнуть сложной математической обработке. В сыром виде эта информация не имеет смысла: это все равно, что пытаться найти значение слова «диплоид» в книге, взятой наугад с библиотечной полки.

Кроме того, информация о ДНК имеет ценность в сопоставлении с аналогичными данными других больных. Опыт других пациентов помогает в лечении и диагностике онкологических и редких наследственных заболеваний. К примеру, мутации генов BRCA1 и BRCA2 отвечают за развитие рака молочной и предстательной железы. Один из 800 человек является носителем мутации гена BRCA1. Однако далеко не все мутации патогенны. Чтобы понять, какие из них являются причиной возникновения рака, необходимо анализировать большие выборки генотипов и фенотипов. Информация по мутациям этих генов хранится в базе BRCA Exchange. Это самая крупная база, в которой находится 17800 вариантов генома.

Это всего лишь верхушка айсберга. В геноме человека 3 млрд пар диплоидных оснований, что дает огромное количество вариаций. BRCA 1 и BRCA 2 – всего лишь два гена из 20 тысяч активных. Очень важно наращивать количество геномов в разных базах данных. Но есть проблема: объем информации.

Результаты полного секвенирования генома одного человека занимают от 200 до 500 гигабайт. The Cancer Genome Atlas содержит примерно 5 петабайт данных – это результаты исследования парных образцов из 14,5 тысяч случаев. В этом смысле с генетикой сравнимы лишь астрономия и ядерная физика: с момента запуска в 2000 году Green Bank Telescope произвел 20 петабайт данных, а ЦЕРН недавно расширил свое хранилище до 50 петабайт. Несмотря на то, что ученым требуются конкретные участки ДНК, а не весь массив информации, уменьшить количество сырых данных пока не получается. И эти данные нужно где-то хранить.

Смешение языков

Сейчас генетические данные хранятся в медицинских и научных организациях по всему миру, все они имеют разные форматы и структуру. Кроме того, в разных странах системы здравоохранения различаются, поэтому передача информации между государствами зачастую затруднена. Это похоже на строительство Вавилонской башни, где все говорят на разных языках.

Чтобы облегчить поиск информации, различные организации стремятся создать инфраструктуру для хранения геномов людей со всего мира в интернете. Единая база данных позволит ученым и врачам поделиться информацией по всем вариантам мутаций, создать среду, которая позволила бы сопоставить историю болезни, клинические данные и проанализировать правовые вопросы. Благодаря такому интерфейсу врачи смогут диагностировать редкие заболевания и найти ключи к лечению многих болезней.

Однако далеко не все учреждения стремятся к сотрудничеству. Некоторые клиники отказываются предоставлять доступ к базе данных или требуют за это плату. Секвенирование генома требует крупных издержек, поэтому делиться результатами изысканий медицинским учреждениям невыгодно. Кроме того, далеко не каждый мужчина способен опубликовать информацию, что у него в 30 лет будет импотенция. Поэтому помимо устранения технологических препятствий и обеспечения передачи данных между странами, необходимо решить вопросы конфидециальности и согласия на обработку данных.

Еще одна проблема — интерпретация генетической информации и качество баз данных. По словам директора компании Genotek Валерия Ильинского, бесплатные базы данных выдают информацию, согласно которой треть людей вообще не должна была рождаться из-за патогенных мутаций. Врачам и ученым необходимо понимать, как сырые данные соотносятся с «клиникой» пациента, но такая информация закрыта во многих госпиталях.

Развитием «интернет-ДНК» и решением перечисленных проблем занимается Международный Альянс по Геномике и Здравоохранению (Global Alliance for Genomics and Health). Альянс был основан в 2013 и объединяет университеты, медицинские организации, научные центры и крупнейшие IT-компании. Российский R&D центр компании Dell EMC в Сколково, которая специализируется на на создании решений для облачных вычислений и аналитики больших данных, также входит в Альянс. Сейчас компания разрабатывает поисковик iResearch, который будет искать в базах данных необходимые генотипы и фенотипы. Опыт компании в России мал: она пока не сотрудничает с российскими больницами и лабораториями. Кроме них, этой проблемой занимается Yandex Data Factory, которая в прошлом году объявила о запуске платформы RAY для обработки и хранения секвенированной информации.

Комментарии