12.07.2015 Views

Компьютерная геномика — новая эра

Компьютерная геномика — новая эра

Компьютерная геномика — новая эра

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>КОМПЬЮТЕРНАЯ ГЕНОМИКА <strong>—</strong> НОВАЯ ЭРАС.А. Боринская, М.С. Гельфанд, А.А. МироновСветлана Александровна Боринская, кандидат биологических наук, научный сотрудникИнститута общей генетики им. Н.В. Вавилова РАН. Область научных интересов <strong>геномика</strong>,эволюция. Руководитель проекта 99-04-48347.Михаил Сергеевич Гельфанд, доктор биологических наук, ведущий научный сотрудникГосударственного научно-исследовательского института генетики и селекции промышленныхмикроорганизмов. Научные интересы связаны с компьютерной геномикой и вычислительнымиметодами.Андрей Александрович Миронов, кандидат физико-математических наук, заведующийлабораторией в том же институте. Занимается сходными проблемами.Первую публикацию см.: Химия и жизнь. 2001. №2. С.36<strong>—</strong>40.Ранее биологи изучали формы и функции организмов, переходя от целого к частям <strong>—</strong>органам и тканям. Путь современной биологии иной: она исследует части, гены и молекулы,пытаясь воссоздать картину их функционирования в целом организме. Возникла <strong>новая</strong> наука,<strong>геномика</strong>, объект которой <strong>—</strong> совокупность всей генетической информации организма, геном.Работа генов определяет синтез необходимых клетке белков. Именно от их разнообразия и активностизависят молекулярные процессы, обеспечивающие существование всего живого. Установлениеи характеристика всех белков данного организма относится к компетенции ещеодного нового на правления биологии <strong>—</strong> протеомики (от гр. <strong>—</strong> пер вый, простой белок).По предварительным оценкам, в геноме чело века содержится примерно 30<strong>—</strong>35 тыс. генов,большинство из которых в каждой клетке «молчит». К постоянно работающим относятсягены, кодирующие компоненты аппарата синтеза белка, РНК, ферменты, ответственные засинтез и по чинку ДНК, ферменты системы обеспечения энергией и другие компоненты, необходимыедля ведения «домашнего хозяйства» клетки. У человека около 1/5 всех генов отвечаютза «домашнее хозяйство». Среди остальных генов есть работающие только на определенныхэтапах развития организма <strong>—</strong> например, кодирующие эмбриональные белки илиобеспечивающие лактацию. Другие функционируют лишь в немногочисленных клетках. Так,наша способность воспринимать запахи связана с обонятельными рецепторами. Найдено всегооколо тысячи генов, кодирующих такие рецепторы, и в каждой клетке обонятельной луковицыиз этой тысячи работает только один ген.В каждой клетке «звучит» свой аккорд генов, который определяет спектр синтезируемыхна них видов РНК, кодируемых матричной РНК белков, и соответственно свойства самойклетки. Набор активных генов различается в зависимости от типа ткани, периода развития организма,внешних или внутренних сигналов.Перед началом гена находятся промоторы <strong>—</strong> специальные регуляторные последовательности,которые включают и выключают его работу в зависимости от полученных клеткойсигналов. Клетка «понимает», когда и какой участок генетического текста надо считывать,реализуя записанную в нем информацию. Более 20 лет назад была расшифрована структурарегуляторных участков в ДНК бактерий. С тех пор многое удалось понять в работе генов.Бурное развитие геномики связано, с одной стороны, с совершенствованием методов определенияпоследовательности нуклеотидов в ДНК, т.е. секвенирования (от англ. sequence <strong>—</strong> последовательность).С другой стороны, лавинообразный рост объема новых данных вызвалразвитие компьютерных технологий для анализа информации, записанной в ДНК. Сейчасизучают уже не отдельные фрагменты ДНК, а целые геномы десятков бактерий, дрожжей,червя-нематоды, мухи дрозофилы.1


БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>Конечно же, максимум ожиданий связан с изучением генома человека, направленным навыявление всех его генов, установление их функций, взаимодействий в норме и при нарушениях,приводящих к болезням. Полностью геном человека должен быть прочитан к 2003 г.Это означает, что будет определена вся последовательность в 3 млрд. нуклеотидов. При этомчисло ошибок не должно превысить 300 тыс. (не более 1 ошибки на 10 тыс. нуклеотидов). Сегодняпрочитанные участки ДНК человека еще не соединены в единую последовательность, аточность прочтения на порядок ниже необходимой.Однако сам по себе нуклеотидный текст лишь исходный материал для дальнейшего анализа.Необходимо понять, какие фрагменты ДНКовых текстов и когда переписываются в набормолекул РНК, какие белки при этом синтезируются, как меняется при этом структура ифункция клетки.Кроме понимания фундаментальных законов жизни открытия геномики приносят заметнуюпрактическую пользу, в том числе и для медицины. Многие фармацевтические компаниивкладывают огромные средства в геномные исследования. Френсис Коллинз, возглавляющийамериканскую про грамму «Геном человека», считает, что через 40 лет для лечения самых различных недугов появятся синтетические генные продукты, способные целенаправленно изменятьработу заболевших клеток и органов.Нуклеотиды любят счетВ течение 100 лет гены изучали в экспериментах in vivo (в живой клетке) и in vitro (впробирке). Появившиеся в 60х годах компьютеры были лишь вспомогательным средством дляобработки и хранения данных. С конца 80х годов началось формирование баз данных, собирающихинформацию о миллионах последовательностей нуклеотидов в ДНК и РНК или аминокислотв белках. Компьютерный анализ превратился в самостоятельную область науки <strong>—</strong>биоинформатику. Исследования in silico (в компьютере), уже помогли прочесть многие «слова»генетического текста <strong>—</strong> команды, записанные в ДНК и управляющие жизнью клетки. Длятакой расшифровки созданы специальные про граммы, например для статистического анализараспределения нуклеотидов в ДНК. Напомним, что в генетическом алфавите всего четыре буквы<strong>—</strong> А (аденин), Т (тимин), Г (гуанин) и Ц (цитозин). Любители подсчета букв выяснили,сколько раз подряд может идти А или как часто в ДНК бактерий или человека Г встречаетсяпосле Ц. В «осмысленных», т.е. кодирующих, участках ДНК эти сочетания подчиняются определеннымправилам, тогда как в промежутках между генами, там, где ничего существенногов ДНК не записано, частота сочетаний нуклеотидов близка к случайному. Похоже на правилограмматики, которое мы учили в школе: «жи, ши пиши через и». В словах русского языкабуква ы после ж не встречается (разве что в тетрадях двоечников). Так и в генетическихтекстах, кодирующих участках, некоторые сочетания нуклеотидов почти не встречаются, араспределение других сочетаний сильно отличается от случайного. Это видно при подсчетераспределения триплетов, кодирующих аминокислоты, в генах излюбленного объекта генетиков<strong>—</strong> кишечной палочки (см. таблицу). У кишечной палочки, как и у других организмов,имеется всего 64 триплета. Три из них <strong>—</strong> ТАА, ТАГ и ТГА <strong>—</strong> не кодируют аминокислоты, аслужат сигналом окончания (терминации) синтеза белка.Одна и та же последовательность ДНК может быть прочитана тремя способами со сдвигомна один нуклеотид. Способ чтения называется рамкой считывания. Понятно, что терминирующихтриплетов нет внутри гена в кодирующей рамке считывания (в других рамках онимогут присутствовать, никому не мешая, <strong>—</strong> они не читаются, если молекулярная машина несобьется). Распределение кодирующих триплетов внутри гена различно. Так, триплет ЦТГвстречается на порядок чаще, чем триплет ЦТА, хотя оба они кодируют одну и ту же аминокислоту<strong>—</strong> лейцин. В межгенных промежутках таких различий частот нет.Подобные подсчеты, называемые статистическими методами анализа нуклеотидных последовательностей,позволяют распознать участки генома с определенными свойствами. На-2


БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>пример, у бактерий большинство болезнетворных генов находится в так называемых островкахпатогенности, которые отличаются от остального генома по частоте встречаемости АТ иГЦ пар нуклеотидов.Где искать гены?У бактерий обнаружить гены относительно легко. Прежде всего, потому, что они занимаютоколо 80<strong>—</strong>90% генома, так что вероятность попасть в ген гораздо больше, чем промахнуться.Кроме того, белок-кодирующий участок бактериального гена <strong>—</strong> это непрерывная открытаярамка считывания. Так что если в сплошной цепочке букв удалось найти начало гена,то он будет читаться триплетами до самого конца, т.е. до стоп-кодона.Гены высших организмов, в том числе и человека, искать намного труд нее. У человекана участки, кодирующие белки, приходится только 5% всего генома. И белок-кодирующиеучастки идут не сплошь, как у бактерий, а прерываются вставочными последовательностями<strong>—</strong> интронами, которые после синтеза матричной РНК вырезаются. Ген может содержать донескольких десятков кодирующих фрагментов <strong>—</strong> экзонов, чередующихся с интронами. К томуже в разных клетках могут использоваться различные сочетания экзонов одного и того жегена.ТаблицаТриплетный код: частота встречаемости кодонов в геноме кишечной палочки (указана средняячастота встречаемости кодона на тысячу случаев)ТТТ 22 Фенилаланин АТТ 30 ИзолейцинТТЦ 16 Фенилаланин АТЦ 24 ИзолейцинТТА 14 Лейцин АТА 6 ИзолейцинТТГ 13 Лейцин АТГ 27 МетионинТЦТ 10 Серин АЦТ 10 ТреонинТЦЦ 9 Серин АЦЦ 23 ТреонинТЦА 8 Серин АЦА 8 ТреонинТЦГ 9 Серин АЦГ 14 ТреонинТАТ 16 Тирозин ААТ 19 АспарагинТАЦ 12 Тирозин ААЦ 22 АспарагинТАА 2 Стопкодон ААА 35 ЛизинТАГ 0.3 Стопкодон ААГ 12 ЛизинТГТ 5 Цистеин АГТ 9 СеринТГЦ 6 Цистеин АГЦ 16 СеринТГА 1 Стопкодон АГА 3 АргининТГГ 14 Триптофан АГГ 2 АргининЦТТ 11 Лейцин ГТТ 19 ВалинЦТЦ 11 Лейцин ГТЦ 15 ВалинЦТА 4 Лейцин ГТА 11 ВалинЦТГ 50 Лейцин ГТГ 25 ВалинЦЦТ 7 Пролин ГЦТ 16 АланинЦЦЦ 5 Пролин ГЦЦ 25 АланинЦЦА 9 Пролин ГЦА 21 АланинЦЦГ 22 Пролин ГЦГ 32 АланинЦАТ 13 Гистидин ГАТ 32 Аспараги<strong>новая</strong> к-таЦАЦ 10 Гистидин ГАЦ 19 Аспараги<strong>новая</strong> к-таЦАА 15 Глутамин ГАА 39 Глутами<strong>новая</strong> к-таЦАГ 29 Глутамин ГАГ 18 Глутами<strong>новая</strong> к-таЦГТ 21 Аргинин ГГТ 25 ГлицинЦГЦ 21 Аргинин ГГЦ 28 ГлицинЦГА 4 Аргинин ГГА 9 ГлицинЦГГ 6 Аргинин ГГГ 11 ГлицинСтатистический анализ позволяет с определенной долей вероятности установить, к какомуучастку генома относится исследуемый фрагмент. Например, включив телевизор и ус-3


БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>лышав слова «в отличие от обычного средства» или «дешевле только даром», вы сразу понимаете,что попали на рекламныйролик. Эти словосочетания в других передачах почти не встречаются. Так и определенныесочетания нуклеотидов указывают на принадлежность анализируемого куска генетическоготекста к интрону или экзону, кодирующему белок. Границы интронов и экзонов обозначеныв ДНК специальным сочетанием нуклеотидов.Без компьютерных биоинформационных технологий развитие геномных исследованийбыло бы невозможным. Компьютерный поиск генов особенно важен при изучении генома человека,поскольку в этом случае методы классической генетики весьма ограничены. Ведь человек,в отличие мух-дрозофил, не может быть объектом искусственного мутагенеза или иныхгенетических экспериментов. Однако результаты экспериментов, поставленных на животных,можно применить и для человеческого генома. Наиболее важные участки генома относительномало меняются в процессе эволюции, и их функции, установленные в экспериментах намышах или мухах (рис.1), оказываются такими же и у человека.Компьютерный анализ генетических текстов разных организмов позволяет найти такиесходные участки. Медленнее всего изменяются фрагменты, кодирующие белки: в некоторых,наиболее важных, отдельные участки остаются неизменными на протяжении миллиардов летэволюции <strong>—</strong> от бактерий до человека. Это дает возможность находить гены при сравнениигеномов отдаленно родственных видов. Таким анализом занимается сравнительная <strong>геномика</strong>.Ее методы используют для выявления родства отдельных генов, родства организмов, установленияпроисхождения видов и более крупных таксонов.Рис1.Сходство генов, управляющих формированием оси тела, у мухи и мыши.Сравнительная <strong>геномика</strong> позволяет предсказывать функции генов чело века по известнымфункциям генов мухи или червя нематоды. Если сравнивать геномы человека и дрозофилы,можно легко обнаружить структурные гены, поскольку у неродственных организмов разницамежду значимыми (консервативными) и незначимыми участками заметнее. Но часть человеческихгенов не похожа на мушиные, найти их при таком сравнении нельзя.4


БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>У нашей более близкой родственницы, мыши, набор генов почти такой же. Однакосходство в некодирующих областях затрудняет поиски генов сравнительными методами, т.е.выбирать организм для сравнения надо в зависимости от конкретной задачи.А вот гены шимпанзе почти идентичны человеческим. Геном шимпанзе отличается отнашего в среднем одним нуклеотидом из 300, поэтому его сравнение с геномом человеканельзя использовать для поиска генов. Но если гены уже известны, то существенные различиямежду человеком и шимпанзе скорее всего, связано именно с теми, которые делают нас людьми.По этому, как сообщил недавно журнал «Science», в Германии начат проект «Геном шимпанзе».Гены человека, нарушения в которых приводят к наследственным заболеваниям, можноизучать на животных. Например, известно, что болезнь Альцгеймера <strong>—</strong> одна из форм старческогослабоумия, <strong>—</strong> вызвана мутациями в определенных генах. Решить эту проблему помогаютэксперименты на мухах. Мутации в их генах приводят к изменениям в мушиных мозгах,сходным с таковыми в мозге пациентов с болезнью Альцгеймера. У «слабоумных» мух нарушаетсяспособность к запоминанию. Ведется поиск генов у мух, связанных с нарушениямипамяти, и препаратов, способных замедлить развитие болезни <strong>—</strong> сначала у мух, а потом, надонадеяться, и у людей.Важные для медицины и промышленности результаты дали исследования геномов бактерий.Кроме уже упоминавшейся кишечной палочки прочитаны геномы нескольких десятковвозбудителей социально значимых инфекций <strong>—</strong> туберкулеза, сифилиса, тифа, гастрита, атакже некоторых промышленно важных бактерий. В этих геномах выявлены практически всегены, а для многих <strong>—</strong> и функции белкового продукта, что позволяет проводить реконструкциюобмена веществ бактерии. Реконструкция основных метаболических процессов организмапо последовательности нуклеотидов его генома <strong>—</strong> одно из важнейших направлений геномики,получившее название «метаболомика».Анализ полной последовательности нуклеотидов генома возбудителя туберкулеза показал,что у этой микобактерии имеются жизненно важные ферменты, отсутствующие у человека.Поиск лекарств, действующих именно на эти ферменты, обещает переворот в борьбе с туберкулезом,уносящим миллионы человеческих жизней.Перспективы биоинформатикиЭкспериментальный поиск одного гена занимает недели и месяцы работы целой лаборатории.Компьютерные методы позволяют сделать это за считанные минуты, если ДНК организмапрочитана и есть хорошие алгоритмы поиска. Созданием таких алгоритмов и занимаютсябиоинформатики. Раз личные программы используют для поиска генов и регуляторныхсигналов в ДНК, для предсказания структуры и функций белка, его локализации в клетке, дляреконструкции метаболизма. Реконструкция метаболических реакций, происходящих в разныхклетках и тканях, будет одним из следствий расшифровки генетической информации человека.На прошедшей в Канаде летом 2000 г. очередной международной конференции «Геномчеловека» из четырех биотехнологических компаний, поместивших на доске объявлений приглашенияна работу, три ищут глав отделов биоинформатики. Отвечая на потребность в специалистахэтого профиля, ряд канадских групп предлагает желающим посещать платные недельныешколы по биоинформатике для получения диплома специалиста-биоинформатика.Российская биоинформатика не отстает, а зачастую и опережает мировую. Именно российскиеспециалисты предложили использовать одновременно несколько разных взаимноподдерживающихалгоритмов для анализа последовательностей. Каждая из существующихпрограмм по отдельности ошибается достаточно часто. Но если использовать несколько таких«слабых» программ одновременно, то там, где их предсказания совпадают <strong>—</strong> там истина. Например,человеческие гены удается неплохо предсказывать, если одновременно смотреть на5


БИОЛОГИЯ<strong>Компьютерная</strong> <strong>геномика</strong> <strong>—</strong> <strong>новая</strong> <strong>эра</strong>статистическое распределение нуклеотидов, сигналы сплайсинга и частоту использования кодонов.Для оценки развития данной области науки в нашей стране можно применить критерийРойтберга <strong>—</strong> чем больше красивых девушек на конференции, тем успешнее развивается наука.Прошедшая летом 2000 г. в Новосибирске конференция по биоинформатике соответствовалаэтому критерию в гораздо большей степени, чем канадская. Есть и другие показатели. ВНациональном центре биоинформатике, самом крупном американском центре компьютерныхгеномных исследований, более 20% сотрудников <strong>—</strong> наши соотечественники. Несмотря на всетрудности, с которыми сталкивается наука в нашей стране, геномные исследования активноразвиваются, и они необходимы нам так же, как и другим странам.Любая биологическая система стремится поддерживать стабильность своего существования.Даже березовая роща контролирует внутренние условия: в ней и температура воздухаотличается от окружающей, и освещенность, и ветер не так сильно дует, и влажность воздухарегулируется. Естественный отбор собирает суровую дань, уничтожая носителей неблагоприятныхмутаций, <strong>—</strong> плату за приспособленность вида в целом. Во все времена люди стремилиськ улучшению породы. Так, в древней Спарте слабых младенцев сбрасывали со скалы. Стой же целью в 30х годах в США около 100 тыс. человек подвергли принудительной стерилизации<strong>—</strong> бессмысленной с точки зрения генетики. Ведь подобные меры не снижают частотыпро явления наследственных заболеваний в следующем поколении. На пороге 3го тысячелетиячеловечество хочет поменьше платить за собственное благополучие <strong>—</strong> взять под контрольсвои генетические процессы и вносить коррективы не ценой жизни носителя неблагоприятныхмутаций, а поправлять их генетические тексты по собственному разумению, добываемомув исследованиях генома человека. И без компьютерной геномики в этом деле не обойтись.6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!