Кроме того, была еще и практическая сторона дела. Компьютерные алгоритмы для картирования не могли учитывать слишком много параметров: мы ведь хотели сравнивать массивы в 3 миллиарда человеческих нуклеотидов с миллиардом неандертальских фрагментов по 30–70 нуклеотидов каждый (именно такое количество ДНК мы планировали секвенировать из костей). Программам с такими объемами быстро не справиться.
Несколько человек взялись за монументальную задачу по составлению алгоритма картирования: Эд Грин, Дженет Келсо и Удо Штенцель. Дженет приехала к нам в лабораторию в 2004 году из Университета Западно-Капской провинции в своей родной ЮАР и возглавила у нас группу биоинформатики. Как-то незаметно, но очень эффективно из самых разных и необычных личностей она создала целостную сплоченную команду.
Взять, например, Удо: немного мизантроп, убежден, что большинство тех, кто выше его в академической должностной иерархии, — спесивые дураки. Удо бросил университет, так и не получив диплом по информатике. И тем не менее, когда дело касалось программирования и умения логически мыслить, большинство его учителей не шли с ним ни в какое сравнение. Нам повезло, что он нашел неандертальский проект достойным своего внимания, хотя временами он сводил меня с ума своей абсолютной убежденностью в непогрешимости собственных знаний. Честно говоря, если бы не Дженет, я бы с ним, скорее всего, не сработался.
Все работы по картированию полученных фрагментов, по сути, координировал Эд, чей собственный проект по сплайсингу РНК тихо и незаметно скончался. Вместе с Удо они разработали алгоритм картирования, который учитывал закономерности появления ошибок в последовательностях неандертальских ДНК. Эти закономерности, в свою очередь, определяли Эдриан с Филипом Джонсоном, талантливейшим студентом из группы Монти Слаткина из Беркли. Они-то и выяснили, что ошибки располагались в основном на концах фрагментов ДНК. Дело в том, что, когда молекула ДНК рвется, получаются две неравных по длине нити, и у той, что длиннее, конец торчит, становясь уязвимым для химических атак. Эдриан провел тщательный анализ и понял, что ошибки происходят из-за отщепления молекул азота от цитозинов, а не от аденинов, как мы ошибочно посчитали годом раньше. Даже больше: если Ц стоит на самом конце цепочки, то риск появления его в наших последовательностях в виде Т оценивается в 20–30 процентов.
Эд по-хитрому сумел включить в алгоритм эту Эдрианову закономерность: вероятность ошибок в зависимости от позиции нуклеотида в отрезке последовательности. Например, если неандертальская молекула имела Т на конце, а человеческий геном — Ц, то это считалось как точное соответствие, так как вероятность ошибки “отщепление и замена Ц на Т” очень часто встречается. И напротив, Ц на конце неандертальской молекулы и Т — человеческой считалось как полное несовпадение. Теперь мы не сомневались: алгоритм Эда значительно снизит уровень ложного наложения фрагментов и увеличит, соответственно, уровень корректных попаданий.
Дальше нам предстояло решить, какой из человеческих геномов выбрать для сравнения с неандертальским. Мы хотели понять — и это было одной из целей наших исследований, — будет ли генная последовательность неандертальцев ближе к европейскому человеку или к людям из других частей света. Ведь если мы составим карту фрагментов неандертальского генома относительно европейского варианта (а примерно половина эталонного генома принадлежит индивиду европейского происхождения, как известно)[57], то фрагменты, совпадающие с европейским геномом, останутся, тогда как те, что больше напоминают африканские геномы, отсеются. И тогда в результате мы получим геном неандертальца, слишком сильно похожий на европейский, что будет неверно. Понятно, что для сравнения нужно что-то нейтральное, и мы остановились на геноме шимпанзе. У неандертальцев, людей и шимпанзе был общий предок, и жил он, скорее всего, в промежутке от 4 до 7 миллионов лет назад. Это означало, что геном шимпанзе отличается и от человеческого, и от неандертальского. Мы также составили карту фрагментов неандертальской ДНК относительно гипотетического генома общего предка гоминидов и шимпанзе; этот геном разрабатывали в других лабораториях. После того как мы произведем картирование по геномам нашего общего отдаленного предка, фрагменты неандертальской ДНК можно будет сравнить с соответствующими последовательностями современных человеческих геномов из разных частей света. И тогда появится смысл обсуждать найденные различия, не опасаясь ошибок неверного начального выбора.
Все это вместе требовало значительных компьютерных мощностей, и, к счастью, Общество Макса Планка поддерживало нас безотказно. Специально для нашего проекта общество выделило блок из 256 мощных аппаратов в компьютерном центре в Южной Германии. Но даже с таким оборудованием обработка данных, прочтенных за один только запуск секвенатора, занимала несколько дней. Значит, на картирование всех данных уйдут месяцы. Удо считал, что лучше него никто с задачей не справится, и потому всю работу хотел сделать сам. Я призвал все имеющееся у меня терпение и стал ждать результатов.
Мы получили карты первых партий последовательностей ДНК из Брэнфорда. И тут Эд сразу же наткнулся на нечто чрезвычайно тревожное. У меня упало сердце, группа заволновалась: в коротких фрагментах обнаруживалось все больше отличий от человеческого генома, чем в длинных. Нечто похожее уже обсуждали Грэм Куп, Эдди Рубин и Джефф Уолл после нашей публикации в Nature. Они считали, что данная закономерность отражает появление загрязнений, и полагали, что длинные фрагменты на самом деле являются не чем иным, как занесенными в библиотеки современными ДНК. И именно поэтому в длинных фрагментах наблюдается меньше отличий. А мы-то надеялись, что “чистые комнаты” и специальные ДНК-метки избавят нас от этого ужасного бедствия — загрязнений! Эд как сумасшедший бросился снова перетряхивать данные: занесли мы загрязнения или нет.
И выяснил, что, к счастью, нет, не занесли. Он очень быстро увидел, что если установить более строгие критерии совпадения фрагментов, то распределение отличий от эталонного генома будет одинаковым и для коротких, и для длинных. И он наглядно показал, что если использовать обычные, принятые в генетике критерии сходства, то короткие фрагменты бактериальной ДНК оказываются близки к человеческой ДНК, и тогда исследователи (и мы, и Уолл, и все другие) ошибочно включают их в анализ. В этом случае в среднем на выборку получалось, что короткие фрагменты сильнее отличаются от человеческого генома, чем длинные. Стоило Эду ужесточить критерии сходства и отсева лишних фрагментов, как проблема исчезла. Я мысленно похвалил себя за то, что, несмотря на очевидную разницу в коротких и длинных фрагментах, не верил в гипотезу загрязнений.
Вскоре группа опять столкнулась