конвергенции или реверсии распространены – как во многих последовательностях ДНК, а также в наших чосеровских текстах – экономичность может вводить в заблуждение. Это проблема, печально известная как «притяжение длинных ветвей». Вот, что она означает.
Кладограммы, корневые или бескорневые, передают только порядок перехода. Филограммы или филогенетические деревья (по-греческий phylon = раса/племя/класс), похожи на них, но используют также и длину ветвей для передачи информации. Обычно длина ветви обозначает эволюционное расстояние: длинные ветви представляют большие изменения, короткие – небольшие изменения. Первая строка «Кентерберийских рассказов» приводит к следующей филограмме:
В этой филограмме ветви не слишком отличаются по длине. Но вообразите, что случилось бы, если бы какие-либо две рукописи сильно изменились по сравнению с двумя другими. Ветви, ведущие к ним, протянулись бы очень далеко. Но пропорции изменений не стали бы уникальными. Они просто стали бы идентичными с изменениями в другом месте дерева, но (и в этом все дело), особенно с изменениями на другой длинной ветви. Это справедливо потому, что большинство изменений, так или иначе, сосредоточены на длинных ветвях. Достаточное количество эволюционных изменений ложно связывает две длинных ветви и заглушает истинный сигнал. Основанная на простом подсчете числа изменений, экономичность ложно группирует концы особенно длинных ветвей. Метод экономичности заставляет длинные ветви ошибочно «притягивать» друг друга.
Проблема «притяжения длинных ветвей» – главная головная боль биологических таксономистов. Она поднимает голову всякий раз, когда распространены конвергенции и реверсии, и, к сожалению, мы не можем надеяться избежать ее, рассматривая больше текста. Наоборот, чем больше текст, который мы рассматриваем, тем больше ошибочных общих черт мы находим и сильнее укрепляется наша убежденность в неправильном ответе. Такие деревья, как говорят, лежат в угрожающе звучащей «зоне Фельзенштайна», названной в честь выдающегося американского биолога Джо Фельзенштайна. К сожалению, информация ДНК особенно уязвима к притяжению длинных ветвей. Главная причина в том, что существует только четыре буквы в коде ДНК. Если большинство различий являются изменениями единственной буквы, независимая случайная мутация в той же букве особенно вероятна. Притяжение длинных ветвей создает для нас минное поле. Ясно, что в этих случаях мы нуждаемся в альтернативе экономичности. Она сводится к форме техники, известной как анализ вероятности, которая все больше и больше помогает в биологической таксономии.
Анализ вероятности использует даже больше компьютерной производительности, чем экономичность, потому что теперь важна длина ветвей. Таким образом, мы имеем дело с намного большими деревьями, потому что, в дополнение к рассмотрению всех возможных образцов ветвления, мы должны также рассматривать все возможные длины ветвей – Гераклова задача. Это означает, что, несмотря на умные сокращенные методы, сегодняшние компьютеры могут справиться с анализом вероятности, вовлекающим лишь небольшое число видов.
«Вероятность» не является неопределенным термином. Напротив, у нее есть точное значение. Для дерева специфической формы (не забываем включать длины ветвей) из всех возможных эволюционных путей, которые могли бы создать филогенетическое дерево такой же формы, только крошечное число образует точно те же тексты, которые мы теперь видим. «Вероятность» данного дерева – исчезающе маленькая вероятность окончиться фактическими существующими текстами, а не любыми другими текстами, которые могли быть созданы таким деревом. Хотя значение вероятности для дерева является крошечной, мы все еще можем использовать сравнение одного очень маленького значения с другим как способ оценки.
В анализе вероятностей есть различные альтернативные методы получения «лучшего» дерева. Самое простое – искать одно дерево с самой высокой вероятностью: наиболее вероятное дерево. Не безосновательно такой способ имеет название «максимальная вероятность», но только то, что это – единственное наиболее вероятное дерево, не означает, что другие возможные деревья намного менее вероятны. Позже было предложено, чтобы вместо того, чтобы доверять единственному наиболее вероятному дереву, мы рассматривали все возможные деревья, но оказывали пропорционально большее доверие более вероятным. Этот подход, альтернативный максимальной вероятности, известен как филогения Байеса (Bayesian phylogeny). Если много вероятных деревьев согласуются в специфической точке ветвления, то мы считаем, что у нее есть высокая вероятность того, чтобы быть правильной. Конечно, так же, как в максимальной вероятности, мы не можем рассмотреть все возможные деревья, но есть способы сокращенных вычислений, и они работают вполне прилично.
Наша уверенность в дереве, которое мы, наконец, выбираем, будет зависеть от нашей уверенности, что его различные ветви правильны, и мы обычно помещаем значения вероятностей около каждой точки ветвления. Вероятности вычисляем автоматически, используя метод Байеса, но для других способов, таких как экономичность или максимальная вероятность, мы нуждаемся в альтернативных мерах. Обычно используется метод «bootstrap», который неоднократно производит повторную выборку различных данных, чтобы выяснить, насколько большие отклонения создаются в окончательном дереве – другими словами, насколько дерево устойчиво к ошибке. Чем выше значение «bootstrap», тем больше заслуживает доверия точка разветвления, но даже эксперты бьются над тем, как точно истолковать, что говорит нам специфическая величина «bootstrap». Подобные методы – «складной нож» и «индекс распада». Все они – меры того, насколько мы должны доверять каждой точке ветвления дерева.
Прежде, чем мы оставим литературу и возвратимся к биологии, вот итоговая диаграмма эволюционных отношений между первыми 250 строчками 24 рукописей Чосера. Это филограмма, в которой не только схема ветвления, но и длины линий имеют значение. Вы можете непосредственно прочитать, какие рукописи незначительно отличаются друг от друга, а какие сильно отклонились. Филограмма бескорневая – в ней не зафиксировано, какая из этих 24 рукописей наиболее близка к «оригиналу».
Пришло время возвращаться к нашим гиббонам. За эти годы многие люди пытались выяснить наши родственные отношения с гиббонами. Экономичность предсказала четыре группы гиббонов. На следующей странице – корневая кладограмма, основанная на физических особенностях.
Эта кладограмма убедительно показывает, что виды Hylobates образуют группу, также как Nomascus. У обеих групп относительно высокие значения bootstrap (числа на линиях). Но в нескольких местах не решен порядок перехода. Даже притом, что выглядит, как будто бы Hylobates и Bunopithecus формируют группу, значение bootstrap 63 неубедительно для тех, кто обучен читать подобные руны. Морфологических особенностей недостаточно, чтобы построить дерево.
Поэтому Кристиан Рос и Томас Гайсман (Christian Roos, Thomas Geissmann) из Германии обратились к молекулярной генетике, а именно к участку митохондриальной ДНК, названному «областью контроля». Используя ДНК шести гиббонов, они расшифровали последовательности, выровняли их буква к букве и выполнили для них исследования на присоединение соседа, экономичность и максимальную вероятность. Максимальная вероятность, лучший из этих трех методов при преодолении притяжения длинных ветвей, дал самый убедительный результат. Его заключительный вердикт относительно гиббонов показан выше, и Вы можете увидеть, что он разрешает вопрос отношений между этими четырьмя группами. Величины bootstrap были достаточно, чтобы убедить меня использовать полученное дерево для филогении в начале этой главы.
Гиббоны разделились на отдельные виды относительно недавно. Но поскольку мы рассматриваем все более отдаленно связанные виды, разделенные все более длинными ветвями, даже сложные методы максимальной вероятности и анализа Байеса начинают нас подводить. Может создаться ситуация, когда недопустимо большая пропорция общих черт окажется случайной. Различия, как говорят в таких случаях, насыщают ДНК. Никакие причудливые методы не могут восстановить информацию о родословной, потому что любые остатки родственных отношений были уничтожены разрушительным действием времени. Проблема становится особенно острой для нейтральных различий в ДНК. Сильный естественный отбор держит гены в точном, ограниченном диапазоне. В крайних случаях важные функциональные гены могут оставаться без преувеличения идентичными в течение сотен миллионов лет. Но, для псевдогена, который никогда ничего не делает, таких отрезков времени достаточно, чтобы привести к безнадежной