Одной из важнейших задач в настоящее время для генетики и биоинформатики является определение структурных единиц в геномах как организмов в целом, так и отдельных органелл. Не менее важной задачей является выявление связи как между самими структурами, так и между структурами и выполняемыми ими функциями. В работах Горбаня с соавторами [1, 2] было показано, что для геномов бактерий характерна семикластерная структура. У бактерий участки генома группируются в соответствии с принадлежностью к кодирующим и некодирующим областям. Конфигурация кластеров в пространстве зависит от GC-состава генома, но их количество остается неизменным.
Изучение геномов органелл существенно помогает в получении ответа на вопрос о связи структуры генома и таксономии; в настоящее время общепринятой является теория, согласно которой хлоропласты растений произошли от бактерий. Большой интерес исследователей до сих пор вызывает сама теория [3–5], эволюция хлоропластов [6–8] и происхождение растений [10, 11]. Поэтому особенный интерес представляет изучение геномов тех бактерий, которые могут иметь общих с хлоропластами предков (в частности, цианобактерий), и определение подобия в структурах их геномов [12]. В рамках этой работы исследованы структуры геномов хлоропластов одноклеточных и многоклеточных водорослей. Выбор в качестве объектов изучения именно хлоропластов определяется в первую очередь тем, что они выполняют одну и ту же функцию. Кроме того размер геномов хлоропластов достаточно небольшой (≈105 символов). Основной задачей данной работы было определение особенностей, свойственных именно геномам хлоропластов водорослей и их сравнение со структурами, полученными таким же методом для геномов других организмов.
Материалы и методы исследования
Введём понятия, используемые далее в работе. Мы будем рассматривать генетическую последовательность длины L, состоящую из символов алфавита . Если последовательность содержит символы, отличающиеся от символов алфавита , то такие символы из последовательности удаляются, а длина последовательности уменьшается на число таких символов. Под частотным словарем данной генетической последовательности будем понимать множество всех троек символов ν1ν2ν3 идущих подряд символов с соответствующими им частотами. Общее число таких троек равно 64. Отношение количества копий nω данной тройки символов к общему числу всех троек будем называть частотой:
(1)
Частотный словарь задает отображение генома в 64-мерное метрическое пространство, состоящее из точек, соответствующих частотным словарям участков генома. Два генома близки, если расстояние между множествами соответствующих им точек в Евклидовой метрике мало. Евклидова метрика для двух словарей задается следующим образом:
(2)
Геном сканировался окном длины Δ = 603 со сдвигом t = 11. Каждый участок длины Δ разбивался на тройки символов без пересечений, и для этого участка вычислялся частотный словарь. Таким образом, каждому участку генома ставилась в соответствие точка в 64-мерном пространстве, координатами которой являются частоты троек символов, входящие в участок. Для исключения влияния линейной зависимости между тройками символов (частоты в сумме дают единицу) одна из 64 троек символов удалялась из рассмотрения. Это снижает погрешность, которую линейная зависимость вносит в статистическую обработку данных. Выбор исключаемой тройки символов жестко не определен, но существуют эмпирические правила для выбора такой тройки. Например, можно исключать максимальную по значению частоты тройку символов, тем более если значение частоты этой тройки символов на порядок больше соответствующей величины следующей за ней тройки. Еще один подход предлагает в качестве исключаемой тройки символов выбирать тройку с минимальной величиной стандартного отклонения, вычисленного по множеству участков рассматриваемого генома. Тройка с таким стандартным отклонением оказывает наименьшее влияние на различимость объектов между собой (если стандартное отклонение равно 0, различия отсутствуют). В нашей работе мы пользовались вторым подходом. Минимальные значения стандартного отклонения наблюдались в основном для троек GCG и CGC, хотя встречались и другие тройки символов.
С каждой точкой в полученном после исключения одной из компонент 63-мерном пространстве связывались следующие параметры: номер центрального символа рассматриваемого участка и относительная фаза.
Номер центрального символа участка совпадает с номером этого символа в последовательности. Относительная фаза определяется с учетом того, попал рассматриваемый участок в кодирующую или некодирующую область последовательности. Участок относится к кодирующим, если он целиком попадал в кодирующую область последовательности. Если участок относится к некодирующим, то соответствующая ему точка помечается символом J. Для кодирующего участка возможны 6 вариантов маркировки: B0, B1, B2, F0, F1, F2. Если кодирующий участок в геноме аннотирован как считывающийся в прямом направлении, то для него вычислялся остаток от деления на 3 разности номеров центрального символа участка и первого символа кодирующей области, к которой он относится. В соответствии с величиной остатка от деления точка помечалась символами B0, B1 или B2. Если участок аннотирован как считывающийся в обратном направлении, то вычислялся остаток от деления на 3 разности номеров последнего символа кодирующей области, к которой относится участок, и центрального символа участка. В зависимости от значения остатка от деления точка помечалась символами F0, F1 или F2. Для всех генетических последовательностей длина рамки считывания Δ = 6003, шаг t = 101.
Для того чтобы визуализировать множество точек 63-мерного пространства, с использованием программы VidaExpert [13] строилась проекция из 63-мерного пространства частот троек в пространство первых трёх главных компонент, построенных по этому множеству точек. Чтобы получить двумерные рисунки трехмерного пространства, рассматривались проекции на плоскость первых двух главных компонент и второй и третьей главной компоненты. Чтобы отобразить принадлежность точек к некодирующим облястям и выделить относительные фазы, точки были помечены разными цветами. Точкам, относящимся к некодирующим областям, соответствует коричневый цвет. Для точек, относящихся к участкам с фазами B0 и F0, соответствуют темно-малиновый и светло-малиновый цвета, участкам с фазами B1 и F1 соответствуют темно-зеленый и светло-зеленый цвета, а к участкам с фазам B2 и F2 соответствуют темно-желтый и светло-желтый цвета. Для бактерий было показано, что GC-состав оказывает существенное влияние на расположение кластеров в пространстве первых трех главных компонент. Мы также вычисляли GC-состав геномов хлоропластов водорослей, чтобы выяснить, влияет ли этот параметр на структуру геномов хлоропластов.
Все исследованные геномы находятся в базе EMBL-банка.
Результаты исследования и их обсуждение
Исследование показало, что большая часть геномов хлоропластов водорослей (8 многоклеточных и 47 одноклеточных) имеет четкую трехлучевую структуру. Для этих геномов характерен вид в плоскости первой и второй главных компонент и плоскости второй и третьей главных компонент, который изображен на рис. 1.
На рис. 1, а, видно, что точки сформированы в трехлучевую структуру, которая кластеризуется относительно кодирующих и некодирующих областей генома. В центральном кластере расположены точки, соответствующие некодирующим областям, они отмечены коричневым цветом. Точки кодирующих областей распределены по лучам следующим образом: первому лучу соответствуют фазы B2 и F2 (точки светло-желтого и темно-желтого цветов), второму лучу соответствуют фазы B0 и F1 (точки темно-сиреневого и светло-зеленого цветов), и третьему лучу соответствуют фазы B1 и F0 (точки светло-сиреневого и темно-зеленого цветов). На рис. 1, б, видно, что кроме трехлучевой структуры выделяется кластер, изолированный от остальных точек.
а) Проекция в плоскость первых двух главных компонент
б) Проекция в плоскость второй и третьей главных компонент
Рис. 1. Характерный вид распределения участков хлоропластных геномов водорослей по частотам троек нуклеотидов в проекциях пространства первых трех главных компонент (приведена структура генома Phaeodactylum tricornutum)
Кроме этого, были геномы, чья структура отличалась от характерной. У геномов хлоропластов Oltmannsiellopsis viridis, Stigeoclonium helveticum, Cyanidioschyzon merolae, Chromera velia, Cyanidiaceae sp. MX-AZ01, Xylochloris irregularis и Aureococcus anophagefferens отсутствует кластер, изолированный от остальных точек (см. рис. 2).
а) Проекция в плоскость первых двух главных компонент
б) Проекция в плоскость второй и третьей главных компонент
Рис. 2. Структура генома в проекциях пространства трех первых главных компонент для Stigeoclonium helveticum
Выделилась группа водорослей, у которых наблюдается шестилучевая структура. К этой группе относятся: Klebsormidium flaccidum, Chlorella vulgaris, Micromonas commoda, Chlorella sorokiniana, Chlorella sp. ArM0029B, Chlorella variabilis, Prasinoderma colonialis, Phaeocystis globosa. На рис. 3 показана структура генома, характерная для этой группы хлоропластов.
«анфас» «в профиль»
Рис. 3. Шестилучевая структура генома (Prasinoderma colonialis)
«анфас» «в профиль»
Рис. 4. Структура генома Euglena longa в проекциях пространства трех первых главных компонент
«анфас» «в профиль»
Рис. 5. Структура генома Ostreococcus tauri в проекциях пространства трех первых главных компонент
Кроме того, у трех видов водорослей была обнаружена двухъядерная структура. Это Euglena longa, Euglenaformis proxima и Monomorphina aenigmatica. Они все относятся к семейству Euglenaceae. На рис. 4 показана структура генома для Euglena longa.
У Ostreococcus tauri наблюдается шестилучевая структура и отсутствует кластер, изолированный от остальных точек (рис. 5).
Заключение
Таким образом, было установлено, что для большинства геномов хлоропластов одноклеточных и многоклеточных водорослей структура генома в пространстве первых трех главных компонент очень похожа: выделяется центральный кластер, состоящий из участков некодирующих областей, и три луча, состоящих из участков кодирующих областей. Кроме того, присутствует изолированная группа точек, не входящая в трехлучевую структуру. В [14] была рассмотрена структура геномов хлоропластов наземных растений. Хочется отметить, что структура геномов хлоропластов наземных растений гораздо более однородна: отсутствие изолированного кластера наблюдается только у двух видов. Шестилучевой структуры у геномов хлоропластов наземных растений обнаружено не было. Больший разброс по структуре геномов хлоропластов для водорослей по сравнению с наземными растениями может объясняться гораздо большими различиями в среде обитания у водорослей. В [1, 2] было показано, что структура геномов бактерий определяется их GC-составом. У бактерий шести лучевая структура наблюдалась при GC-составе больше 0,6. У водорослей шестилучевая структура была обнаружена при значениях GC-состава от 0,31 до 0,42. Причем у других видов водорослей при тех же значениях GC-состава структура генома была трехлучевой.