3.6 多重シーケンス整列

シーケンスエディタは、シーケンスの多重整列 (multiple sequence alignments) の結果をあらわすウィンドウにもなります。シーケンスの多重整列は、通常の Analysis Setup ウィンドウを使って解析の一つとして作成するか、もしくは、シーケンスエディタ・ドキュメントの内部から直接作成することができます。詳細は、チュートリアル 5: シーケンスの多重整列をご覧ください。

現在シーケンスエディタウィンドウに開いている全てのシーケンスを整列するには、Sequence > Alignment > Align All Sequences... を選択します。これを選択すると、タンパク質の整列の場合は、図 3.10 に示すようなダイアログボックスが表示されます。この事例の場合は、入力できる多数のパラメータが用意されています。Gene Inspector が使用する多重整列アルゴリズムは、Clustal V と呼ばれるものです [Higgins, D.G., A.J. Bleasby, and R. Fuchs, Comp. Appl. Biol. Sci. 8(2):189 (1992)]。多重整列の実行コードは、EMBL (欧州分子生物学研究所) の Dr. Des Higgins 氏のご厚意によるものです。

図 3.10：多重シーケンス整列のセットアップ

多重整列を成功させるには、最も類似するシーケンスがどれとどれがであるかを知る必要があります。これは、「ガイド」となる大まかなツリーを計算して漸進的 (progressively) に行っていきます。このガイドツリーは多重整列の計算中、徐々に大きなグループを整列していくためのガイドとして使用されます。互いに類似するシーケンスの様々な整列結果を並べ変えることで、最終的なシーケンスの多重整列が完成します。

まずはじめに、様々なシーケンスを比較するために使用するテーブルを選択する必要があります。これは、他の解析でテーブルを選択するのと同じやり方でポップアップの Table メニューを使って行います。

これから行うことに熟知していなかったり、色々と実験することに関心がない場合は、パネル内のその他のパラメータについてはデフォルト値のままにしておくのが良いでしょう。パラメータを不用意に変更すると、誤解を招くおかしな結果になる場合がありますので、とりわけステップ１のパラメータについては注意して取り扱うようにしてください。ステップ２のパラメータを変更すると、整列の結果が変わり、異なる整列スコアになります。以下に示すのは、各パラメータの内容を Clustal V コードに添付されたドキュメントに基づいて簡単に説明したものです。

Step one: Pairwise Grouping

k-tuple (word) size: タンパク質なら 1 又は 2 を、DNA なら 1 ～ 4 の値を指定する。この値を上げるほど解析処理が速くなる。反対に、ワードサイズを下げると感度が高くなる (より遠縁のシーケンスが検出される)。
maximum gap length: 「Top」の対角線 (diagonal) 毎に考慮する付近の対角線の数。値を小さくするほど解析処理が高速になり、大きくするほど感度が上がる。
gap penalty: ギャップ導入に必要な一致残基の数。k-tuple サイズより大きい値にする。ギャップの導入数は顕著に変化するが、処理速度や感度にはほとんど影響はない。
# of top diagonals to use: 仮想のドットマトリックスプロットで考慮する最適な対角線の数。値を小さくするほど (ゼロより大きい値) 解析処理が高速になり、大きくするほど感度が高くなる。

Step two: Multiple Sequence Alignment

gap creation: この値を小さくするほどサイズの様々なギャップが挿入され、大きくすると抑制される。ターミナルギャップには他のギャップと同様にペナルティが科せられる。ギャップ生成ペナルティを小さくし過ぎないように注意する。ペナルティが極端に小さいと、プログラムは各シーケンスを長いギャップに対して整列しようとする。
gap extension: この値を小さくするほど長いギャップができる。大きくするとギャップは小さくなる。gap creation と同様、ターミナルギャップには他のギャップと同様にペナルティが科せられ、値を小さくし過ぎると同じ警告が適用される。