4.13.6 Dot Matrix

ドットマトリックス (Dot Matrix) 解析は、チュートリアル 18:ドットマトリックス解析 (インタラクティブな解析のもう一つの事例) で説明した中心的なトピックです。ドットマトリックス解析は、2つのシーケンスの類似領域を比較するのに使用します。解析の結果、2つのシーケンス間の類似領域は2次元プロットで表示されます。類似領域を非常に直観的な手法で同定することができますので、2つのシーケンスの比較解析を始めるには、最も適した手法です。図 4.21 に示すのはこの解析のインプットパネルです。ここには多数のオプションが用意されていますので、それぞれ個別に説明することにします。

図 4.21:核酸 (Nucleic Acid) 用ドットマトリックスのパネル

 

基本アルゴリズムは、2つのシーケンス間の移動窓 (Sliding Window) を比較するものです。解析の窓を例えば 10 に指定すると、シーケンス #1 のヌクレオチド 1~10 と、シーケンス #2 の 1~10 が比較されることになります。定義されたスコアリング条件をこれら2つのセグメントが満たせば、比較する2つのセグメントをあらわす点がプロット上の座標にドットとして配置されます。次に、シーケンス #1 の 1~10 と、シーケンス #2 の 2~11 が比較され、続いて、シーケンス #2 の 3~12、それが終わると、シーケンス #2 の 4~13 という具合に、シーケンス #2 の全長に至るまでシーケンス #1 の同じセグメントが順番に比較されます。次に、シーケンス #1 のヌクレオチド 2~11 がシーケンス #2 との比較に使用され、同じプロセスが繰り返されます。このような方法を使って、2つのシーケンスの類似する領域だけをあらわすプロットが生成されます (これらはプロット上に対角線で表示されます)。ドットの描画される方法はインプットパネルに入力した値によって決定され、そこに入力された内容がドットの外観 (カラー&サイズ) に反映されます。

まずはじめに、窓サイズ (Window size) の指定です。Window size ボックスに数値を入力して、シーケンスの比較に使用するセグメントのサイズを指定します。窓サイズを小さくすればするほど、解析の感度はシーケンスの局所的変化に対して高くなりますが、感度を上げすぎると、それだけノイズ水準も上がります。核酸 (nucleic acids) の場合、推奨される最小の窓サイズは 10 ですが、ここでは 20 で良いでしょう。2つのシーケンス対に与える最適な窓は、2つのシーケンスそのものの類似性と、2つのシーケンス長における類似性の分布の度合いに応じて変わります。

次に、スコアリングに使用するテーブルも選択する必要があります。核酸 (nucleic acids) の場合は、同一テーブル (identity table) を使うのが一般的です。これは、一致する場合はスコア 1 を、ミスマッチの場合はスコア 0 を付けるテーブルで、これは Standard Tables (標準テーブル) のひとつです。テーブルを選択したら、Color Range インジケーターの上下に予想されるスコアの範囲が表示されます。図 4.21 に示す範囲は 0 (20 のヌクレオチド中に一致するものが全く無い場合) から 20 (20個すべてが一致する場合) となっています。範囲インジケーターに表示される値は、選択するスコアリング・テーブルや窓サイズに応じて変化します。

プロットの表示法を指定するには、プロットの閾値 (thresholds) を指定する必要があります。閾値とは、スコアがある値を超える毎に定義される色の値です。閾値を指定するには2つのステップがあります:まずはじめに、ある閾値 (Threshold value) を定義し、その後、それに対応する色を定義します。Threshold value ボックスに閾値を入力したあと (最大スコアを超える値は入力できません)、Add Threshold ボタンをクリックします。一致するデータのカットオフ (分画) 値として使用したい閾値をすべて追加します (詳細はチュートリアル 18:ドットマトリックス解析 (インタラクティブな解析のもう一つの事例) をご覧ください)。次に、Thresholds リストの中から値のいずれか一つをクリックして、Format > Color メニューから、その閾値に適用したい色を定義します。閾値のそれぞれに色を定義したら、それらはパネルの右側にある Color Range インジケーターに温度計として表示されます。

定義を要する最後の項目はドットサイズ (Dot size) です。このポップアップメニューを使って、それぞれの一致をドットで描画するときのサイズを指定することができます。この数値は、正方形であらわされる各ドットの一辺のピクセル数をあらわします。ポスターやスライドでの用途を目的としたプロットの場合は、遠くからでも画像が識別しやすくするために、ドットサイズをひとまわり大きくすると良いでしょう。

解析を実行すると、図 4.22 のような結果が出力されます。出力オブジェクトにある軸パラメーターやその他のアイテムには、他のグラフ出力と同様に変更を加えることができますが、ドットマトリックス出力には、それ以外にも多数のインタラクティブな特徴があります。出力オブジェクトには実際の比較データも一緒に格納されているので、ドットマトリックスの出力オブジェクトをターゲット状態にして、Object > Reformat... を選択し、Reformat ウィンドウから “Threshold” アイコンを選択することで、このグラフの閾値を変更することができます。この方法を使うと、関心のあるデータのみをグラフに表示させるよう、思い通りの細かい定義を行うことができます。実際にその内容を確認しながら閾値を変更することで、S/N 比を最大化させることができます。

図 4.22:DNA のドットマトリックスの出力例

 

プロット毎のデータを全て格納することによって、全てのデータをディスクに書き込むのに時間が掛かったり、解析の出力結果が非常に大規模になってしまう場合があります。出力オブジェクトの閾値を自由に変更できるようにするには、それに必要な全てのデータを出力オブジェクトに格納する必要があります。もしも、格納されたデータをこれ以上利用する必要がなく、作成されたプロットに満足しているのであれば、Object > Discard Data... を選択することで、グラフに使用されているデータを破棄し、解析結果の画像のみを保存することができます。これを選択すると、図 4.23 のようなダイアログが表示されるはずです。ダイアログ内で説明があるとおり、解析を再計算 (recalculate) することは可能ですが、一度データを破棄してしまうと閾値を変更したり、画像 (グラフ) に変更を加えることはできません。また、データを破棄することで、ディスクの空き容量を大幅に節約できることもダイアログに記載されています。

図 4.23: Discard Data ダイアログ

 

ドットマトリックスウィンドウでは、プロットの一部をマウスで選択して関連する解析を立ち上げることもできるので、これを元に更に別の角度から解析を進めることができます。ドットマトリックス・プロットをターゲット状態にすると、図 4.24 に示すように、マウスをドラッグしてプロット内の領域の一部を選択することができます (目的とする領域の左上にカーソルを置き、マウスのボタンを押したまま、領域の右下に向けてマウスをドラッグしたあとボタンを離します) 。領域を選択できたら、Object メニューを使って、選択領域に対して整列 (alignment) を実行したり、その領域を拡大表示して詳細を調べることができます。これについては、チュートリアル 18:ドットマトリックス解析 (インタラクティブな解析のもう一つの事例) に詳しい説明があります。

図 4.24:ドットマトリックス・プロットの一部を選択した例

 

このようにドットマトリックス解析は、シーケンスを比較するのに非常に有効な出発点として利用することができます。ドットマトリックスプロットから、直接、関心のある類似領域をより詳細に調べることができるからです。関心領域を選択することで、その部分を拡大表示したり、その部分のシーケンスの整列を通じてシーケンスの一致領域に関するさらに詳しい情報を調べることができるようになります。