4.11 Median Sieving (Data-Sieving)

Gene Inspector の解析の多くでは、Median sieving (中央値ふるい分け) と呼ぶ処理を利用することができます。Data-sieving とも呼ばれるこのユニークな手法は、Hydropathysurface probability など、移動窓 (Sliding window) を使った解析を実行する際、データのフィルタリングに中央値 (median) を平均値 (mean) の代わりに使用するものです [J.A. Bangham, Anal. Biochem. 174:142-145 (1988)]。平均値を計算する標準的な移動窓を使用すると、結果は滑らかなものになりますが、その分だけ詳細が損なわれてしまうという傾向があります (“Sliding Window” 参照)。移動窓解析では、シーケンスのそれぞれの位置 (各アミノ酸や各ヌクレオチド) に、その解析用に設計されたテーブルをルックアップした値が割り当てられます。指定された範囲の長さ (すなわち窓サイズ) の文字セグメントをシーケンスに沿って移動させ、その窓内にある残基の平均値をそれぞれ計算します。ここで計算した値をプロットします。

ある領域内に値が 10 の残基が2つ、値が 1 の残基が 8つあるとしましょう。これらを平均すると値は 2.8 となり顕著なピークにはなりません。しかし、Median Sieving を使えば、2つの 10 の値を際立たせることができます。Median sieving は、中央値を単純に移動させるだけではありませんが、ある大きさの特徴を際立たせる「ふるい (sieve) 」の役割を果たします。Sliding median は、信号背景にノイズが多く存在する長期間の事象において短時間の変位を表現するのに適していますが、中央値窓 (median window) では単なる異常値に過ぎない高い値が鋭いピークであらわされることになり、それによって、データが歪曲され、結果的に誤解を招いてしまう場合もあります。Median sieving では、この問題に対処するために、複数の高い値を平均化せずに保ちながら、同時に、プロットのピークとなる複数の高い点を求める方法で各セグメントを調べます。

Bangham は、Sliding Means には2つの不都合がある点を述べています:「ひとつは、対象となるドメイン内の大多数のアミノ酸が有する特性を備えていない特異的な残基は、その同定が妨げられる可能性がある点、もうひとつは、平均の移動では、あるドメイン (位相) から別のドメインへの急激な変位を low-pass 周波数フィルタとしてスムーズ化してしまう点です。Data-sieving は、中央値の移動に依拠しており、メッシュサイズという1つのパラメータでその解像度を制御します。」Data-sieving は、指定範囲のドメインを検出する能力を保持しながら、ノイズの多いデータをスムージングするのに非常に適しています。これは、特にタンパク質の様々な解析、例えば、ある膜の範囲に必要とされる幅の領域を検出するのに役立ちます。図 4.8 に示すように、標準的な移動窓平均 (sliding window mean) に比べると、ピークがはっきりと分離され、曖昧性の多くが明瞭になっていることが分かります。図 4.8 は、ニワトリのムスカリン性アセチルコリン受容体 (chick muscarinic acetylcholine receptor) の標準的な Hydropathy 解析結果をあらわしたもので、上図が標準的な移動窓法 (sliding window) を使用したもの、下図が Median-sieving を使用したものです。Median-sieving を使用した解析の方がピークが明確になっている点、および、ピークのそれぞれがうまく分離されている点に注目してください。

図 4.8:上図が Median Sieving を使用したもの

 

Mesh size は、Median-sieving の適用程度を指定するのに使用します。最初の Mesh サイズは移動窓の大きさに対して約半分の値を使用してください。そして、最初の値を大小いずれかに徐々に変化させながら、目的にあった Mesh サイズを求めて行ってください。関心のあるデータをあらわす適切な Mesh サイズを見つける場合、その Mesh 値を倍にして1を加えることによって、それに対応する窓のサイズを計算することができます。例えば、お持ちのペプチドデータの関心のある特徴が Mesh サイズ 9 で引き出されたとすれば、アミノ酸の長さが 19 (2*9 + 1) の領域に対応する特徴を見ていることになります。同様に、Mesh サイズが 4 なら、その領域のアミノ酸の長さは 9 (= 2*4 + 1) に対応します。