チュートリアル 15：翻訳におけるイントロンの読み飛ばし

遺伝子配列をインポートする際、タンパク質配列を決定するためにエキソンとイントロンの扱いに対処しなければならないことがよくあります。GCK ではこの取り扱いを簡単にすることができます。このチュートリアルでは、このプロセスがどう働くかをご説明します。

アプリケーションを起動して、Tools > Deluxe Import > Open Sequences File を選択したら、G-gamma globin.gbk という名称のファイルを選択して、このファイルを開きます。このファイルには、GenBank 登録番号 X03109 の内容として、チンパンジー胎児の G-ガンマグロビン (fetal G-gamma globin from Chimpanzee) が含まれています。このファイルは、任意のテキストエディタで開き、その内容を確認することもできます。図 2.73 に示すようなデータが表示されます。Deluxe Importing 機能については、Tutorial 13: Deluxe Import 機能を使用した GenBank シーケンスファイルの読み込みをご覧ください。
図 2.73：Deluxe import で開いた G-ガンマグロビンのデータ
このウィンドウのセクションの中央には、この DNA の特徴 (feature) リストがあります。このうち、このチュートリアルで関心があるのは、Exon、intron、CDS (coding sequences) です。Feature のいずれかをクリックすると、右側のテキストボックスにその特徴に関する詳しい情報が表示されます。このファイルに何が記載されているかを実際に確認してみてください。CDS をクリックすると、一行目には "join" に続いて３つの数字の対が記載されています (108..199, 322..544, and 1438..1566)。これは、コーディング配列が 108-199 と 322-544 および 1438-1566 のヌクレオチドで構成されていることをあらわします。また、これらに対応するヌクレオチドの範囲がエキソンである点に注意してください。Convert To GCK ボタンをクリックします。
図 2.74 に示すようなダイアログウィンドウが表示されます。これは、GenBank の各 Feature が GCK でどのように変換されるかを示します。Exon と intron のすべて、および、“polyA_site” にチェックを入れます。それ以外の項目のチェックは、この時点では画面が煩雑になるだけですので、すべて外してください。
図 2.74：G-ガンマグロビンの特徴
先ほど作成したコンストラクトをあらわす新しいウィンドウが開きます。変換の選択内容が人によって異なりますので全く同じではありませんが、ほぼ図 2.75 に示すようなものになるはずです。３つのエキソンは黒の太いラインで、イントロンは黒の斑点で表示される点に注目してください。コンストラクトの下にある細い水平線は、コメントがあることをあらわします。Construct > Display > Hide Comments を選択することでコメントを非表示にすることができます。

図 2.75：インポートされた G-ガンマグロビン
最初のイントロン (200-321) をダブルクリックして、この色をグリーンにします (Format > Color > Green)。同じ作業を２番目のイントロン (545-1437) に対しても行います。選択したヌクレオチドの範囲がコンストラクトウィンドウの左下の隅に表示される点に注目してください。シーケンスビューに切り替えたときは、ここを確認することで、イントロンとエキソンの識別がしやすくなります。
Construct > Display > Display Sequence を選択して、コンストラクトを配列で表示します。少しだけ読みやすくするために、ウィンドウの大きさを広げてください (お使いのスクリーンにあわせて調整してください)。Construct > Display > Show Positions を選択して、各ラインの先頭に位置番号を配置します。
塩基配列内のいずれかをクリックして Edit > Select All.. を選択します。Format > Grouping > Group by Tens を選択します。ウィンドウの幅を１行に100文字入るよう調整できる場合は、後に続く手順において、選択範囲を作成する作業が楽になります。
次に、イントロンを定義する必要があります。最初のイントロン (グリーンの色) をダブルクリックします。コンストラクトウィンドウの左下には 200-321 と表示されているはずです。Construct > Features > Define Intron を選択します。これにより、文字がグリーン地に白で表示されるよう選択範囲が反転します。同じ操作を２番目のイントロンに対しても行います。
次のステップは、翻訳したい部分を定義することです。ステップ２(上記) から、コーディング領域は 108～1566 であることが分かっています。このヌクレオチド領域を選択します。コンストラクトウィンドウの左下を見て選択範囲に誤りがないかを確認してください。
次に、Construct > Features > Make Region を選択します。これにより、選択した塩基配列の翻訳ができるようになります。ダイアログボックスに名称を入力し、Protein Sequence チェックボックスにチェックが入っているかを確認します。図 2.76 のようになっているはずです。このウィンドウで正しい設定を行ったら、OK ボタンをクリックします。これにより、エキソン領域のコドンを読み取り、イントロン領域の塩基配列を読み飛ばすことによって翻訳されたタンパク質を確認できるはずです。エキソン１とエキソン２にまたがるコドンは、実際に２つの部分に分断されている点にご注意ください (agg が ag と g で構成されている)。

図 2.76：グロービング領域の指定
画面をグラフィカルビューに切り替えます (Construct > Display > Display Graphics)。図 2.77 のようになっているはずです。コーディング配列のイントロン部分は非表示になっている点にご注意ください。

図 2.77：完成した G-ガンマグロビンのコンストラクト
最後に一言だけ。シーケンスビューでは、イントロンをひとつを選択したあと、その選択範囲を (シフト＋クリックで) 拡大すると、Construct > Features > Expand Intron を選択することでイントロンを実際に定義しなおすことができます。これにより、イントロンは再定義されますが、翻訳されたタンパク質は自動的には更新されません。既に存在しているタンパク質を失いたくない場合があるので (選択的スプライシングの場面を説明したい場合)、手動でこれを更新する必要があります。

前のページにもどる