制限酵素

ミトコンドリア・イブの話しでは、mtDNAの解析は12の「制限酵素」で切断した断片の有無が比較されたらしい。パズル的な関心で調べてみる。
これはWikipediaによれば、II型制限酵素の話しであるらしい。

回文(Palindrome)

どうやら、制限酵素は回文になっている場所を認識して切断すると言うことで、相補鎖全体が回文になっているわけでははい。最初の塩基と最後の塩基には関連がないので当然だ。
では、どんな場所が回文になるのか。
これは、偶数の組でしか起きないのはわかる。必ず塩基対の記号は異なるので、奇数では回文にならない。HinfI の場合、GAnTC を認識するが回文にはならない。
これ以上は考えられないので書き出してみる。短いものは長いものの部分であり得、重複してカウントされている。最大は16文字だった。（7328 COX1）

string ComplementaryPairString()
{
char[] p = new char[HomoSapiensMitochondrion.Origin.Length];
for (int i = 0; i < p.Length; i++)
{
char c = HomoSapiensMitochondrion.Origin[i];
switch (c)
{
case 'a': p[i] = 't'; break;
case 't': p[i] = 'a'; break;
case 'c': p[i] = 'g'; break;
case 'g': p[i] = 'c'; break;
default: p[i] = c; break;
}
}
return new string(p);
}
void palindromic()
{
// 環状なのでそれそれ2つを連結して終端部分を特別に処理しなくても良いように
string H鎖 = HomoSapiensMitochondrion.Origin;
H鎖 = H鎖.Replace("n", ""); // 3107の欠番除去。0-16567で使う。
int 鎖長 = H鎖.Length; // 16568
H鎖 += H鎖;
string L鎖 = ComplementaryPairString();
L鎖 = L鎖.Replace("n", ""); //3107の欠番除去。0-16567で使う。
L鎖 += L鎖;
// 一致箇所の記録
SortedList<string, int> 記録 = new SortedList<string, int>();
// 1塩基ずつ進める
int p = 鎖長;
for (int i = 0; i < 鎖長; i++)
{
// 最遠端から回文になっていないか調べる
for (int j = 0; j < 鎖長; j++)
{
bool isPalindrome = true;
for (int k = 0; k < 鎖長 - j; k++)
{
if (H鎖[i + k] != L鎖[i + 鎖長 - j - k - 1])
{
isPalindrome = false;
break;
}
}
if (isPalindrome)
{
// 回文になっている
int 一致した長さ=鎖長 - j;
string key = H鎖.Substring(i, 一致した長さ) + " "
+ L鎖.Substring(i, 一致した長さ);
if (記録.ContainsKey(key))
{
記録[key]++;//記登録。カウントアップ
}
else
{
記録.Add(key, 1);//未登録。追加する。
}
}
}
}
foreach(string key in 記録.Keys)
{
Debug.WriteLine(記録[key] + " " + key);
}
}

どんな箇所でどれぐらいに切れるのか

「gantc」を検索してみた。左図の黒い印が認識サイト。
すべて試すと計365となった。
ミトコンドリア・イブの話しでは、この12の制限酵素で、147人のサンプルから467サイトが確認された。平均370サイト、195の多様性があった。195について、少なくとも1人は持っていない人がいることを意味する。これをもとに 133 の型にわけられた。
このことから、各人については、272サイトほどは共通で、98サイトほどが他の人と一致しない可能性のある部分と言うことだと思う。

制限酵素と塩基番号

    制限酵素を使った分析からわかる突然変異箇所の塩基番号とハプログループに関する記述を拾っておく。
    AvaII を見てみる。ｒCRSで検索すると、認識位置は以下のようになる。
    塩基番号8249とは無縁なようだ。

    8249は、遺伝子 COX2 にある。アミノ酸をコードしている。
    Fig4.1 のように 8249 はトリプレットの先頭で、実際の変異箇所が 8251 と言うことらしい。
    この変異は、1塩基置換で、変異前(ggg)も変異後（gga）も G(グリシン) を指す同義置換。

変異の結果、8249 から、ggacc となるので、AvaII の認識サイトになる。

おそらく遺伝子上の変異なので早くから知られ、アミノ酸の位置で呼ばれていたものに、塩基番号を対応させて 8249 と記していたものと推測する。

ｒCRSなら 8 に分割されるものが、この変異で9に分割されることになり、ｒCRSと一致するものが7、一致しないものが2できると言ったことが想像できる。
やはり、制限酵素の話しは、全塩基配列を比較する話しとは同じでないように思える。

各部の名称と塩基配列

mtDNAは、閉環状2重鎖で、H鎖（重鎖）、L鎖(軽鎖)からなる。
NBCIのデータには、部位の名前らしいものが付いている。それ以外にも呼び名があるようだ。
2つのリボソームRNA、22のtRNA、13のタンパク質を指す37の遺伝子がある。
それぞれの部位は、648..1601 RNR1 のように、塩基番号で示されている。

相補鎖

H鎖の相補鎖がL鎖で、閉環状を成している。ヌクレオチドの接続状態には特別な差異はないようで、どうやって塩基番号1を決めているのかはわからない。
5'端、3'端の分子の向きが異なる。このことは、トリプレットを解釈する際に意味を持つ。H鎖、L鎖とも同じコード表を使って変換するなら、H鎖上の gat の箇所は、agc ではなく cga を引く必要がある。

突然変異の表記

塩基番号は1から16,569で表され、3107は欠番（塩基番号は存在するが塩基は割り当てない）。
ただし、実際のサンプルを調べれば、長さが異なり、どこが3107なのかも直ちにはわからない。
塩基番号は、rCRS の塩基配列に基づいている。差異は数パーセント以下なので、rCRSを基準にして、3107の位置や挿入欠失も表せる。
ただし、ハプロタイプに関連した話題の場合で、医療など変異自体の性質の話しでは、ｒCRS と比較しなければならない必然性はない。

A750G は、塩基番号750のAがGに変わる変異を表すようだ。塩基番号309.1Cは、309にCが挿入される変異を表している。
この表記は、考えてみると難しい。

rCRSが基準なら

健常者が基準なら

何が健常者かはともかく、医療では集団内の分布状況が注目されるものと想像する。「孤発性患者の50％以上でxxx遺伝子に突然変異が認められる。」のような場合の「突然変異」は、大多数の人と異なると言うことだと思う。
こうした話しでは、遺伝子名や並列を表記する方法が採られ、必ずしも塩基番号を使う必要性はない。
実際、750Gのような記法は使われないようだ。

ハプロタイプを決めるなら

ハプロタイプを決めるためなら、特徴となる塩基番号と塩基を記せば良い。
この場合は、前の塩基は出てこないので、263G のような記述になる。実際には、番号だけのものもある。
これは、検査方法が何かとの比較を行うもので、差異として検出された場所だけが判定に必要だからだと推測する。

ｒCRSの突然変異

ｒCRSは、ハプログループ H2a2 であるらしい。これと比較する場合は、H2a2の変異を除いてみる必要がある。

mikeo_410