Molprint

Molprint 2Dは、Benderら*1によって開発・実装されたフィンガープリントで、
研究目的であればフリーで使えます。
http://www.molprint.com/


今日は、旨味成分のグルタミン酸[ OC(=O)CCC(N)C(=O)O ]から計算してみましょう。
入力ファイルは、MOL2形式限定ですので、Openbabelなどでファイル変換しておきます。

babel -ismi glu.smi -omol2 glu.mol2

実行プログラムは、mol22aefpです。

./mol22aefp glu.mol2 outputfile

何やら暗号のようなものが出力されます。

31;0-1-1;1-1-0;1-1-31;2-1-0; 1;0-1-0;0-2-31;1-1-0;2-1-0; 31;0-1-1;1-1-0;1-1-31;2-1-0; 0;0-1-0;0-1-1;1-1-0;1-2-31;2-1-1;2-1-4; 0;0-2-0;1-2-1;1-1-4;2-4-31; 0;0-1-0;0-1-1;0-1-4;1-1-0;1-2-31;2-1-1; 4;0-1-0;1-1-0;1-1-1;2-1-0;2-2-31; 1;0-1-0;0-2-31;1-1-0;1-1-4;2-1-0; 31;0-1-1;1-1-0;1-1-31;2-1-0;2-1-4; 31;0-1-1;1-1-0;1-1-31;2-1-0;2-1-4;

解説しますと、タブの数が分子中の原子の数で、
それぞれ、最初のセミコロン(;)までの整数が、原子タイプの番号を表しています。

0番 <-- C.3
1番 <-- C.2
4番 <-- N.3
31番 <-- O.co2

「0-a-b」は、「各原子の1つ隣に、a個の原子タイプb番が位置している」ことを示し、
「1-c-d」は、「各原子の2つ隣に、c個の原子タイプd番が位置している」ことを示し、
「2-e-f」は、「各原子の3つ隣に、e個の原子タイプf番が位置している」ことを示します。
このようにして、それぞれの原子の近隣における原子タイプの配置からMolprintが計算されます。


これをふまえたうえで、tanimoto.plを使うことにより、
フィンガープリント間で類似性(Tanimoto係数)が計算できます。

*1: Bender et al. Molecular similarity searching using atom environments, information-based feature selection, and a naive bayesian classifier. J. Chem. Inf. Comp. Sci. (2004) 44, 170-178