E-state指標

先週までのcanonicalな話は、
ECFPというフィンガープリントを実装するための準備だったのですが、
長引きそうなので、少し休題。


さて、気をとり直して次の話題に。
電子の分布を数値で表す「E-state指標(electrotopological index)」*1です。


まず、有機化学の基礎から。
共有結合は、σ結合とπ結合から構成されています。
π結合はσ結合より弱いため、
π結合上の電子(π電子)は、孤立電子対のように、
求電子剤と反応しやすい性質を持ちます。
では、そのような反応性電子の存在状況を原子ごとに数値化してみます。


ある原子をi、その価電子の数をδ_i、σ電子の数をσ_i、主量子数をn_i としたときに、
 I_i = ( (2/L_i)^2 x δ_i + 1 ) / σ_i
を「固有状態(intrinsic state)」と呼びます。
σ電子の数に比べてπ電子や孤立電子対の数が多い原子ほど、
すなわち電子豊富な原子ほど、I_iが大きくなります。
たとえば、メチル基(-CH3)の炭素では、I_i = 2 なのに対して、
カルボニル酸素(=O)では、I_i = 7 となります。


そして、原子間の電子による影響ΔI_iを考慮して、
E-state指標 S_i を以下のように定義します。
 S_i = I_i + ΔI_i = I_i + Σ{ (I_i - I_j) / (d_ij + 1)^2 }
ここで、d_ij は、原子i,j間の距離(経路長)です。
Σは、原子jについて足しあわせます。


分子単位で数値化するときには、
すべての原子のE-state指標 S_i を足しあわせます。
これは固有状態和(intrinsic state sum)と呼ばれているようです。


CDKでは、固有状態の計算までは実装されておらず、
電子の状況で分類された原子タイプの頻度を数えるKierHallSmartsDescriptorクラスが
あるのみです。その名の通り、SMARTSパターンで検索しています。
E-stateの実装は難しくないのですが、
単に頻度を出力する方が実用的なのかもしれませんね。

*1: Hall and Kier, Electrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information. J. Chem. Inf. Comput. Sci. (1995) 35, 1039-1045