化学構造情報のファイル形式

化学構造情報には、定型のファイル形式があり、
さまざまなソフトウェアで互換できるように設計されています。
代表的なものに、

  • SMILES (すまいるず)
  • SMARTS (すまーつ)
  • SMIRKS (すまーくす)
  • InChI (いんち)
  • SDF (えすでぃーえふ)
  • MOL (もる)
  • MOL2 (もるつー)

があります。それぞれ、格納する情報の特性によって使い分けられます。


このブログで紹介していくプログラムでは、
原則、SMILES形式のファイルを入力として使います。
SMILESの定義については、Wikipediaとその外部リンクに詳述されています。
ファイルに保存するときは、タブ区切りで2列目に化合物名(化合物ID)を
入れることができます。たとえば、

CN1C=NC2=C1C(=O)N(C(=O)N2C)C Caffeine
CN1C=NC2=C1C(=O)NC(=O)N2C Theobromine
CN1C2=C(C(=O)N(C1=O)C)NC=N2 Theophylline

という具合です。
SMILESを使うメリットには、

  1. 1化合物の情報が1行に収まるので、数百万種類もの化学構造を一つのファイルで扱うことができる
  2. grepコマンドなどを使い、化合物名に対応する構造をすぐに取り出せる

などがあります。逆にデメリットとして、

  1. 原子の座標や付加的な情報(文献、実験データなど)を保持できない
  2. ソフトによっては、読み込み処理に不備があったり、処理時間を要したりする

があります。


とある分子のSMILES形式を知りたいときは、化合物データベースで検索したり、
構造描画ソフトで描画/変換するなどして、その情報を取得します。
例)・PubChemデータベース  http://pubchem.ncbi.nlm.nih.gov/
  ・PubChem構造描画ツール http://pubchem.ncbi.nlm.nih.gov/edit2/index.html


化学構造情報を扱うソフトは沢山ありますが、
このブログでは、手軽に使えるフリーウェアを、
具体的には、主にCDK (Chemistry Development Kit) を、
場合によってはOpenBabelPerlMol などを使います。
インストール手順や各プログラムの実行方法については、
くわしく説明しているサイトが既にありますので、
そちらをご参照ください。


プログラムに関しては、
できるだけブラックボックスにならないように、
関数やメソッドを使い分けていきたいと思います。