化学構造情報のファイル形式
化学構造情報には、定型のファイル形式があり、
さまざまなソフトウェアで互換できるように設計されています。
代表的なものに、
- SMILES (すまいるず)
- SMARTS (すまーつ)
- SMIRKS (すまーくす)
- InChI (いんち)
- SDF (えすでぃーえふ)
- MOL (もる)
- MOL2 (もるつー)
があります。それぞれ、格納する情報の特性によって使い分けられます。
このブログで紹介していくプログラムでは、
原則、SMILES形式のファイルを入力として使います。
SMILESの定義については、Wikipediaとその外部リンクに詳述されています。
ファイルに保存するときは、タブ区切りで2列目に化合物名(化合物ID)を
入れることができます。たとえば、
CN1C=NC2=C1C(=O)N(C(=O)N2C)C Caffeine
CN1C=NC2=C1C(=O)NC(=O)N2C Theobromine
CN1C2=C(C(=O)N(C1=O)C)NC=N2 Theophylline
という具合です。
SMILESを使うメリットには、
- 1化合物の情報が1行に収まるので、数百万種類もの化学構造を一つのファイルで扱うことができる
- grepコマンドなどを使い、化合物名に対応する構造をすぐに取り出せる
などがあります。逆にデメリットとして、
- 原子の座標や付加的な情報(文献、実験データなど)を保持できない
- ソフトによっては、読み込み処理に不備があったり、処理時間を要したりする
があります。
とある分子のSMILES形式を知りたいときは、化合物データベースで検索したり、
構造描画ソフトで描画/変換するなどして、その情報を取得します。
例)・PubChemデータベース http://pubchem.ncbi.nlm.nih.gov/
・PubChem構造描画ツール http://pubchem.ncbi.nlm.nih.gov/edit2/index.html
化学構造情報を扱うソフトは沢山ありますが、
このブログでは、手軽に使えるフリーウェアを、
具体的には、主にCDK (Chemistry Development Kit) を、
場合によってはOpenBabel、PerlMol などを使います。
インストール手順や各プログラムの実行方法については、
くわしく説明しているサイトが既にありますので、
そちらをご参照ください。
プログラムに関しては、
できるだけブラックボックスにならないように、
関数やメソッドを使い分けていきたいと思います。