PaDEL-descriptor
記述子計算のフリーソフト「PaDEL-descriptor」を見つけました*1。
実装内容は、
- 1D, 2D記述子 663種類
- 3D 134種類
- フィンガープリント 10種類
とのことです。CDKをベースとして、さらにフィンガープリントを充実させている様子です。
まずは、とりあえずダウンロードして、2D記述子を計算してみました。
java -jar PaDEL-Descriptor.jar -2d -dir
-file
デフォルトのオプションでは、コンマ区切りファイルで出力されます。
Name,ALogP,ALogp2,AMR,apol,naAromAtom ...
"DB00117",-3.863599999999999,14.927404959999993,31.68660000000000 ...
"DB00114",-3.1229999999999998,9.753128999999998,50.41760000000001, ...
100化合物を過ぎた頃から、いっきにスピードダウン。メモリが解放されていないです・・・
250あたりでフリーズ。I/Oを分割したほうが良さそうですね。
一方、フィンガープリント計算は、順調に進みます。
java -jar PaDEL-Descriptor.jar -fingerprints -dir
-file
出力はPubChemFPだけ?
*1: Yap. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. J Comput Chem. (2011) 46, 1466-1474 PubMed