PaDEL-descriptor

記述子計算のフリーソフト「PaDEL-descriptor」を見つけました*1
実装内容は、

  • 1D, 2D記述子 663種類
  • 3D 134種類
  • フィンガープリント 10種類

とのことです。CDKをベースとして、さらにフィンガープリントを充実させている様子です。
まずは、とりあえずダウンロードして、2D記述子を計算してみました。

java -jar PaDEL-Descriptor.jar -2d -dir -file

デフォルトのオプションでは、コンマ区切りファイルで出力されます。

Name,ALogP,ALogp2,AMR,apol,naAromAtom ...
"DB00117",-3.863599999999999,14.927404959999993,31.68660000000000 ...
"DB00114",-3.1229999999999998,9.753128999999998,50.41760000000001, ...

100化合物を過ぎた頃から、いっきにスピードダウン。メモリが解放されていないです・・・
250あたりでフリーズ。I/Oを分割したほうが良さそうですね。


一方、フィンガープリント計算は、順調に進みます。

java -jar PaDEL-Descriptor.jar -fingerprints -dir -file

出力はPubChemFPだけ?

*1: Yap. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. J Comput Chem. (2011) 46, 1466-1474 PubMed