2011-01-01から1年間の記事一覧
ひょんなことから、 「科学・技術フェスタ in 京都2011」の出展資料を準備することになりました。研究室のボスによると、 「くすりがタンパク質に結合する様子を動画で示したい」 とのこと。いま、PyMOLという立体構造表示ソフトで動画を作成しているところ…
遺伝子医学MOOK 別冊 『最新創薬インフォマティクス活用マニュアル』 編者: 奥野恭史 教授(京大院薬) 出版社: (株)メディカルドゥ ISBN978-4-944157-75-4 http://www.medicaldo.co.jp/gene/pharmaco_informatics.html 共著で出版させていただきました。 興…
OpenBabelに「obgrep」という部分構造検索コマンドがあるのですが、 CDKのUniversalIsomorphismTesterクラスとどちらが優れているか検証してみようという企画です。【比較条件】 QueryはSMILES形式の環構造。 検索対象DBは、DrugBankの6620化合物(SDF形式)…
(編集中)
わざわざ3次元座標を生成しなくても、 各原子の原子タイプから回帰分析により近似できる記述子があります。 たとえば、疎水性(XLogP)、表面積(TPSA)、そして今回、 分子の体積を求めます。 Zhaoら*1によると、 以下の式でファンデルワールス体積Vが近似…
先週までのcanonicalな話は、 ECFPというフィンガープリントを実装するための準備だったのですが、 長引きそうなので、少し休題。 さて、気をとり直して次の話題に。 電子の分布を数値で表す「E-state指標(electrotopological index)」*1です。 まず、有機化…
各原子に割り当てられた素数の積と 並び替えらた原子の中間順位を出力してみます。 /* inv_label_EC.java */import java.io.*; import org.openscience.cdk.interfaces.*; import org.openscience.cdk.io.iterator.IteratingMDLReader; import org.openscien…
前回のつづき。原子のラベル付けを何回か繰り返してcanonical labelを生成する というプロセスについて書きかけたので、続けてみます。 ペンタン分子(C-C-C-C-C)の場合、まず原子の状態を数値化して、 10106003--20206002--20206002--20206002--10106003 …
前回のつづき。 Canonical SMILES文字列を生成するためには、 まず、文字列の開始点となる原子を決定しなければなりません。 そのために、それぞれの原子がどのような環境にいるかを数値化して、 その順番に原子を並べ替える、というのがひとつの方法です。 …
ふたつの化学構造が同一構造なのか、手っ取り早く知りたいとき、 "Canonical (正準化された)" SMILES形式を使うと便利です。 化学構造を"通常の"SMILES形式で表現しようとすると、一意に定まらないことがあります。 たとえば、エーテル(diethyl ether)の場…
CRANのenrichvsパッケージにメールアドレスを載せていた影響なのか、 先日質問メールがとどきました。どうやら、Truchonらの論文*1を読んで ExcelでBEDROCを計算しようとして躓いているご様子。 従来より、スクリーニングの性能評価には、 エンリッチメント…
ファーマコフォア (pharmacophore)とは、分子構造の抽象的な特徴を3次元空間上に配置したものです。 たとえば、2つの窒素原子と1つの酸素原子が以下のように配置した ファーマコフォアを定義してみます。 CDKのPharmacophoreMatcherクラスを使って、この…
最近は、論文誌の種類が増えて、 先行文献を網羅的に把握することが難しくなってきています。 また、過去に読んだ論文でも、 あの文章はどの論文のくだりだったか、思い出すだけでもひと苦労です。 このブログで紹介した文献も10種類を超えましたので、これ…
さきの記事で、「分子骨格(molecular framework)」を定義しました。 今回はその応用編です。 Yangらは、標的タンパク質選択性(最近流行のキーワードでもあります)との関連性に注目しました*1。 f_MF = (「分子骨格」内の重原子数) / (全体の重原子数) と定…
祇園祭。周辺には山鉾が配置され、多くの人で賑わっているところです。 山鉾の骨格には釘を一切用いず、荒縄で木材を丁寧に結って組み立てます(縄がらみと呼びます)。 直感的に強度が心配になりますが、実はそのほうが靭やかで強い構造になるらしく、 特に…
せっかくcdk-1.3.12をインストールしたので、新クラスを使ってみます。 非常にシンプルなLogP計算手法が実装されています。 なんと、「炭素数」と「ヘテロ原子数」の2変数だけから回帰します(参考までに、XLogPは90変数)。 logP = 1.46 + 0.11 x (炭素数) …
I fixed sum bugs in a CRAN package 'enrichvs-0.0.4', and updated to version '0.0.5'. http://cran.r-project.org/web/packages/enrichvs/ An advantage of 'enrichvs' is to draw enrichment curves very easily. It works smoothly even if the number…
これまで cdk-1.2.7 を使ってきましたが、 先日立て続けに更新されたこともあり、 思い切って、開発段階にある cdk-1.3.12 を採用してみることにしました。 (sourceforgeからフリーでダウンロードできます。) ソースコードは移ろいやすいもの。 過去に紹介…
ニュートンが発見した万有引力の法則、 すなわち、2つの物体の質量をM、m、物体間の距離をr、万有引力定数をGとして、 物体間にはたらく力 F = G x M x m / r^2 と表せることは、古典力学のもっとも基本的な公式なひとつです。 Katritzkyら*1は、すべての原…
「直径 = 2 x 半径」 と小学生のときに習いましたが、これは円や球に通用する公式であって、 その他の物体では成立しないことがあります。化学構造も然りです。 まずは、二次元記述子計算のときと同じく、化学構造をグラフと考えてみます。 すべての原子につ…
前回のつづきです。CDKによるコードは以下のとおり。 桁落ちでNaNが出力されないように、ところどころ補正しています。 /* whim_unity.java */import java.io.*; import org.openscience.cdk.interfaces.*; import org.openscience.cdk.io.iterator.Iteratin…
WHIM記述子*1は、代表的な三次元記述子のひとつで、 xyz座標軸を主成分軸に線形変換して数値化する、という特徴を持ちます。 具体的には、原子の座標に物理量(原子量、体積、電荷など)で重みづけしつつ 分散共分散行列を計算し、行列の固有値を求めるとい…
アクオス、ビエラ、ブラビア、レグザ・・・3D化が進むテレビ業界ですが、 三次元情報を使いこなすには、まだ少し時間がかかりそうですね。 分子記述子にも、三次元情報を活用したものが数多く存在するのですが、 今まで紹介してきた一次元/二次元記述子と比…
A CRAN package enrichvs-0.0.4 still has some bugs. ideal curve is plotted upside down when "decreasing=FALSE" is used. probably works well if you flip the sign of scores and use "decreasing=TRUE". plots are influenced by initial order for …
SDF形式のファイルを見やすく表示するビューアは、様々な場面で頻繁に使われるアプリケーションです。 しかし、フリーで提供されているものを探してみると、意外と少ないものです。 以下、ざっとレビューしてみます。 なお、私のPC環境は、Winfows 7 (64 bit…
Molprint 2Dは、Benderら*1によって開発・実装されたフィンガープリントで、 研究目的であればフリーで使えます。 http://www.molprint.com/ 今日は、旨味成分のグルタミン酸[ OC(=O)CCC(N)C(=O)O ]から計算してみましょう。 入力ファイルは、MOL2形式限定で…
予測値(スコア)が出力された後は、その値を実際のラベルと照合して、 予測性能を評価することになります。 バーチャルスクリーニングの分野では、 「エンリッチメント(enrichment)」という概念に則って評価することが度々あります。 これは、「スコア上…
スパース形式のファイルが用意できたので、SVMを実際に動かしてみましょう。 頻用されている実装ソフトは、SVMlightやLibSVMですが、 今回はあえて、Fortranで書かれているp-svmを使ってみます ^^; (以下の手順は、LibSVMでもほぼ同じです)。 まずは、ダウ…
くすりとなりうる化合物を発見するために、コンピュータの力が利用されています。 「バーチャルスクリーニング(VS)」は、生物活性の期待できる化合物を情報技術で絞り込む方法です。 最新の機械学習アルゴリズムを使って、VSの手順を追ってみましょう。 S1…
指紋を認識するアルゴリズムでは、線(隆線)の切れ目や分岐点の座標情報を抽出して 登録/照合を行うタイプが主流だそうです。 これら特徴点の数や位置は人によって異なりますので、個人認証にぴったりというわけです。 化合物にも、フィンガープリント(fin…