ビッグデータ創薬で薬剤の毒性や副作用を予測することも可能に

――ビッグデータ創薬とAI創薬は異なるということですが、それぞれのアプローチについて、具体的にどういったことを行うのですか。

 まずビッグデータ創薬について。一番簡単なものにプロファイル創薬というのがあります。健常な人に薬剤を投与したときと、健常な人が疾患したときでは、異なる遺伝子発現プロファイルが得られます。両者が正反対の状態であれば、疾患のある人にその薬剤を投与すれば疾患を治癒できるのではないかと直感的に予測できます。

 ある疾患にかかったときに、どんな遺伝子発現プロファイルになるかは、GEO(Gene Expression Omnibus)というビッグデータベースがあって、70万プロファイルも入っています。一方、薬剤を入れたときの遺伝子発現プロファイルについては、米国ブロード研究所の天才集団がCMAP(Connectivity MAP)というものをつくりました。5種類のがんの培養細胞に1309の化合物を与えると、約7000の遺伝子発現プロファイルが得られるというデータベースです。両者のパターンを比較して逆相関であれば、薬剤の有効性が期待できるというわけです。また、疾患時と薬剤投与時の遺伝子発現プロファイルが正の相関関係にあれば、その薬は毒性・副作用を持っていることが予測できます。

 さらに2011年には興味深い論文が発表されました。53の疾患に対して164の薬剤・化合物を投与し、どのような反応が生じるかを、ビッグデータを使って予測し、疾患―薬剤マップという鳥観図をつくりました。従来、薬と疾患の関係は1つひとつ調べて、有効性や毒性を検証する必要がありましたが、いまでは、ビッグデータに基づく鳥観図で一目瞭然というわけです。これを活用すれば、薬剤適応を拡大するドラッグ・リポジショニングも容易にできるようになります。

 また別の方法、すなわち遺伝子発現プロファイルの類似性に基づいて、疾患を分類し直すと、心筋梗塞とデュシェンヌ型筋ジストロフィーが新しい疾患分類の非常に近いところに位置することがわかりました。心筋梗塞は循環器疾患で、ジストロフィーは神経の先天的疾患です。従来は、だれも両者が近いところに位置するとは思いません。しかし、よくよく考えると、どちらも慢性持続性の筋肉の炎症です。そうすると、心筋梗塞の薬がひょっとするとジストロフィーにも効くのではないか、そんな話もあります。

 次にAI創薬、ディープラーニングの創薬への応用です。製薬業界に大きなインパクトを与えたのは、2012年、データサイエンスの競技会Kaggleで米国大手製薬会社のメルク社が出題した「モレキュラー・アクティビティ・チャレンジ」です。15種類の生体の標的分子に対し、約1万の化合物を与えて有効性を計算するもので、化合物の属性値は3000次元にものぼります。これを学習させて、標的分子に対する化合物の生物学的活性を予測します。優勝したのはトロント大学のジェフリー・ヒントン教授の2人の教え子でした。いずれも情報科学の研究者で、医薬品化学者は1人もいません。驚いたのはメルク社です。何百人もの精鋭がいる大製薬会社の研究室が長年にわたって築いた成果を、わずか2人の学生が開発したマルチタスク・ディープラーニングによって追い抜かれてしまったのですから。

 これに続いて、ChEMBL(ケンボル)という化合物の大データベースに対するディープラーニングを活用した研究が行われ、さらに2015年には、スタンフォード大学のパンデ研究室とグーグルが共同で、2000程度の標的分子に対して、4000万種の化合物の有効性を調べるバーチャル・ドラッグ・スクリーニングの研究が行われ、大きな話題となりました。