連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリkMoLをリリース
株式会社Elix
「創薬を再考する」をミッションとしたAI創薬企業の株式会社Elix(代表取締役: 結城 伸哉 (ゆうき しんや)/ 本社:東京都千代田区、以下「Elix」)は、京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授との継続的な議論を元に、連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリkMoLを2021年10月20日オープンソースとしてリリース致しました。
kMoLは、創薬・ライフサイエンス分野における分子を対象とした機械学習モデル構築のためのライブラリです。本ライブラリは、京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らがオープンソースとして開発してきた創薬・ライフサイエンス向けAIライブラリkGCNで得られた知見をもとに改良を加えたものであり、化合物データの分子構造やパスウェイなどライフサイエンスで広く有用とされるグラフ構造を扱うことのできるグラフニューラルネットワークも含まれています。
kMoLの最も大きな特徴の一つは、公開されているAI創薬向けライブラリとしては唯一、「連合学習(Federated learning)」の機能を有することです。連合学習はセキュリティを担保しながら膨大なデータにアクセスできるため、製薬業界における化合物データのような機密性の高い情報を扱うための学習方法として近年注目を集めており、kMoLの一機能として連合学習ライブラリElix Milaが組み込まれました。
このように応用範囲の広い先端的なモデルやそれらを学習するための膨大なデータへのセキュアなアクセス機能をサポートしているため、製薬会社や化学メーカーといった業界での活用が見込めます。
<kMoLの機能と特徴>
kMoLは、以下のような代表的な機能と特徴を持ちます。
◆連合学習をサポート
連合学習(Federated learning)とは、データを集約せず分散した状態のまま(社外にデータを出すことなく)、学習を行う機械学習の手法です。通常、機械学習ではデータを一箇所に集めて学習を行いますが、機密性の高いデータを扱う業界ではデータの共有が難しいことから連合学習を活用しデータのプライバシーやセキュリティを守る手法が注目を集めています。
kMoLは、Elixが開発した連合学習モジュールElix Milaを組み込んでおり、AI創薬向けとして公開された中では、唯一、連合学習(Federated learning)機能を有している機械学習ライブラリです。本ライブラリを利用することで、化合物データの機密性を損なうことなく、より多くのデータを活用して学習を進めることが可能となります。機械学習では学習に用いるデータ量がモデルの精度にも大きく影響を及ぼすため、本ライブラリに含まれている予測モデルをはじめとしたモデルの精度改善が見込まれます。
◆グラフベースの予測モデルをサポート
kMoLがライフサイエンス向けの機械学習ライブラリであるといえる一番の特徴は、最先端の予測モデルであるグラフベースの予測モデルを連合学習とシームレスに利用可能であることです。化合物データの分子構造をグラフ表現として入力できる予測モデルは、化合物の分子構造全体に関する情報を表現可能とするもので、学習の精度もより高まると考えられます。
またkMoLでは、ADME(A:吸収 / absorption、D:分布 / distribution、M:代謝 / metabolism、E:排泄 / excretion)、毒性、結合親和性のデータセットでの検証も行っています(結果は付属ドキュメントを参照)。任意のデータセットで任意のタスクの学習・予測を行うことも可能です。
◆その他特徴
その他のkMoLの特徴として、機械学習フレームワークPyTorchで利用可能な点が挙げられます。ElixがkMoLの開発に着手した際、連合学習機能を有する機械学習ライブラリの多くは、機械学習フレームワークTensorFlowをベースとするものでした。PyTorchは手軽にモデルを実装できることから現在最も人気のある機械学習フレームワークの一つとなっており※、より多くのユーザーに利用してもらうためにkMoLではPyTorchをベースにしたモデル開発をサポートしています。
※The Gradient発表”The State of Machine Learning Frameworks in 2019”(2019年10月)より。
https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/
直近のデータはhttp://horace.io/pytorch-vs-tensorflow/ より参照可能。
他にも、データプライバシーの保護のために、いくつかのモデルは差分プライバシー(Differential privacy)という手法をサポートしています。これは、予測精度への影響を最低限に抑えつつ、どのデータがモデルに寄与しているかどうかを区別できなくする手法です。
また、GPU・CPUの双方で動作が可能といった特徴も挙げられますが、これらも同様に先行してリリースされていた連合学習機能を有する機械学習ライブラリには対応されていなかった特徴になります。
本プロジェクトに対する株式会社Elix代表 結城 伸哉からのコメント
弊社が保有するElix Milaという連合学習モジュールとkGCNベースに、共同で作り上げてきたライブラリをオープンソースとして公開できることを本当に嬉しく思っています。連合学習と予測モデルを組み合わせることで、一つの組織では成し得ないことを実現できるようになります。このライブラリが創薬研究を加速し、この分野の発展に貢献できることを期待しています。
本プロジェクトに対する京都大学大学院 医学研究科 奥野 恭史教授からのコメント
近年のAIの目覚ましい進展は、医薬品開発においても強烈なインパクトを与えています。我々はこれまでに小島講師が中心となって、薬剤の化学構造や生体の分子ネットワークを扱う深層学習技術を開発し、世界をリードする創薬AIプログラムの開発を行ってきました。今回、Elix社において、これまで我々が開発してきた技術に加え、連合学習のパッケージを開発するとともに、創薬AIライブラリ”kMoL“として公開するに至っています。Elix社を通じて産業界に当ライブラリが普及することを期待しています。
kMoLは小島 諒介講師、奥野 恭史教授らの研究チームが開発してきた創薬AIライブラリ“kGCN” ※を発展させたものである。本ソフトウェアの連合学習機能は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発(DAIIA)」事業における「最先端のAI技術を用いたマルチターゲット予測と構造発生を組み合わせた包括的な創薬AIプラットフォームの開発」課題の一貫として開発した。
また、マルチモーダルニューラルネットワークは新エネルギー・産業技術総合開発機構NEDO「薬開発を効率化・加速する製剤処方設計AI の開発」の成果で蓄積した知見を取り入れており、大規模なグラフニューラルネットワークは官民研究開発投資拡大プログラムPRISM「新薬創出を加速する症例データベースの構築・拡充/創薬ターゲット推定アルゴリズムの開発」の成果で蓄積した知見を取り入れたものである。
※ R.Kojima, S.Ishida, M.Ohta, H.Iwata, T.Honma, Y.Okuno: kGCN: a graph-based deep learning framework for chemical structures. In Journal of Cheminformatics, Springer, Vol. 12 pp. 1-10, 2020.
<連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ:kMoL概要>
名称:kMoL (Machine Learning library for Molecular systems)
概要:連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ。連合学習・グラフベースの予測モデルをサポートするなどの特徴を持つ。
リリース日:2021年10月20日
オープンソースURL:https://github.com/elix-tech/kmol
なお、本ライブラリの一部は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発事業(DAIIA)」において委託研究契約を締結している京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らからの業務委託を受け、株式会社Elixに至っています。
株式会社Elixについて
「創薬を再考する」をミッションとしたAI創薬企業。開発に膨大な時間とコストのかかる創薬の効率を大幅に改善するために、ディープラーニング・機械学習等の最先端技術を応用し、製薬企業、化学メーカー、大学等のクライアント向けに事業を展開。
詳細はウェブサイトをご覧ください https://www.elix-inc.com/jp
京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らについて
京都大学大学院 医学研究科 人間健康科学系専攻ビッグデータ医科学分野の小島 諒介講師、奥野 恭史教授らは、京大病院の実臨床データを用いた医療ビッグデータ解析・医療シミュレーションや、スーパーコンピュータ「富岳」を用いた創薬シミュレーション・ビッグデータ創薬の新たな方法論開発に取り組み、医療応用と創薬応用を目的としたシミュレーション科学とデータ科学の開拓を目指しています。
ホームページ:http://clinfo.med.kyoto-u.ac.jp/