若手ディープテック研究者の育成を支援する産業技術総合研究所(産総研)の「覚醒プロジェクト」。この連載では、2023年度の覚醒プロジェクトに採択された研究者の研究内容を紹介する。
今回は、タンパク質の変化を機械学習モデルでシミュレーションする手法を開発する、東京大学大学院 農学生命科学研究科応用生命工学専攻の大村拓登さんだ。
- 研究実施者:大村拓登(東京大学大学院)
- 研究テーマ:タンパク質の高精度シミュレーションに向けた、大規模データセットの作成と量子化学的性質を反映した機械学習モデルの開発
- 担当PM:瀬々 潤(ヒューマノーム研究所 代表取締役社長)
未来の新薬開発を加速する
「タンパク質の動きが3Dアニメーションで見えるんです。自分の考えた通りにプログラムが走って分子シミュレーションできると、実際のものづくりのような達成感が得られます」
覚醒プロジェクトに採択された東京大学大学院の大村拓登さんの研究は、新薬創出などの裾野を大きく広げる可能性を持つ。もう少し詳しく説明すると、「誰もが簡単にタンパク質と基質(タンパク質と特異的に結合する分子)の結合をシミュレーションできる未来」を創造することだ。
病気の解明や新薬開発には、生体内でタンパク質がどのような挙動をするのか、詳細な3Dイメージングが欠かせない。大村さんはまず、タンパク質と基質の結合作用を予測する機械学習モデルを作成し、それを基に高速なシミュレーション手法の構築を目指す。
機械学習モデルが確立できれば、システムにタンパク質の構造を入力するだけで、エネルギーが自動で算出され、反応の進み方がシミュレーションできる。疾病の原因タンパクに結合して機能を阻害する薬の設計がコンピューター上で可能だ。大村さんは新薬創出などの研究環境そのものを進化させたいともくろむ。
「新薬開発は10年以上の時間と数百億以上もの費用をかけながら、成功率は2.5万分の1とされています。シミュレーションだと実際に実験するより、はるかに低コスト・短時間で済みます。この研究分野が進歩すれば、創薬の効率を上げるだけでなく、採算が見合わなかった希少疾患向けの薬も積極的に開発可能になるかもしれません」
0.5フェムト秒の世界
AI技術を活用した各種シミュレーションは進化がめざましい。特に分子量が1万までの低分子化合物では、高精度な計算シミュレーションに留まらず、深層学習でより高速化する技術が普及しつつある。Preferred NetworksとENEOSが共同開発したMatlantisでは、従来は数カ月かかった原子レベルの物理シミュレーションがわずか数秒で完了する。
しかし、タンパク質は平均分子量が数万と大きく、周辺環境の影響を大きく受けるためパラメーターが多くなる。アミノ酸配列から立体構造を予測するAlphaFold2が2020年にディープマインドから発表されゲームチェンジャーと脚光を浴びたが、タンパク質―基質複合体(以下、複合体)の機械学習による高速/高精度シミュレーション技術については報告が少ない。言い換えれば、難易度が高いために手つかずの領域である。そこに切り込むのが大村さんだ。
機械学習には、質の良い教材(データセット)が必要だ。大村さんは公開データベース(PDBbind)から、すでに構造が判明している複合体のデータセットを選出し、0.5フェムト秒(1フェムト秒=1ナノ秒の10-6)ごとに複合体の変化をサンプリングする。
「反応の過程では結合が切れたりつながったりしながら、エネルギーの壁を乗り越えるように反応が進んでいきます。複合体の構造とエネルギーを計算し、反応がどのように進むのかを明らかにします」
登山のようなエラー修正の日々
エネルギー算出で大村さんが採用したのは、量子力学(Quantum Mechanics: QM)と分子力学(Molecular Mechanics: MM)を併せた手法だ。QMは電子の挙動を考慮した方程式を用いることで、原子レベルでのシミュレーションが可能な、比較的高精度な手法だ。しかし高すぎる計算コスト*がネックだ。古典力学を用いるMMはQMに比べ精度が落ちるものの、計算コストを抑えることができる。
そこで大村さんは、反応が起こる重要な部分(活性中心)のみにQMを適用し、その他の大部分はMMを用いた「いいとこ取り」を採用した。
*シミュレーションを完了するために必要な、各タイムステップの実行時間、メモリ、電力消費などを含んだトータルのリソース量
QMとMMは炭素-炭素の一重結合で切断し、水素を結合させて切り分ける。この工程もスクリプトを作り自動化したが、Ryzen 7950X3D + RTX 4090を採用した計算機5台でも、24時間走らせっぱなしで1カ月を要する。
しかも、順調にデータセットの作成が進むとは限らない。大村さんの研究でも、当初想定していた割合以上でエラーが発生していることに気づき、自動でエラーを修正するスクリプトによる前処理工程を追加した。工程にはさらに2週間が追加された。たった1つのデータセットを作るだけでも、非常に労力がかかる。
「QM/MM法では、初期状態に少しでも問題があると正しい結果は得られません。エラーの発見は経験と直感が物を言う世界です。そもそも、元にしているデータベースも完全なものではなく、研究者ごとに登録形式が微妙に異なるなどばらつきが見られます。前処理で整える必要があります」
体感的には、高校生のときに始めた登山にとても似ているという。
「どうしてもエラーは発生しますが、エラーの原因を突き止め、修正し、思い通りに動いたときの達成感は、一歩ずつ山道を歩み、ようやく登頂できたときの清々しさに似た感覚があります」
研究者として自信をくれた覚醒プロジェクト
中学生時代に手に取った『サピエンス全史』(ユヴァル・ノア・ハラリ著)に書かれた、「生物学者と情報学者がこれからの世界を変えていく」というメッセージに強く心を揺さぶられた大村さん。これからは人工知能や情報技術の重要性が高まると確信し、もともと興味を持っていた生物学に加え、情報分野にも手を広げた。
早稲田大学で化学と生物を学び、研究室配属後にインフォマティクスや分子シミュレーションを本格的に開始。ここでは中学生のときにロボット製作で楽しみながら身につけた、Pythonの知識が役に立った。
タンパク質の相互作用予測をより深く研究するため、大学院は東京大学の生物情報工学研究室へ進んだ。自分のやりたいことに集中できる研究者という職業に興味を持った一方で、自分にできるのか不安で将来を模索していたときに、覚醒プロジェクトを知ったという。
「SNSでたまたま覚醒プロジェクトを見かけて、自分にもチャンスがあるんじゃないかと応募しました。まだ修士の後に博士へ進むか就職するか悩んでいましたが、プロジェクトの採択を受け、『自分も研究者としてやっていけるのでは』という自信がつきました。いただいた研究費のおかげで解析に必要な機材を購入できたことも大きな助けです」
覚醒プロジェクトに採択されてよかったことの一つが、他の研究実施者の存在だという。資料のわかりやすさ、プレゼンの上手さ、レベルの高さに圧倒された。しかしそれが大きな刺激となり、モチベーションを上げる糧となった。
産業技術総合研究所(産総研)の施設が利用できる点も研究を大きく後押しする。所属ラボのコンピューターも性能は悪くないが、産総研のABCI(AI橋渡しクラウド)のスペックは桁違いだ。
「春からデータセットの拡充や機械学習モデルの学習に本格的に使っていく予定で、今から楽しみです」
大村さんがいるのは恐ろしいほどのスピードで日々進化する分野だ。最先端の知識をキャッチアップするのは大変だが、できることが加速度的に広がるおもしろさが苦労を吹き飛ばす。バックアップするプロジェクトマネージャー、瀬々 潤さん(ヒューマノーム研究所 代表取締役CEO)の存在も大きい。
「機械学習の専門家ですので、スクリプトのエラーが起きたときにも質問しやすいですし、質問するための資料作りを通して自己理解が深まり、アイデアが思い浮かぶという思いがけない効果がありました」と言う。
SFの世界が現実になる瞬間に生きる
データセットがそろい、いよいよ機械学習モデルに着手する。
「酸素と水素の振動を見るために、0.5フェムト秒ごとにフレームを切り取ります。つまり、1ナノ秒の反応を見るためには200万フレームの解析が必要です。たった1ナノ秒であっても、研究室レベルの計算機ではCPUでは28年、GPUでも8年*かかり、QM/MM法が確立されたとしても計算コストが高く実用的ではありません。
そこでQMの計算部分を機械学習(Machine Learning: ML)で代替して高速化するML/MMモデルを考案しました。タンパク質のQM/MMに適用できる機械学習モデルはまだ存在しませんから、文献を検索し、Pythonのフレームワークを参考にしながらオリジナルモデルを開発します」
*QM領域100原子、Gaussian 16による並列計算(AMD Ryzen 7950X3D 32スレッド)、QUICKによるGPU並列計算(RTX3090×2)からの試算
SF小説に書かれた、AIが活躍する未来がどんどん現実世界に降りてくる。大村さんは、そのスピード感には驚くものの、楽しさの方が圧倒的に勝るという。将来は、プログラミングを知らない人でも分子シミュレーションを簡単に行えるソフトウェア開発など、誰もが容易に研究を行うための事業も手がけたいと語る。
「なんておもしろい時代に生きているんだろう」
大村さんは、全力で未来が「今」になる瞬間を楽しんでいる。
■覚醒プロジェクト 公式Webサイト
http://kakusei.aist.go.jp/
この連載の記事
-
ビジネス
「生命工学の研究に没頭できる絶好のチャンス」覚醒PM・東北大の阿部敬悦教授 -
AI
元サッカー青年コンビが挑む「FootballGPT」、試合動画から次の展開を予測 -
AI
未来のAIアシスタントは行動認識で「次はジャガイモ切って」と教えてくれる -
AI
ペロブスカイト太陽電池の材料探索を深層学習で効率化、「次の世代」への責任果たす -
AI
「あはは」も再現? 味気ないAIとのおしゃべりを豊かにする音声対話技術 -
ビジネス
産総研「覚醒プロジェクト」、2024年度の採択者が決定 -
AI
医師とのタッグで挑む、医療用マルチモーダルAIの先駆け的研究 -
AI
「日本の声優のすばらしさ広めたい」アニメの世界観ごと輸出するAI吹き替え技術 -
AI
AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口 -
ビジネス
「まだまだ未熟な量子技術、だからこそおもしろい」覚醒PM・名古屋大学の藤巻 朗教授 -
AI
シャノン限界超え!物理層秘密鍵でセキュアなセマンティック通信を目指す - この連載の一覧へ