このページの本文へ

中の人が語るさくらインターネット 第19回

お互いの領域での知見を生かす「学際的研究」が必要な理由とは、熊谷将也氏

材料工学から情報工学への挑戦、さくらのパラレルキャリア研究者

2020年05月18日 08時00分更新

文● 大塚昭彦/TECH.ASCII.jp 写真● 曽根田元

提供: さくらインターネット

  • この記事をはてなブックマークに追加
  • 本文印刷

ビッグデータと機械学習を用いた新たな材料発見アプローチを研究

 理研AIPセンターで熊谷氏が行っているのは、ビッグデータ/機械学習といった情報工学の知見を材料工学領域に適用するアプローチの研究活動だ。

理研AIPセンターにおける研究テーマの概要。材料工学に対し情報工学の知見を適用するアプローチ

 前述したとおり、熊谷氏は理研AIPセンター 分子情報科学チームにおいて、データ活用による材料工学の高度化に向けた研究に引き続き取り組んでいる。具体的には、材料工学の公開論文から大量の実験データを収集/蓄積したデータベースを構築するためのWebシステムを構築し、その管理運用にあたる役割だ。

 このWebデータベース「Starrydata2」には、熱電材料分野の公開論文データがこれまでに約3600本登録されており、商用利用も含め誰でも無料で利用できる。書誌データに基づく論文検索や論文リストの作成のほか、論文から手作業で抽出/登録された約1万9000試料分の実験データ(熱電特性、およそ7万データ曲線)もダウンロード可能だ。

熊谷氏が開発や運用に携わる材料工学論文データベース「Starrydata2」(www.starrydata2.org)

 ただしこの研究は、実験データベースの蓄積や公開を最終目的としているわけではない。こうして独自収集したビッグデータを用いて新たな熱電材料の発見手法、マテリアルズ・インフォマティクスの技法を確立していくことだ。

 「われわれのビッグデータを用いた新たな材料の探索には、大きく2つのアプローチがあります。まずは既存の実験データを参照して、実験済みのものの中から求める特性に適した材料を見つけるもの。これはデータベースさえあれば比較的簡単です。もうひとつが、大量の実験データと機械学習を用い、化学組成や特性の傾向を導き出して、求める特性の材料はこうすればできるだろうと『予測』するアプローチです」

 新たな材料は複数の元素を組み合わせて生成されるが、その最適な組み合わせや割合(化学組成)を見つけるために何度も実験を繰り返すのでは、多くの時間とコストを要してしまう。既存の実験データを機械学習の学習データとして用いることで、最良の結果が出る化学組成が「予測」できるのではないか。

 熊谷氏らの研究チームは、こうした考えに基づくアプローチ(データ駆動型材料設計)で高い変換効率が期待できる新たな熱電材料の候補を予測するという研究内容を、2019年の38th International Conference on Thermoelectrics ICT2019、および第16回 日本熱電学会学術講演会で発表し、優秀ポスター賞を受賞した。

過去の実験データを大量に蓄積し、そのビッグデータから求める特性を持つ新材料を「予測」する「データ駆動型材料設計」のアプローチ

 さらに現在では、Starrydata2データベースへの登録対象を熱電材料から他の材料一般にも拡大し、マテリアルズ・インフォマティクスのアプローチをさらに幅広く展開させようとしている。

有機材料の「毒性」識別技法を通信トラフィックの異常検知に応用

 その一方で、さくらインターネット研究所においては、材料工学領域の知見を情報工学に生かすアプローチで研究を行ってきた。まず最初に手がけたのが、大量の通信トラフィックから異常を識別し、その要因を可視化する技術の研究だ。

さくらインターネット研究所で最初に取り組んだ研究テーマの概要。情報工学に対し材料工学の知見を適用するアプローチ

 通信トラフィックの監視に機械学習を適用し、正常なトラフィックパターンにあてはまらないものを異常と判断する技術(教師なし学習)は、すでにセキュリティ製品などで実用化されている。ただし「なぜ」異常と判断したのか、「どんな」異常なのかを明確に説明するのは、いまだ難しい課題となっている。

 熊谷氏の研究は、材料工学の知見を生かし、グラフ畳み込みニューラルネットワーク(GCNN:Graph Convolutional Neural Networks)を適用することで、こうした課題の解決を狙うものだ。

 「もともとGCNNの適用先のひとつとして、有機材料が毒性を持つ要因となっている分子構造の部分を特定するというものがあります。分子構造をグラフ(相関関係)ととらえ、それを学習させることで、毒性の要因となっているグラフ部分を高精度に可視化できるのです。わたしの研究では、これを通信トラフィックに応用してみました」

 具体的にはトラフィックデータに含まれる要素(送受信IPアドレス、TCP/UDPポート、パケットサイズなど)をグラフ構造化し、通常時のトラフィックと比較してグラフが「崩れた」ものを異常と識別する。上述のとおり、その異常がどの要素に起因するものなのかも可視化され、そこから攻撃手法を推測することもできる。この研究結果は、2019年の情報処理学会全国大会で発表された。

トラフィックデータをグラフ構造化し、異常を判別するとともに異常の要因を可視化する研究(情報処理学会での発表資料より)

カテゴリートップへ

この連載の記事

灯油タンクで残量検知を実現!北海道の生活を守るIoTとは【熱量IoT】#3

動画一覧はこちら!