このページの本文へ

大量の論文要旨を自然言語処理で分析、新材料発見の可能性

2019年07月11日 09時59分更新

文● Karen Hao

  • この記事をはてなブックマークに追加
  • 本文印刷

自然言語処理が、科学的発見を加速する可能性を示す新たな論文が発表された。

単語間の関連性の把握に非常に長けた教師なし学習の技法の発達のおかげで、自然言語処理は近年、大きな進展を遂げている。これらの技法では、単語同士が相互の関連においてどれくらいの頻度でどれくらい密接に使用されているかを計測し、3次元ベクトル空間にマッピングする。その結果得られたパターンは、「男性でいう王は、女性でいうと女王だ」といった基本的なアナロジーを予測したり、文を組み立てたり、自動補完や他の入力予測システムを強化したりするのに使われる。

ある研究者グループはこうした自然言語処理の技法を利用して、1922年から2018年までに学術誌に掲載された、材料科学の研究を含むと見られる科学論文330万本の要旨を分析した。結果として得られた単語間の関係性は、元素周期表の構造や化学物質の構造が物質の特性とどう関係しているかなど、材料科学分野の基礎的な知識をとらえた。この論文は先週のネイチャー誌に掲載されている。

アナロジーを計算できるおかげで、熱電材料と似た性質を示すものの、これまでそうした観点で研究されていなかった化合物も多数発見された。研究グループは今回の手法について、既存の科学文献ではこれまで考慮されていなかった相関性を見つけ出し、材料科学分野の研究を加速させる新たな方法となるかもしれないと考えている。

大量のテキストの中から、魅力的な、時には予想だにしないような関係を発見するこのような手法が使われるのは、今回が初めてではない。たとえば、2017年には、今回と同様の手法を用いてインターネット上のテキストに基づく膨大なコーパスを処理したところ、人種と性別に対する人間の歴史的なバイアスが再現され、さらに職業別の男女比まで算出できたと報告する論文がサイエンス誌に掲載されている。 こうした論文は、人間の言語の中に私たちの世界に関する豊かな情報がいかに多く含まれているかを示している。 私たちは今、機械学習によってその知識を得るツールを手にしつつあるのだ。

カテゴリートップへ

アスキー・ビジネスセレクション

ASCII.jp ビジネスヘッドライン

ピックアップ