Liberty Data_素材業界の材料開発におけるデータ駆動型化を支援する「Data Science Platform for Chemoinformatics」に化学外部データ連携の機能を拡充
Liberty Data
データ駆動型経営に向けた成果志向のコンサルティング事業であるLiberty Dataは、素材業界(化学・樹脂・消費財など)におけるデータ駆動型の新材料開発R&Dを支援する「Data Science Platform for Chemoinformatics」を提供しており、化学外部データ連携の機能を拡充しました。
■ 「Data Science Platform for Chemoinformatics」について
新材料開発領域に特化した、データサイエンスプラットフォームの導入・運用を支援するサービスです。多様なデータに対する分析自動化とその後の業務指示の円滑化によって、他社優位に不可欠な材料開発の品質向上と期間短縮を実現します。この度、機能をさらに拡充し化学外部データとの自動連携が可能になりました。
サービスサイト:https://www.liberty-nation.com/dspchemoinformatics/
資料請求:https://www.liberty-nation.com/contents/
■ 公開実験データの必要性が上がってきている
材料開発における顧客要求レベルは上がる一方で、過去実験データを基にした開発は頭打ちであるため、より多くのデータが必要
近年、材料開発分野では競争環境が激化しており、他社に対抗するためにはより高度な顧客要求に応える製品を開発する力が必要です。しかし、多くの企業は長年続けている過去実験データに基づく開発手法に限界を感じており、これまで以上の成果を出すことが困難となっています。より優れた成果を得るためには、社内の実験データだけでなく、論文などからより多くの情報を収集し活用することが重要です。
要求は高くても開発期間は短いので、研究員が多くの論文を見たりデータベース化する時間はない
インプット情報を増やすために実際に研究者は数多くの論文を読んでいますが、読める論文の数は限られています。要求される開発品質は上がっていますが、開発期間が延びることはなく時間が足りないためです。さらに多くの論文からデータを手動で抽出、データベース化するにも時間がかかってしまいます。
MIの進展とともに、公開実験データを取り入れた開発への注目が高まる
論文を見るより効率的にインプット情報を増やす手段として、公開実験データの活用への注目が高まっています。データサイエンスを活用した材料開発で、大量のデータが必要とされるマテリアルズ・インフォマティクスの進展も、公開実験データの発展・活用促進を後押ししています。
補足:公開実験データとは?
材料開発における公開実験データは、特定の材料や製品の研究開発に関連する実験データのことを指します。これらのデータは、研究者が材料の性質や特性を理解し、新しい材料を設計・開発するための基盤となります。
代表的な公開実験データ
- PubChem:化学分子データベース。アメリカの国立生物工学情報センターによって維持管理されている。ウェブユーザインタフェースを通して自由に接続する事ができ、数百万の化合物構造および記述のデータセットをFTP経由でダウンロードすることが可能。
- ChemSpider:英国化学会が所有する化合物データベース。数多くのデータベースから化合物を収載しており,1億を超える化合物が登録されている。基本的な名称や構造データが登録されているのはもちろんのこと,物性値やスペクトルデータなどが参照可能な他,購入可能なサプライヤー情報なども登録されているのが特徴。構造式からSMILESやInChIなどにも変換可能。
- ChEMBL:文献情報から化学構造と生物活性データを集めたデータベース。現在、約50万個の化合物情報、約190万件の活性情報及びそれらのターゲット情報が登録されている。生物活性化合物の情報を部分構造検索や類似性検索で調査したり、ターゲットのアミノ酸配列からBLAST検索でアッセイ情報を収集することができる。
■ 公開実験データはそのままの状態では扱いずらい
実際には公開実験データは各種APIを用いたデータ連携に対応しているが、実際にデータを取得してみると虫食い状態が多くそのままでは扱いづらい
公開実験データの情報の多くはAPI連携に対応していますが、実際に連携してみると空白値が多くあります。また、必要な情報がAPI対応していない場合もあります。そのため、データ連携後すぐに活用することはできず有識者によるデータの穴埋め補完が必要となります。
公開実験データごとに注力している物性値や化合物がことなっているため、使用用途に合わせた抽出をする際に複数の公開実験データを参照する必要があり、網羅性の検証や重複除外などの前処理が大変
近年は多様なデータベースが公開されています。それぞれに用途に合わせた特徴があるため、同じ物質の情報でも扱う項目が異なっているものや、重複している項目があります。そこを整理して一つのデータベースに統合する作業にはかなり手間がかかります。
公開実験データ内または横断で対象となる物性実験値が複数存在しているかつ異なっている場合がありその精査が大変
同じ条件の物性実験値を扱っていても値が異なっている場合があります。これも統合データベースにして活用する前に、有識者による精査の作業が必要で時間がかかります。
■ 公開実験データの収集・加工・統合の自動化を実現
♢取得した公開実験データの欠損値に対して、自動で最適な値を予測し穴埋め
♢複数の公開実験データを横断して、いずれかに存在している情報を漏れ・重複ないように自動抽出し統合データベースを作成
♢同じ条件で値が異なる物性値を自動精査し、平均値・最頻値・中央値などの統計的算出により、矛盾ない統合データベースを作成
■ デモ動画を公開
デモ動画はこちらからご覧ください https://youtu.be/-rwBeany_MA
■ 会社概要
Liberty Data(会社名:株式会社Curiositas)は、データ駆動型経営に向けた成果志向のコンサルティング事業及び関連サービスを提供しております。
これまで業界を問わず、データDXを強みとしたハンズオン型のビジネス改革や異業種参入を含む新規事業の創出において多数の支援実績を有しております。
また別の海外事業である完全データ駆動型の農業事業ノウハウとデータプラットフォームを他業界向けに標準化した「Liberty DSP (Data Science Platform)」を製造業を中心に多数の企業に提供しております。
・事業名 :Liberty Data(会社名:株式会社Curiositas)
・所在地 : 東京都港区新橋5-17-1
・代表者 : 佐藤 辰勇
・事業内容 :データ駆動型経営に向けたコンサルティング・サービス提供、
・企業サイト:https://www.liberty-nation.com/