NECは8月5日、データの本質的な意味をAIで推定する「データ意味理解技術」を開発したと発表した。
分野の異なる多種多様なデータを統合して活用する場合、数値データの表や列が何を表しているのかを推測し、項目を一致させる必要がある。膨大なデータ解析では項目を一致させる作業が煩雑になるのが課題とされており、NECの新技術では機械学習を使うことで他の項目などから項目を推測、元々項目名が付与されていなくても各データ列の数値分布の統計的な傾向を手がかりに推測できるという。
データ列の意味候補と、同じデータにある他のデータ列の意味をネットワーク距離(データの意味間の共起関係の強度)を活用することで精度の高い推定を可能にした。例えば表データに「氏名」の項目が含まれていれば、数字列は「気温」データではなく「年齢」データであると推定する。この技術をオープンデータに適用したところ、データ統合の専門家が30日かけていた作業を1時間で同等品質を実現したという。
同社では、サプライチェーンに加え、データレイクといわれる様々な分野の形式の異なるデータが集まるデータベースや、データを一元管理するデータマネジメント基盤、情報銀行やデータ流通プラットフォームなど、情報共有基盤への汎用的な活用を目指し、研究開発を進めるとしている。