クラウドソーシングで機械学習データを最適化するDefinedCrowd
データの整理やアノテーションを人の手で効率よく
2018年9月10日、機械学習向けデータの最適化をクラウドソーシングサービスを提供するDefinedCrowd(デファインドクラウド)は、ジョアオ・フレイタスCTOによるプレス説明会を開催した。
DefinedCrowdは2015年に設立された北米シアトルのスタートアップ。機械学習で利用するトレーニングデータをクラウドソーシングによって最適化するサービスを提供しており、ソニーやAmazonのファンドからも出資を受けている。現在、グローバルの顧客は40社程度で、日本でもすでに十数社の顧客がいるという。
現在、機械学習はさまざまな領域で用いられているが、精度を高めるには優れたアルゴリズムだけではなく、高品質なデータが必要になる。しかし、収集したデータを整理し、アノテーションを施し、モデルに対して最適化するのは非常に負荷がかかる。外部の業者に依頼しても、データの品質が低かったり、スピードが遅いといった事態が起こる。フレイタス氏は、「データサイエンティストは約8割の時間をデータの整理や処理に費やしている」と指摘する。
これに対して、Defined Crowdは世界で4万5000人のクラウドソーサーを「Neevo」というコミュニティとして抱えており、音声、自然言語、コンピュータービジョンの3つの分野で高品質なトレーニングデータを提供している。たとえば、文書内の単語に注釈を付与したり、動画や写真に写っている事物にタグを付けたり、音声ファイルの発音精度をチェックすることで、精度の高い学習データを作成し、ユーザーに納品するという。
特徴は品質へのこだわり。Neevoに登録されたメンバーは言語や資格テストが実施されており、機密保持契約も締結されている。リアルタイムの監査、スパム対策、クラウドソーサーの行動チェック、抜き打ちのテストなども行なわれるとのこと。現在、世界人口の約90%の言語(53ヵ国以上46の言語)をカバーする規模を誇っており、もちろん日本語にも対応。また、競合に比べて約5~10倍のスピードでデータを提供できる点も大きな売りだという。