メルマガはこちらから

PAGE
TOP

APTO、LLM開発用データセット提供を開始

PR TIMES

APTO Inc.
「権利」「プライバシー」を最大限に保護したLLM開発用データセット提供を開始

株式会社APTO(本社:東京都渋谷区、代表取締役:高品良)は、LLM(Large Langage Model)に必要な大量のデータセットを権利クリアな状態で多言語提供いたします。



■ 背景
2023年10月現在、国内でも「NEC」「ソフトバンク」「LINE」などの多くの企業がLLM開発を開始し、AWSでは大規模言語モデル(LLM)開発を支援する「AWS LLM 開発支援プログラム」を開始、AWSの技術支援や600万USドルのAWSクレジット提供などを実施し、LLM活用を目指すスタートアップを支援しています。

LLM開発には、データセットを入手することは著作権などの潜在的なリスクがあります。
実際に会った事例では、CNNがOpenAIを提訴した事例が発生しています。
テキストデータについては、現在は自由に利用してもいいとされているが、今後日本でも法改正の可能性があります。

当社はこの課題を解決し、AI開発者に信頼性のあるデータソリューション事業を提供開始いたします。

■ 提供するデータセットの特徴
個人情報は、ユーザーのプライバシーを保護するため、モデルの訓練プロセスで意図的に考慮されないようにすることが重要です。
当社が提供するデータセットは、適切な匿名化処理を行うことでプライバシーを保護しています。

当社が提供するデータセットの特徴は以下です。
1.多様性: 当社のデータセットは幅広いトピック、言語、および業界にわたり、LLMの多様性に対応します。
2.権利クリアな保証: すべてのデータは最大限に権利クリアな処理が施され、法的リスクを最小限に抑えます。
3.高品質: 提供するデータは高品質で、誤りや不正確な情報を排除するための品質管理プロセスが導入されています。
4.カスタマイズ可能: 開発者のニーズに合わせてデータセットをカスタマイズできます。これにより、プロジェクトの独自性を保ちながらトレーニングデータを増やすことが可能です。(別途追加料金)



■データセットの依頼方法
データセットの依頼、サンプルデータをご希望の方は、以下のメールアドレス宛にお問い合わせください。
メール:info@apto.co.jp

当社のwebページからお問い合わせいただくことも可能です。
URL:https://apto.co.jp/contact

■ データセット事業について
当社のデータセット事業は、AI開発者向けに以下のサービスを提供いたします。
1) プライバシーの保護: 提供するデータセットプライバシー保護に対して細心の注意を払っており、開発者が法的なリスクを可能な限り回避できるようにします。
2) コンサルティングサービス: AI開発者が最適なデータセットを選択し、開発できるようにデータ使用に関する質問や疑念に対するサポートを提供します。
3) データセットのマネジメント: 新たなデータ要件に合わせてデータセットを継続的に更新し、開発者が最新のデータを利用できるようにします。

【LLM開発用データセット提供サービス取り組み事例】
・InstructGPTの論文で提案された7つのカテゴリーと、依頼された追加カテゴリーを含むデータセットを提供

■ 展望
AI技術は我々の未来において中心的な役割を果たし、弊社はその未来を共に築いていくためのパートナーシップを積極的に求めています。
LLM開発に必要な高品質で権利クリアなデータセットを提供することで、開発者コミュニティを支援し、AIの進化を促進するサポートをさせていただきます。

■ 本プロダクトに関するお問い合わせ先
https://apto.co.jp/contact

【株式会社APTO 会社概要】
社名 :株式会社APTO
所在地 :〒150-0041 東京都渋谷区神南1丁目5番14号 三船ビル4階
代表者 :代表取締役社長 高品 良
設立 :2020年1月20日
事業内容 :AI開発でボトルネックになるデータ作成作業を素早く低コスト・高品質に実施できる「harBest」を提供。
企業URL :https://apto.co.jp/

<参考>
・NECの事例
https://jpn.nec.com/rd/technologies/202308/index.html
・ソフトバンクの事例
https://www.softbank.jp/corp/news/press/sbkk/2023/20230804_02/
・LINEの事例
https://engineering.linecorp.com/ja/blog/3.6b-japanese-language-model-with-improved-dialog-performance-by-instruction-tuning
・CNNの訴訟
https://www.bloomberg.com/news/articles/2023-02-17/openai-is-faulted-by-media-for-using-articles-to-train-chatgpt