カラクリ、日本語に特化した生成AIガードレール「KARAKURI Guardrails」β版を提供開始

2025.01.07 07:00

文● ASCII

　カラクリ株式会社は12月25日に、日本語に特化した生成AIのガードレール「KARAKURI Guardrails」のβ版の提供を開始した。日本における生成AIの実用化を促進するために、安心かつ安全に使える環境の実現を図る。

　生成AIのガードレールとは、生成AIアプリケーションにおけるユーザーとのインタラクションを監視、制御するための安全管理システムのこと。OpenAIが2022年11月に有害、不適切、または危険な可能性のあるコンテンツを制限する初期のガードレール機能を実装したことをはじめに、NVIDIA、AWSなどもガードレール機能の強化に注力しているという。

　一方で、これらの基準については主に英語圏の文脈に最適化されており、日本独自の言語的・文化的特性を反映しきれていないとし、カラクリでは、国産オープンモデルである大規模言語モデル「KARAKURI LM」で培ったノウハウを生かし、日本独自の言語・文化的要件に応えるAIセキュリティ基準を確立していくために開発を始めたというという。

「KARAKURI Guardrails」は既存の各社が提供するガードレール機能（有害コンテンツ検出、プライバシー保護、コンプライアンスチェックなど）に加えて、日本語独自の表現や慣習に即した検知・制御を行うという。また企業固有の要件やポリシーに合わせたカスタマイズが可能で、より精緻なリスク管理と安全なコミュニケーション環境を提供するとしている。

　主な機能として、「ハルシネーションリスクの検知」、「文脈逸脱の検知」、「攻撃的行為の検知」、「個人情報の検知」、「禁止ワード、禁止トピックの検出」が挙げられている。

「ハルシネーションリスクの検知」はAIが事実と異なる情報や根拠のない内容を生成するリスクを検出する。信頼性の高い情報源と照合し、不確実な情報や矛盾する内容を特定することで、誤った情報の拡散を防ぐ。「文脈逸脱の検知」は、会話やクエリの文脈を理解し、設定された主題や目的から逸脱した応答を識別する。これにより、ユーザーの意図に沿った適切な情報提供を維持し、効率的なコミュニケーションを支援する。

「攻撃的行為の検知」では、悪意のある入力や潜在的な攻撃パターンを識別。不適切な言葉遣い、システムの脆弱性を突こうとする試み、または悪意のあるコード実行の可能性がある入力を検出し、システムとユーザーの安全を確保する。「個人情報の検知」は、氏名、住所、電話番号、クレジットカード情報などの機密データを検出し、必要に応じてマスキングまたは削除することで、プライバシー保護とデータセキュリティを強化する。「禁止ワード、禁止トピックの検出」は、組織のポリシーや法的基準に基づく禁止用語・トピックを検出。コンプライアンス対応と適切なコンテンツ管理をサポートするという。

■関連サイト