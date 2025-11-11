ソフトバンク子会社のGen-AX（ジェナックス）は、2025年11月10日、コンタクトセンター業務を自動化するAI音声応対ソリューション「X-Ghost（クロスゴースト）」の正式提供を開始した。

音声から音声を直接生成する「Speech-to-Speechモデル」により、AIオペレーターが人間らしい自然な対話を行なえるのが特徴だ。三井住友カードでの実証を経て、まずは数千席を超えるような大規模コンタクトセンターをターゲットに伴走支援を展開していく。

Gen-AXは、AIスタートアップ的な文化とソフトバンクグループの強みを掛け合わせた会社として、2024年7月に事業を開始。コンタクトセンターの業務課題に特化したAIエージェントの開発・コンサルティングを手掛ける。

同社の代表取締役社長 CEOである砂金信一郎氏は、「コンタクトセンター領域は、業務委託比率が高いため、効率化による収益改善につながりやすい。学習に使えるデータも整備されている。この領域で成果を出して、ユースケースを広げていきたい」と語る。

「gpt-realtime」をベースに人間らしい会話と安全な会話を両立

正式提供に合わせて開催された説明会にて、Gen-AXのCTOである木田祐介氏は、X-Ghostの特徴を3つ挙げる。

ひとつ目は、「人間らしい自然な音声応対」だ。

説明会では、AIオペレーター（X-Ghost）が、シナリオにない質問にも自然かつ柔軟に応対をする様子が披露された。相談者が説明途中で質問すると、割り込みを検知して発話を中断。契約内容を確認したいという相談に対して、契約者の情報を基にCRMを参照して、回答をしている。

このような自然な会話を成立させているのが、音声から音声を直接生成する「Speech-to-Speechモデル」であり、「X-Ghost最大の特徴」だと木田氏。2025年8月に発表されたOpenAIの「gpt-realtime」を実装している。

従来のAIボイスボットは、相談者の音声をテキスト化した上で、言語処理で発話内容を決定し、音声合成するという「バケツリレーのような処理」（木田氏）が発生する。そのため、認識の誤りや情報欠損の可能性が高まり、テキスト化によって音声に含まれる感情やイントネーションなどのコンテキストも失われてしまう。さらには、処理を重ねるためにレイテンシ（遅延）が発生し、会話のテンポも不自然になる。

一方のSpeech-to-Speechモデルは、ひとつのモデル内で音声処理を完結させるため、これらの課題を解決できる。

2つ目は、「安全な会話を成立させる技術」だ。

コンタクトセンターは生成AIによる成果に期待できる領域であるが、リスクが顧客体験に直結する領域でもある。それに対してX-Ghostでは、Speech-to-Speechモデルを制御するさまざまな仕組みにより安全性を確保している。

まずは、音声認識を経て、プロンプトシールドで相談内容をチェックする。危険な内容が含まれていた場合は、会話を遮断し、電話を切るといったアクションをとることが可能だ。AIによる発話も、ガードレール機能やポリシーに対する違反検知、独自の読み誤りチェック機能を設けている。

また、必須となる対話項目を定めるチェックリスト機能や、情報を蓄積するメモリ機能で、対話の逸脱を防止できる。法律上回答できない質問などは、自律的に有人オペレーターにエスカレーションし、引継ぎ先のオペレーターがチェックリストや会話ログで状況を確認した上で対応可能だ。

3つ目の特徴が、「効率的な導入の仕組み」だ。X-Ghostは、専任コンサルタントによるヒアリングを経て構築されるが、ゼロから短期間で実装可能なワークフロービルダー「X-Ghost Builder」も備えている。

X-Ghost Builderは、これまでの提案活動で得られた知見や成功事例を基に、様々な業界の典型的な業務のテンプレートを用意。このテンプレートを基に、独自のワークフローを作成できる。