このページの本文へ

電話口で話されたらAIだと見抜けないレベル しゃべり方が自然すぎる音声対話型AI「J-Moshi」公開

2025年01月27日 19時10分更新

文● @sumire_kon

  • お気に入り
  • 本文印刷
J-Moshiの利用イメージ

J-Moshiと人間の会話の様子(名古屋大学情報学研究科 東中研究室

 名古屋大学情報学研究科 東中研究室は1月24日、日本語に対応したリアルタイム音声対話AIモデル「J-Moshi」を公開した。モデルサイズは7Bと軽量ながら、人間に近い自然な応答が可能だ。

 J-Moshiは、相槌や発話のオーバーラップなど、人間同士の会話にみられる同時双方向的な特徴を備えた「full-duplex音声対話システム」。簡単に言えば、「聞く」と「話す」を同時にこなせる仕組みだ。

 開発にあたっては、英語のfull-duplex音声対話システム「Moshi」をベースとして活用。同研究室によると、日本語で利用可能な最初のfull-duplex音声対話システムになるという。

 開発チームのサイト(Github)では、人間とJ-Moshiが会話する様子を収めた動画も公開。人間が話している最中にJ-Moshiが「はい」「うんうん」といった相槌を打ったり、人間の話した内容に対して「おー、なるほど」と反応してから関連する質問をしたりする様子が収められている。

 生成AI特有のぎこちなさも若干みられるが、基本的には、注意深く聞かなければ、相手がAIだと気付かないレベルだ。

 同研究室では3月10日から長崎で開催される「言語処理学会第31回年次大会(NLP2025)」で、J-Moshiに関する発表を予定している。

カテゴリートップへ

ピックアップ