
J-Moshiと人間の会話の様子(名古屋大学情報学研究科 東中研究室)
名古屋大学情報学研究科 東中研究室は1月24日、日本語に対応したリアルタイム音声対話AIモデル「J-Moshi」を公開した。モデルサイズは7Bと軽量ながら、人間に近い自然な応答が可能だ。
J-Moshiは、相槌や発話のオーバーラップなど、人間同士の会話にみられる同時双方向的な特徴を備えた「full-duplex音声対話システム」。簡単に言えば、「聞く」と「話す」を同時にこなせる仕組みだ。
開発にあたっては、英語のfull-duplex音声対話システム「Moshi」をベースとして活用。同研究室によると、日本語で利用可能な最初のfull-duplex音声対話システムになるという。
開発チームのサイト(Github)では、人間とJ-Moshiが会話する様子を収めた動画も公開。人間が話している最中にJ-Moshiが「はい」「うんうん」といった相槌を打ったり、人間の話した内容に対して「おー、なるほど」と反応してから関連する質問をしたりする様子が収められている。
日本語リアルタイム音声対話モデルJ-Moshiを公開しました!@kyutai_labs のMoshiをベースとし、人間のように「話す🗣️」と「聞く🎧」を同時に行います。
— Atsumoto Ohashi (@atsumoto_ohashi) January 24, 2025
日本語で利用可能な初めてのモデルです。
モデルサイズは7Bと軽量なのでぜひお試しください‼️#NLP2025 で発表予定です。https://t.co/t2EKifkO46pic.twitter.com/EOBSqQER4F
生成AI特有のぎこちなさも若干みられるが、基本的には、注意深く聞かなければ、相手がAIだと気付かないレベルだ。
同研究室では3月10日から長崎で開催される「言語処理学会第31回年次大会(NLP2025)」で、J-Moshiに関する発表を予定している。
