mocomoco、音声認識AI「mocoVoice API」に話者分離機能を追加！

2024.12.16 17:59

PR TIMES

mocomoco株式会社
「話した人」が一目でわかるようになりました！

mocoVoice API 話者分離の使用例

mocomoco株式会社は、高性能音声認識AI「mocoVoice API」に話者分離機能を追加しました。
本機能により、複数人での会話や会議の音声データを、個別の話者ごとに分離して書き起こすことが可能です。

＜新機能の特徴＞
高性能な話者分離
複数人の書き起こしでも、「誰が」「何を」話したかがわかります。
高速な話者分離
話者分離機能が追加されても、書き起こし速度は以前と同じ最速1時間の音声を3分で書き起こせます。
多言語対応
日本語と英語が混在する会話でも、高精度で話者分離が行えます。

＜活用シーン例＞
- グループディスカッションの議事録作成
- 複数社を交えた取引先とのミーティング記録
- 複数のスピーカーが登壇するイベントにおける書き起こし

＜mocoVoice APIについて＞
mocoVoice APIは、音声認識業界の最高性能を誇るOpenAI Whisperをベースにし、mocomoco独自の辞書アルゴリズムと高速化技術を兼ね備えています。以下の特徴を備えています

圧倒的な処理速度
1時間の音声を最速3分で書き起こせます。長時間の会議や講演でも迅速な文字起こしが可能です。

独自の辞書機能
読みの指定が不要な辞書機能により、専門用語や固有名詞も正確に認識。日英両言語での辞書登録が可能です。

ChatGPTによる高品質校正
認識したテキストを自動で校正し、文法的に正確で読みやすい文章に整形します。日本語・英語それぞれの言語特性に応じた校正を実施します。

マルチメディア対応
音声ファイルだけでなく、動画ファイルからの音声抽出・認識も可能です。

コードスイッチ対応
日本語と英語が混在する会話でも、言語の切り替わりを正確に検出し、適切に書き起こします。

＜料金プラン＞
話者分離機能は追加費用なしですべてのプランに含まれています。 mocoVoice APIの利用料金については、こちらをご覧ください：https://docs.mocomoco.ai/guides/pricing

＜開発背景＞
複数人が参加する会議や対話において、「誰が発言したのか」を正確に把握することは、情報共有や議事録作成の効率化において重要な課題でした。従来の書き起こしでは、話者が特定されないために作業負担が増大し、コミュニケーションの正確性が損なわれるケースも少なくありませんでした。これらの課題を解決するため、mocomoco株式会社では高速かつ正確に話者を分離できる「mocoVoice API」の話者分離機能を開発しました。

＜今後の展望＞
本機能が試せるmocoVoice demoページの提供を予定しています。
mocomocoは引き続き、現実体験に即したシチュエーションでmocoVoiceを利用できるよう改善を進めていきます。

＜サービス利用のお申込み＞
mocoVoice APIの利用を開始するには、以下の API 利用申請フォームからお申し込みください。アカウント作成後、すぐに新機能をお試しいただけます。

関連ページ
- mocoVoice API 利用申請フォーム https://forms.gle/YU2a4aeHgwtF8E8L7
- mocoVoice API ドキュメントページ https://docs.mocomoco.ai/
- mocomoco株式会社 HP https://www.mocomoco.ai/

mocomoco株式会社会社概要

代表者：代表取締役CEO 田中康紀
本社：〒150-0043　東京都渋谷区道玄坂1丁目10番8号渋谷道玄坂東急ビル2F−C
HP：https://mocomoco.ai
お問い合わせ: contact@mocomoco.ai