機械学習を用いた音声分離機能でボーカルだけを抜き出すことができる

音楽練習／耳コピ向け音楽プレイヤー「Melissa v3.0 for Mac/Win」は無料とは思えない実力

2023年01月02日 10時00分更新

文● 田口和裕

目玉の音声分離機能はグーグルが開発したTensorFlowを活用

　ここからは本バージョンの目玉となる、グーグルが開発した機械学習用フレームワークTensorFlowを使用した音声分離機能を試していく。

　この機能は1つの音楽ファイルから「ボーカル」だけ、「伴奏」だけ、「ドラム」だけといったように特定の楽器を抜き出して再生する機能だ。

　「え？それのどこがすごいの？」と感じる人もいるかもしれない。確かに曲を録音する際、演奏者全員の音を同時に1本のファイルに録音することは少ない。たいていドラムはドラム、ベースはベース、ボーカルはボーカルで別々に録音されている。この楽器ごとに分離された音楽ファイルを「ステム」と呼ぶ。

　だが、通常入手できる音楽ファイルに「ステム」は含まれていない。それぞれの楽器の音量差などを整える作業（ミキシング）と、それらを1本のファイルにまとめる作業（マスタリング）が行なわれるからだ。

　音声分離機能は、マスタリング後の1本にまとまってしまった音楽ファイルを機械学習を利用して「ステム」状態に分解する、プログラムで言うとリバースエンジニアリングのような作業。アドビの「Audition」や、iZotopeの「RX 10」といった高価なプロ用のソフトウェアにしか搭載されていない機能だ。

　それを無料アプリで実現するとはいったいどういうことだろう。さっそく試してみた。

ソング

　音声分離機能は「ピッチ」の項でも説明した「Song」セクションにある。

パート

　「ピッチ」の右側にある「パート」の部分を見ると、「All」という項目が青くハイライトされている。これは「すべてのパートが再生されている」ことを意味している

　音声を分離したい場合は「All」の右側にある「Click to separate this music into instrument」の部分をクリックする。

確認画面

　クリックすると確認画面が表示されるので「OK」をクリック。参考までに筆者の環境「Mac mini 2020（M1）」で4分の曲を分離するのにおよそ65秒かかった。

　分離が完了すると「All」の右に「Inst.」、「Vo.」、「Piano」、「Bass」、「Drums」、「Others」の6つのボタンが現れる。

作成されたステムファイル

　同時に各楽器ごとに分離された6本のステムファイルが、元ファイルと同階層に作られる「曲名.mp3_stems」という名前のフォルダーに保存される。

ボーカルだけを分離

　「Vo.」をクリックするとボーカルだけが再生される。同様に「Inst.」はボーカル以外のすべての楽器、「Piano」、「Bass」、「Drums」はそれぞれ個別の楽器、「Others」は「ピアノ、ベース、ドラム以外の楽器」が再生される。

　分離の結果は動画で見た方が早いだろう。今回はサンプル音源として週末音楽家CHEEBOW氏の作曲した「笑っていてね / くじら音楽部 feat. 小春六花」をお借りした。

　この例ではボーカルとベースが多少音質劣化してはいるが、ボーカルの歌詞などは格段に聞き取りやすくなっており、実用にはまったく問題ないレベルだ。

文字起こしにも使えるかも

　本記事執筆にあたり数時間「Melissa」で作業したのだが、まず感じたのは、多機能であるにも関わらずタブをうまく活用し、ほぼすべての操作を少ないクリックでダイレクトに行なえるUIの一覧性の高さだ。両手が塞がることが多い楽器練習ならではの気遣いだろう。試してないがフットスイッチなどを使えばさらに便利になるだろう。

　また、筆者はライターという仕事がら、取材で録音した音声ファイルを文字に書き起こす「文字起こし」という作業をよく行なうのだが、「Melissa」のループ機能やスピード変更機能、そして豊富なショートカット機能は文字起こしにも十分使えると感じた。

　一方、音楽制作、特にマッシュアップやリミックスといった作業にも使えると思ったのだが、作成されるステムファイルのフォーマットが圧縮ファイルの「.ogg」になっているため、ちょっと音質的に厳しいかもしれない。

　とは言え楽器や歌の練習、耳コピにはこの音質でも十分である。もちろん他の機能も音楽用途に特化されておりとても使いやすくアップデート頻度も高い。なにより無料である。

　筆者が1年前に購入して以来、しまい込んでいたギターを引っ張り出すときがとうとう来たようである。

■関連サイト