Microsoft Cognitive Servicesの「Speech to text」をノンコーディングで使う

音声認識AIを使ってLINEのボイスメッセージをテキスト変換してみよう

2019年04月26日 12時30分更新

文● 松本典子　編集 ● 羽野／TECH.ASCII.jp

　こんにちは。Azure MVPの松本典子です。

　今回は、Microsoftが提供しているAIサービスCognitive Servicesの1つ「Speech Services」を利用し、音声をテキスト変換する方法についてご紹介します。

　Speech to textのコネクタはLogic Appsの公式コネクタとして現在は提供されていません。ですので、今回はLogic Apps側でAPIを利用する方法を試しました。また、音声入力は、スマホで手軽に利用できるLINEの「ボイスメッセージ」を利用します。

　今回の仕組みを作成する手順は以下です(※今回は有料プランの使用が必須です)。

LINE Messaging APIの登録
Azure Blob Storageの準備
Speech Services(Speech to text)の準備
Azure Logic Appsの作成

1. LINE Messaging APIの登録

　LINE BOTを作成するために「LINE Messaging API」を利用します。利用方法はLINE公式サイトの「Messaging APIを利用するには」を参照してください。

2. Azure Blob Storageの準備

　Azure Blob Storageは、テキストデータやバイナリデータなどの大量の非構造化データを格納するために最適化されているサービスです。今回は、このBlobストレージにLINEから送信した「ボイスメッセージ」を格納します。

2.1. Azure Blob Storageの新規作成

　Azureの管理ポータルの左メニュー項目「＋リソースの作成」→「ストレージ」→「ストレージアカウント」をクリック。

Azure Blob ストレージの新規作成

　表示された「ストレージアカウントの作成」に、次の1～7の情報を入力します。

サブスクリプション：サブスクリプションが複数ある場合はBlobストレージを作成したい名前を選択。
リソースグループ：「新規作成」をクリックし、わかりやすいリソースグループ名を入力します。（日本語の使用不可）
ストレージアカウント名：わかりやすい名前を入力します。名前は一意なので表示されているものとは違う名前を入力してください。（日本語の使用不可）
場所（リージョン）：今回は「米国中西部」を選択。
アカウントの種類：今回は「Storage（汎用v1）」を選択。
レプリケーション：今回は「地理冗長ストレージ（GRS）」を選択。

　上記の入力が完了したら「確認および作成」ボタン→「作成」ボタンとクリックします。デプロイが完了すると「デプロイが完了しました」というページが表示されるので「リソースに移動」ボタンをクリックします。

コンテナーの作成

　「概要」ページの「Blob」をクリックします。

コンテナーの作成

　上部の「＋コンテナー」をクリックし、次の情報を入力します。

名前：コンテナー名は小文字で入力します（日本語の使用不可）。
パブリックアクセス　レベル：「コンテナー（コンテナーとBLOBの匿名読み取りアクセス）」を選択。

　入力が完了したら「OK」ボタンをクリックします。

コンテナーのプロパティ

　作成したコンテナーの右端の「・・・」をクリックすると図のメニューが開きます。「コンテナーのプロパティ」をクリックするとURLという項目があるので、そのURLをコピーしておきます。この情報はLogic Appsで利用します。

3. Speech Services (Speech to text)の準備

　Speech Servicesは、Microsoftが提供するAIサービス「Cognitive Services」の「音声」にカテゴライズされているクラウドベースのAPIサービスです。

　主要機能には、音声テキスト変換(音声認識また文字起こしとも呼ばれます)、テキスト読み上げ(音声合成)、および音声翻訳があり、以前はBing Speech API、Translator Speech、Custom Speech、およびCustom Voiceの各サービスで利用可能であったAzure 音声機能が統合されました。現在は、1つのサブスクリプションで、これらすべての機能にアクセスできます。

　今回は音声テキスト変換機能の「Speech to text」を利用します。