松本典子の「Azure Logic Apps」超入門 ~AI編~ 第4回
Microsoft Cognitive Servicesの「Speech to text」をノンコーディングで使う
音声認識AIを使ってLINEのボイスメッセージをテキスト変換してみよう
2019年04月26日 12時30分更新
こんにちは。Azure MVPの松本典子です。
今回は、Microsoftが提供しているAIサービスCognitive Servicesの1つ「Speech Services」を利用し、音声をテキスト変換する方法についてご紹介します。
Speech to textのコネクタはLogic Appsの公式コネクタとして現在は提供されていません。ですので、今回はLogic Apps側でAPIを利用する方法を試しました。また、音声入力は、スマホで手軽に利用できるLINEの「ボイスメッセージ」を利用します。
今回の仕組みを作成する手順は以下です(※今回は有料プランの使用が必須です)。
- LINE Messaging APIの登録
- Azure Blob Storageの準備
- Speech Services(Speech to text)の準備
- Azure Logic Appsの作成
1. LINE Messaging APIの登録
LINE BOTを作成するために「LINE Messaging API」を利用します。利用方法はLINE公式サイトの「Messaging APIを利用するには」を参照してください。
2. Azure Blob Storageの準備
Azure Blob Storageは、テキストデータやバイナリデータなどの大量の非構造化データを格納するために最適化されているサービスです。今回は、このBlobストレージにLINEから送信した「ボイスメッセージ」を格納します。
2.1. Azure Blob Storageの新規作成
Azureの管理ポータルの左メニュー項目「+リソースの作成」→「ストレージ」→「ストレージアカウント」をクリック。
表示された「ストレージアカウントの作成」に、次の1~7の情報を入力します。
- サブスクリプション:サブスクリプションが複数ある場合はBlobストレージを作成したい名前を選択。
- リソースグループ:「新規作成」をクリックし、わかりやすいリソースグループ名を入力します。(日本語の使用不可)
- ストレージアカウント名:わかりやすい名前を入力します。名前は一意なので表示されているものとは違う名前を入力してください。(日本語の使用不可)
- 場所(リージョン):今回は「米国中西部」を選択。
- アカウントの種類:今回は「Storage(汎用v1)」を選択。
- レプリケーション:今回は「地理冗長ストレージ(GRS)」を選択。
上記の入力が完了したら「確認および作成」ボタン→「作成」ボタンとクリックします。デプロイが完了すると「デプロイが完了しました」というページが表示されるので「リソースに移動」ボタンをクリックします。
「概要」ページの「Blob」をクリックします。
上部の「+コンテナー」をクリックし、次の情報を入力します。
- 名前:コンテナー名は小文字で入力します(日本語の使用不可)。
- パブリック アクセス レベル:「コンテナー(コンテナーとBLOBの匿名読み取りアクセス)」を選択。
入力が完了したら「OK」ボタンをクリックします。
作成したコンテナーの右端の「・・・」をクリックすると図のメニューが開きます。「コンテナーのプロパティ」をクリックするとURLという項目があるので、そのURLをコピーしておきます。この情報はLogic Appsで利用します。
3. Speech Services (Speech to text)の準備
Speech Servicesは、Microsoftが提供するAIサービス「Cognitive Services」の「音声」にカテゴライズされているクラウドベースのAPIサービスです。
主要機能には、音声テキスト変換(音声認識また文字起こしとも呼ばれます)、テキスト読み上げ(音声合成)、および音声翻訳があり、以前はBing Speech API、Translator Speech、Custom Speech、およびCustom Voiceの各サービスで利用可能であったAzure 音声機能が統合されました。現在は、1つのサブスクリプションで、これらすべての機能にアクセスできます。
今回は音声テキスト変換機能の「Speech to text」を利用します。
3.1 Azure ポータルからSpeech to textを作成
Azureの管理ポータルの左メニュー項目「+リソースの作成」→検索窓に「Speech」と入力して検索します。
「音声」という名前が表示されるのでクリック。
表示された「Create」に、次の1~4の情報を入力します。
- Name:作成するSpeech to textの名前を入れます(日本語の使用不可)。
- サブスクリプション:サブスクリプションが複数ある場合にのみ表示されるメニューです。複数ある場合、利用するサブスクリプション名を選択します。
- 場所(リージョン):「米国西部」を選択します。
- Pricing tier:「S0」を選択します。今回の仕組みは「F0(無料)」は利用できません。
- リソースグループ:今回は「既存のものを使用」を選択し、「Blob Storage」を作成しているリソースグループ名を選択します。
入力が完了したら「作成」ボタンをクリックします。
この連載の記事
-
第11回
TECH
AI+ノーコードで動画の字幕を自動生成するツールを作ろう -
第10回
TECH
メールで届く添付ファイルの暗号化を自動解除するLogic Appsを作ろう -
第9回
TECH
人物写真の顔をAIが検出し、ぼかしてツイートするLogic Appsを作ろう -
第8回
TECH
Power AutomateのRPA「UIフロー」でPhotoshopの操作を自動化してみよう -
第7回
TECH
「指定した場所に近づくとスマホに買い物リストを通知する」仕組みを作ろう -
第6回
TECH
文字入り画像を送るとテキストに書き起こすLINEボットを作ろう -
第5回
TECH
現在地から目的地までの道案内をするLINEチャットボットを作ろう -
第3回
TECH
自分用メモ的にLINE送信した予定をAIで読み取ってGoogleカレンダーに自動登録しよう -
第2回
TECH
AIで「alt属性」文章を自動生成しよう!もちろんノンコーディングで -
第1回
TECH
ノンコーディングで質問に自動回答するLINE BOTを作ってみよう - この連載の一覧へ