イケボ(声)からイケメン(画像)を生成することを目指し、前回は音声を分析し、いくつかのカテゴリーに分類する方法を考えました。まずはシンプルに「ピッチ」と「スペクトル対比」の2軸を用いて以下の4カテゴリーに声を分類できるようになりました。
1.高めで、ハスキーな声:穏やかな雰囲気
2.高めで、クリアな声:明るい雰囲気
3.低めで、クリアな声:力強い雰囲気
4.低めで、ハスキーな声:落ち着いた雰囲気
今回は各カテゴリーからイケメンのイラストを生成する方法を検討していきたいと思います。
音声の分析からイメージカラーを検討する
前回紹介した話者の身体的特徴を捉えた画像を生成する「Speech2Face 」というモデルをはじめ、人間の顔と声の関連を調べた研究はいくつかありました。その中でも以下のような漫画やアニメのキャラクターに焦点を当てた研究が面白かったので簡単に紹介します。
Comic-Guided Speech Synthesis
▶︎漫画向けのリアルな音声を合成するための新しいアプローチの提案。入力された漫画ページを分析して、登場人物の性別と年齢、各登場人物が話すテキストと対応する感情を特定し、各キャラクターのリアルな音声を合成する。
ゲームキャラクタと声質の傾向分析
▶︎キャラクターと声質の関係について分析する手法の提案。セリフから得られた音響特徴量と印象値の関係を学習させ、新しいキャラクターに関する任意の印象値を与えることで適切な音響特徴量を推定する。
2次元キャラクタにおける音声生成モデルの検討
▶︎キャラクターに合った音声特徴量と画像特徴量の対応付けをするために、キャラクターに違和感のない音声の傾向を分析。人間の知覚としてキャラクターにあった声の特徴を感じる傾向分析をする。
いずれもデータセットの準備にかなりの労力を割いている印象で、長期的にサンプルデータ集めはやっていきたいなと思いつつ……。簡易的にキャラクターの見た目と声を結びつける要素がなにかないかを考え、2次元のキャラクターに関する論文を読み漁っていたところ、「乙女ゲーム」におけるキャラクター分析の研究「「乙女ゲーム」の歴史的研究 : キャラクター分析を中心に 」で、イメージカラーを中心に考察されたものを見つけました。
この論文の中では、キャラクターのイメージカラーについて以下のように説明されています。
●女性主人公と恋愛関係となる男性キャラクター(=攻略対象キャラクター)はゲーム内容によって異なるが、 主に5〜7人となっている。これらの攻略対象キャラ クターにはイメージカラーが設定されている。
●このイメージカラーの色系統は大きく分けて、「赤」、「青」、「黄」、「オレンジ」、「ピンク」、「紫」、「緑」、「白」といった6〜8種類から成り立っている。
●「乙女ゲーム」のキャラクターにはイメージカラーが配されており、それを表わすように、性格が設定されているのである。
○赤:お調子者のにぎやかでカジュアルなイメー ジが表現できる
○青:困難にぶつかっても冷静に解決策を考え、合理的に行動する
○黄色:「人気者」として、ユーモアたっぷりのつっこみで、いつもその場の雰囲気を盛り上げてくれる
○紫:「ミステリアス」であり「クリエイター」でもあると表現される
○オレンジ:「明るく」「積極的」であり「お調子者」である
○ピンク:「甘えん坊」 であり「社交的な」「お調子者」の存在である
「声色」という言葉が存在したり、共感覚で音に色が見える人がいたりするくらいなので、色の要素を用いて声と見た目を紐づけるという方向性はありえそう……!と思いつきました。調べてみると色と音に関する研究はたくさんあり、「音程クラスと色の共感覚」を持つ被験者15名を対象に、音程クラスが色とどのように関連しているかを調査した論文「Musical pitch classes have rainbow hues in pitch class-color synesthesia 」がわかりやすかったです。この調査では、被験者にドからシまでのすべての音について、自分の感じる色を選択してもらい、被験者間で色の平均値を計算すると、ドレミファソラシの7つの音と虹の7色がほぼその順番で対応すること、ピッチと彩度に負の相関があることが報告されています。
……という根拠をイケメン生成のロジックにいい感じに反映させられると理想なのですが、勉強不足で理解が追いつかない部分もあるので、キャラクター分析の論文の内容も踏まえて、雰囲気&私の主観で4カテゴリに色を当てはめてみると以下のような感じになりました。
この色をベースに、イケメンを生成するプロンプトを作成していきます。
イメージカラーをもとにイケメンを生成する
OpenAIのGPT-4でプロンプト、DALL·Eでイラストを生成しました。DALL·Eは2023年10月初旬から新しいモデル「DALL·E 3」の提供がはじまったことが話題になっています。DALL·E 3についてはまだAPI経由で利用することができないため手動にはなりますが、既存のモデルで生成した場合との比較もできればと思います。
前回の音声を分析するフローも含め、以下のように実装しました。
この連載の記事
- 第318回 DTM勢がAIで作曲したら、AIの得意分野と苦手分野が見えてきた
- 第317回 ものづくり版コミケ「Makerフェア」2024年は面白かった。出展者の世代交代もなされているように見えた
- 第315回 0歳児、いつから保育園に? 女性の働き方、とことん考えてみました
- 第315回 推しの細胞がついた指輪を作ってもらった
- 第314回 おしゃれすぎるファン付きウェアを買って重要な問題に気付いた
- 第313回 0歳児がいながら、働く。ベストなやり方は?
- 第312回 パートナーの反対で転職できない問題
- 第311回 YouTubeの再生を止めないために画面を自動でタップする機械を作った
- 第310回 地方に移住したいが、東京にとどまるべきか
- 第309回 「マジック:ザ・ギャザリング」という深淵の入り口に立った。まだ底は見えない
- この連載の一覧へ