スポンサーリンク
ボイチェン・女声・バ美肉

ボイチェン女声(バ美肉)配信の導入方法

ボイチェン・女声・バ美肉
スポンサーリンク
へたれ
へたれ

ぶっちゃけハードウェア系のボイスチェンジャーってどうなの?

ラビ
ラビ

ぶっちゃけ金かかるよ。
しかも理想の声を得られるかどうかは才能

  1. バ美肉とはなにか
  2. ハードウェアかソフトウェアか
  3. ソフトウェア方式
    1. 使用したことのあるもの
      1. AV Voice Changer Software Diamond
    2. 読み上げ系
  4. ハードウェア方式
    1. 基本構成
      1. 構成例1
    2. ・ボイスチェンジャー
      1. 機種
      2. 機能説明
      3. 誤変換対策
    3. ・マイク
      1. 種類
      2. 筆者の経験
      3. マイクの入力音量
    4. ・マイクアンプ
    5. ・イコライザー
      1. 機能
    6. ・電源
    7. ケーブル類
    8. オーディオインターフェース
      1. CubaseAIの波形分析機能を使う
      2. 注意点
    9. その他
      1. ポップガード
      2. ラックスタンド
  5. 女性声への変換
    1. 高音域の調整
    2. 低音域の調整
    3. 響き
    4. 声の出し方
      1. ミックスボイス
      2. つぶやきミックスボイスと張り上げミックスボイス
      3. ミックスボイスの習得
      4. 息漏れ
    5. ミックスボイスの練習方法
      1. ステップ1
      2. ステップ2
      3. ステップ3
      4. 女声とミックスボイスの融合
  6. 配信設定
    1. OBSのバ美肉設定
      1. windowsのバ美肉設定
      2. あとがき
  7. 配信時の注意
    1. ・大声を張り上げない(高性能な機材を揃えていても変声が破綻する)
      1. 対策
    2. ・小声で話しすぎない(男声が交じる原因となる)
    3. なるべくボイスチェンジャーの状況を確認する
    4. ・配信PCに高負荷をかけない
    5. LAN回線速度と遅延
    6. ネットワーク帯域を使いすぎない
    7. 音声ハードウェア・ソフトウェアの周波数を合わせる
  8. 女声変声の調整
    1. ピッチ・フォルマント調整
    2. 機器調整
      1. 1~2:マイク入力~マイクアンプ
      2. 2~3:イコライザ
      3. 3~4:ボイチェン
      4. 4~5:イコライザ
      5. 5~:パソコン
    3. 音声波形から見る女声
      1. ~100Hz帯
      2. 200~2000Hz帯
      3. 1000~2000Hz帯
      4. 2000Hz~15000Hz
      5. 15000Hz~
    4. Cubase AIの設定
    5. 波形確認
      1. おっさん声
      2. 微少女声
      3. 美少女声
  9. ノイズ対策
    1. マイク
    2. 音量
  10. 切り札は最強のオーディオインターフェース
    1. 調整のコツ
  11. 所感

バ美肉とはなにか

(はぁ・・・いい歳したおっさんが何やってるんだろう、の図)

バ美肉とは「バーチャル美少女受肉」を短縮化した造語だ。

要するに「女の子のキャラクターの皮を被って、ボイスチェンジャーにより女の子声になったオッサン」のことを表す。正直、見ていて痛い。私自身もバ美肉をやっていて「これって痛いなぁ・・・」と思いながらやっている。

実にアホらしい。金もかかる。がバ美肉系Vtuberにトライすると学ぶことが非常に多いので、暇な人はトライしてみるといい。

ハードウェアかソフトウェアか

ボイスチェンジャーにはハードウェアソフトウエア方式がある。
あとは「両声類」と呼ばれる、男なのに女の子の声を出せる一部の人も存在するが、才能と努力が必要だ。一般人には無理だろう。

お好みの声質を得られるかどうかは、ハードウェア・ソフトウェア・両声類のいずれも「本人の声質」に大きく左右される。

女声もスポーツや芸術・歌と同じように、本人の才能により声質が大きく左右されるのが辛いところだ。が、声質は本人の努力によりある程度は変えられる。

ソフトウェア系バ美肉を目指すならここでブラウザバックだ。以下の記事は見る必要はない。多分見ないほうがいい。

ソフトウェア方式

最近のパソコンの進化によりソフトウェア方式でのボイスチェンジャーによる男性声→女性声が主流となってきているようだ。

しかし筆者はハードウェア方式で突き詰めているため、ここでは詳細はとりあえず割愛させていただく。

ソフトウェア方式でのボイスチェンジは
・遅延が大きい
・比較的安価
といったメリット・デメリットが有る

ここでは代表的なソフトウェア系ボイスチェンジャーへのリンクを貼っておく。筆者の管轄外なので詳しくはググれ。

使用したことのあるもの

AV Voice Changer Software Diamond

筆者がボイチェンを始めたときに初めて使用したソフト。

これもとりあえず「俺のおっさん声を女の子に変換したらどんな感じになるかな?」って試すのによいと思います。結構細かい調整ができてまぁまぁ違和感がなかったので、本格的にボイチェンを始めるきっかけになりました。

読み上げ系

いわゆる「テキストを女の子の声で読み上げる」というタイプのもの。のらきゃっと等のvtuberが有名ですね。

筆者もこれで配信をしていた時期があります。

おっさん声→マイク入力→テキスト変換→読み上げソフト→女声

といった感じで変声してくれます。声をテキストに変換する際に誤変換が起きる問題もありますが、その誤変換がいい味をだしていて人気になるというケースもあります(のらきゃっとさんがそうですね)

のらきゃっとさん大好きなんですよ・・・個人的に。中身の親近感も含めて(笑)
顔バレしても辞めなかったあの姿勢はとても偉いと思います。私も微妙なハードウェアボイチェンを諦めず半年間続けてこられたのは、あの人の姿勢から学んだところが大きいでせう。

正直、リアルタイムでなくて良いのならばこの方式はおすすめです。下手におっさんがボイチェン機材揃えても、もともとの滑舌が悪かったり声質がそもそも女声に向いていなかったりすると、かわいい女の子の声にはなりません。

東北ずん子。これをつかって配信していたころもあったなぁ(遠い目)

ボイスロイド系のソフトを使用した読み上げについては別の記事を作る予定なのでしばしお待ちを。

ハードウェア方式

ハードウェアによるボイスチェンジの方式は
・遅延が少ない
・機材が高価
といったメリット・デメリットが有ります。

基本構成

構成例1

バ美肉系ハードウェアボイスチェンジの基本構成を示す。

1、マイクにより入力されたおぢさんの声をマイクプリアンプで増幅&声質調整
2、更にイコライザーで不要周波数帯をカットするなど調整
3、ボイスチェンジャーでおっさん声を微少女の声に変換
4、微少女の声に混じるおっさん成分をマイクプリアンプのイコライザーで除去and増幅
5、イコライザーでおっさん成分を除去
6、オーディオインターフェースでおっさん声を除去and最終調整
7、美少女声で配信

機器の構成を増やせば増やすほどケーブルの数が増え、機器のノイズも問題となるため、機材構成は極力少なくしたほうが有利。

マイクプリアンプにイコライジング機能があるならば、別途イコライザーを用意する必要は無いと感じるかもしれない。が、パラメトリックイコライザーのみでは各周波数帯での微調整が難しいので、 どこかにグラフィックイコライザー機能を含んだ方が良いと思う。

・ボイスチェンジャー

機種

様々な機種があるが現在の主流はVT4。

筆者は過去にVT-3を使用していたが、ローランドのこの系統の機種は誤変換が多く頭を悩ませることになるだろう。誤変換とは入力した男声が女声として変声されず出力されてしまう問題だ。

VT-4ではこの誤変換問題はある程度は改善したようだ。が「神機」とされるこの機材も「即座に女声で配信できる!」といった類のものではない。
ここが ハードウェア系ボイチェンを難しくしている理由の一つなのだ。

筆者が試しにVT4前の機種であるVT-3を使用したボイチェン環境を1時間程度で整えた動画を貼っておいた。VT-3はとにかくこの誤変換が多い機種であるが、当サイトで紹介しているイコライザやマイクプリアンプなどの機材を揃えれば、この程度までは比較的簡単にセッティングできる。

かつて、様々なボイスチェンジャーが発売されたようだが、そのどれも決定打にかけるという印象。どのボイチェンにも一長一短ある上、過去のものはそもそも市場にでてこない。この世の中どこを探しても「このボイチェンを購入したら完璧な女声になる」機械は存在しないのが辛い。

「VT-4を買ったのに満足いく女声にならないじゃないか!」と憤慨しているケースが散見されるが、現状発売されているボイスチェンジャー単体ではこれらの問題は対処しにくい。やはりイコライザ・マイクプリアンプ・ある程度性能の高いオーディオインターフェースは、揃えなければならない。

機能説明

基本的にどのボイスチェンジャーもピッチ・フォルマントを調整するという機能がついている。この2つの声質を変更することによって男性声→女性声へと変換することができる。

VT-3という性能の低いボイチェンで試しにボイチェン構成を構築してみる。
上はボイチェンでのピッチ・フォルマント設定だ。ソフトウェア・ハードウェア問わずボイチェンはピッチ・フォルマント設定ができる。ここで大まかな女声を作り、以下で紹介するイコライザーやマイクプリアンプ・オーディオインターフェースといった機械で調整していくのが、ハードウェアボイチェンによる女声構築の流れだ。

誤変換対策

男性声の荒く波長の低い周波数帯の音がボイスチェンジャーで処理しきれず、ダイレクトに出力されてしまうため、リスナーにとって不快な思いをさせてしまう(誤変換問題

しかし低音部音は響きを含むためこの部分を下記に紹介するイコライザーなどの機材のローカットフィルターでがっさりカットしてしまうと、艶のあるエロティックな女性声(峰不二子みたいな)を作ることが難しくなるというジレンマが生じる。多くのバ美肉系配信者は「艶のある女性的な声」を望んでいるものの、それを実現するのは非常に難しいのだ。

ボイチェンの誤変換問題。VT-3は特にこの誤変換が多く多くのボイチェンマニアを悩ませたいわくつきの機械だ。誤変換はどのボイスチェンジャーでも生じるものであるが、高級機種になるほど誤変換が少なくなる印象。誤変換を防止するには入力するあなたの男声が重要で、ここにボイチェンの難しさがある。

また荒く低い周波数の音をボイスチェンジャーで変声しても、荒く高い周波数の女性声(?)にしかならないので、キンキン声が耳障りな音となってしまう。

これを防ぐためには「話し方」が重要で、とかく低音で話しがちな我々おっさんは、1オクターブ上げた明るい声で話すことを心がけなければならない。

男性の場合は「ドレミファソラシドレミファソラシド」の2オクターブを地声で賄うことができ、これ以上となると裏声の領域となる。基本は赤線で塗った領域の声で話すように心がける必要があるが、これだけだとボイチェンでの誤変換は防ぎにくい。解決策は後で述べる。

私が使用しているボイスチェンジ機材は廃盤のものなのでここでは掲載しないが、ピッチ・フォルマント調整機能、コンプレッサー・イコライザー・マイクアンプ機能など非常に高性能な機材となる。が、基本的な機能はピッチ・フォルマントの調整なので現行機種でも過去の機種でもここは変わらない。

私の所有しているボイチェンは高機能であるがゆえに調整が難しく良し悪しだ。

最近ようやく使いこなせるようになってきたが・・・。ボイスチェンジ機を購入してから3年が経過していた。扱いづらいボイチェン側の設定に頭を悩ませるより、VTシリーズのように簡単にピッチ・フォルマントを調整できる機材のほうが、調整、操作的には楽だと思う。

・マイク

種類

マイクには「ダイナミックマイク」と「コンデンサーマイク」の二種類がある。女声にとってどちらのマイクがいいのかという答えはいまだに出ていない。なぜならそれぞれの特性が全く違うからだ。コンデンサーマイクにはコンデンサーマイクの、ダイナミックマイクはダイナミックマイクなりの女声の突き詰め方があるはずだ。

マイクによる比較。ダイナミックマイク・コンデンサーマイクなど筆者は数本所有しているが、ボイチェンに向くマイクを見つけるのに非常に苦労した。所有しているオーディオインターフェース・マイクプリアンプなどとの相性があるからだ。

ダイナミックマイク
・マウス音・生活音・道路からの騒音など 周りの音を拾いづらい
・コンデンサーマイクに比べてややこもったような声になる
・機械的に丈夫な構造
・比較的安価

筆者は現時点でダイナミックマイクを使用している。下で述べるコンデンサマイクの問題が解決しにくいためだ。ただダイナミックマイクはコンデンサマイクに比べ集音性能が低いのが欠点でもあり利点でもあるのだが、ダイナミックマイクの最大の欠点として「マイクから口元が離れた場合の入力音量の減衰が大きい」という点が挙げられる。

これはどういうことかというと、マイクから1cm離れたときと5cm離れた時とでは入力の音量はおろか声質まで大きく変化するということである。

当然、おっさんの声質が変化すればその変化に対応したボイチェンの設定が必要になる。しかし事実上、マイクとの距離毎にボイチェンの設定をいじることなど出来るわけもないので、頭を抱えている。

コンデンサーマイク
・高感度なため声以外の音を拾いやすい
・高感度なためクリーンなボイスとなる
・精密な機械なため取り扱いに注意
・高価な機種が多い

バ美肉にはどちらが良いとは断言できない。お使いの機材・周囲環境によって変わるためだ。

コンデンサーマイクは高音から低音まで拾うため、発生開始時のリップノイズを拾う。またオクターブの低い男性の声を拾うため、
・「低い男性の声を全カットしたい」という方針ならばダイナミックマイクを使用する。
・「低い男性の声もボイチェンに入れて無理矢理女声に変換したい」という方針ならばコンデンサーマイクを使う。

ここはボイスチェンジャーの能力・機能、自身の地声の質により判断すること。故に、「コンデンサーマイク」と「ダイナミックマイク」を最低限1本は揃えておいた方が、調整はしやすいだろう。

またよいコンデンサーマイクを使用する場合、経験上、オーディオインターフェースもまた高級なものを必要とする。AGー03やUSー366クラスの廉価なオーディオインターフェースでは女声の違和感を吸収しきれない印象だったし、おっさん声がオーディオインターフェースのDSPで吸収しきれず出力に漏れた。

コンデンサマイクの場合集音性能が非常に高いのでマウスやキーボードの音や椅子の軋み音、洗濯機の音なども拾う。この音がボイチェンに入ると高音に変換されるため、ボイチェンを使用していることがリスナーにバレやすくなる。

そのためDSPのノイズゲート機能やイコライザーの周波数調整機能を使用してある一定以下の音量の音は出力されないように調整するなど、対策が難しくなる。

筆者の経験

男性から女性声へと変換したい場合、マイク選びが重要となる。 私は、
・数百円の中古ダイナミックマイク(定価10000円)
・十数年前に購入したカラオケ用のダイナミックマイク( 5000円で購入)
・同じく購入したダイナミックマイク(1500円ほど)
・購入したコンデンサマイク( 30000円)
・なにかの製品についてきたヘッドセット型ピンマイク(数百円?)

と複数のマイクを使い分けながら調整してきたが、高品質なマイクが良いとは限らなかった。

あるシーンでは数百円のピンマイクの方が良いし、あるシーンでは30000円のコンデンサーマイクが良かった。

マイクアンプやイコライザー、そしてボイスチェンジャーによる声の変成は声の「波長」をいじるもので、それぞれのマイクにより特性が違うため、シーンによってはこちらのマイクの方がよい、この場合はあちらのマイクのほうがよい、と頭を悩ませるだろう。

確実に言えることは「マイクは複数本持っていたほうが良い」ということ。

筆者の場合、高級なコンデンサーマイクを使用して調整をすすめてきた。これは私が所有しているボイスチェンジャーが高級品で機能が多く性能が高いため「男性声の鈍い声も高性能なボイチェンを使用して女性声に変換する」という方針だからだ。

が、コンデンサーマイクでは話はじめのリップノイズを拾ってしまい、これがボイスチェンジャーと各種アンプ・フィルターにより高音に変換されて不快な高周波音となってしまっていた。これをフィルターなどによって完全に除去するのは困難だと判断し、現在はダイナミックマイクでの調整を進めている。が、ダイナミックマイクにも上で述べたような調整の難しさがあるため、悩んでいるのだ。

女声道は長く険しいのだ。

マイクの入力音量

マイクの入力音量については、大きすぎず小さすぎず。大きくすれば音が割れるし、小さすぎればボイスチェンジャーで女性声に変換できず「男性声のまま出力される」という最悪の自体を招く。

故にマイク入力音量は可能な限り大きくする必要があるが、大きすぎると音が割れるのでその限界を狙う。

マイクプリアンプのマイク入力側のフィルター調整を行うと出力音量もかわり、ボイスチェンジャーへの入力音量が変わるので都度調整したい。

とにかく女声は「薄く軽い」アニメ的な声を作るのが比較的簡単ではあるのだが、声が薄くなると音量を上げても全体的な音量が上がらないという問題が出てくる。なのでリスナーから「声が小さくて聞こえないよ」と苦情がくるのだが、無理にボリュームを上げると女声の微妙な調整のバランスが崩れて「今度はおっさんの声みたいだよぉ・・・」とクレームがくる(笑

どうすりゃいいってんだよ全く。

・マイクアンプ

マイク音量の増幅を基本とするが、入力~出力間で声質を変化させることができるタイプのアンプがあるので、これをおすすめする。パラメトリックイコライザー機能があれば声質の調整はダイヤルを変更するだけで自在に行える。

マイクアンプの機能として

・マイクから入力された声を増幅する
・入力側は男性声の荒々しい声を整える
・出力側は女性声を整え、かつボイスチェンジャーから発せられる誤変換された男性声をフィルターする

といった機能をもたせる。

マイクプリアンプの設定例。性能紹介のため、あえて性能の悪いVT-3というボイスチェンジャーを使っているが、キンキンした音がプリアンプ調整で声質をかなりなめらかにできるのが分かるだろう。筆者はこれをボイチェンのIN側とOUT側につないでいる。

上のリンクは筆者が使っているMIC2200だ。定番のマイクアンプであり、これにより
・MIC GAIN(入力側のマイク音量を調整)
・PHASE REV(波長を反転するらしい。ボイチェンでは使わないかな)
・LO CUT (男声の嫌な低音をカット)
・OCTAVE(声の響きを調整?)
・LEVEL(こちらも声の響きを調整する感じ)
・OUTPUT(出力側の音量を調整)

といった感じで、マイク入力音・ボイチェン出力音の微妙な調整を行えるのだ。つややかな女性の声やアニメっぽい声など、ここで声質をかなり変更できるぞ。この機種は真空管を使用しているため、温かみのある優しい声になる。ボイチェン後の声はどちらかよいうとキンキン金切声に近くなると思うので、この点は嬉しい。

またボイスチェンジに生じる様々なノイズを、このマイクプリアンプのパラメトリックイコライザ機能によってある程度低減させることができる。特に、ボイスチェンジ時に生じる男声特有の低音域の誤変換ノイズを、設定によってかなり隠すことができるのでアナログ系のハードウェアボイチェンを構成する上で、非常に重要な機械だ。

とりあえず廉価なMIC2200とVT4を購入してバ美肉にチャレンジし、いかにボイチェン調整が難しいか現実を知って引退するのが一番かもしれない。
MIC2200だけなら微妙なおっさん声をイケボへ変換もできるので、バ美肉を諦めた後にイケボ配信者として華々しくデビューするチャンスがなくもない。

コンデンサーマイクはダイナミックマイクと違い48ボルトの電源(ファンタム電源)を供給する必要がある。バ美肉系vtuberを目指す場合、マイクはコンデンサーマイクを選択することもあると思うので、ファンタム電源供給可能なものを選択しよう。

・イコライザー

機能

 不要周波数帯のカット・増幅を行う。グラフィックイコライザーとパラメトリックイコライザーの2種類がある。筆者はグラフィックイコライザーは周波数ごとに摘みが設けられており調整が非常に簡単、パラメトリックイコライザは数個あるつまみで調整するため周波数の状態が視覚的に捉えにくく使いづらい。

上で述べた男性の太く荒々しい声をボイスチェンジャーに入力するかどうかは迷うところである。
荒々しく太い周波数帯の声を女性声に変換すると鈍く荒い女性声になるが、ここは声の響きが含まれる部分でもあるので、イコライザーやマイクアンプの周波数カット機能などを使用して調整したい。

この調整は難航を極めるだろう。極めた。

グラフィックイコライザの設定。25Hz~20kHzまでの幅広い周波数帯ごとの微調整を行える。こういった微調整はオーディオインターフェース単体ではできないことが多いので必須だ。オーディオインターフェースにグラフィックイコライザー機能があればいいが、大抵の場合はパラメトリックイコライザーだからだ。

イコライザーは最低でも2系統のイコライジングが行えること。1系統のみの場合、2台用意する。

理由は、
・1系:マイクからアンプへと接続後の男性声をフィルターする
・2系:ボイスチェンジから出た女性声をフィルターする
という2系統のフィルターが必要だからだ。

高性能なオーディオインターフェースの場合、これらのイコライジング機能を含むものもある。大抵の場合はアナログのものよりも高性能であり細かい調整もパソコン上で行える上にクリーンな声に調整できるので、予算があるなら数十万もの高級オーディオインターフェースを使用するのもいい。

いいのだが、オーディオインターフェース内蔵のイコライザーだけで全てを調整するのは難しかったりする。別途用意したマイクアンプやグラフィックイコライザーなどもあわせて調整するのが理想の声に近づく道でもある。

ただ、調整項目が増えれば増えるほど、調整に妥協点を見出しにくくなるので沼にハマる。覚悟は必要だ。

・電源

男性声から女性声に編成する場合、各種のノイズに頭を抱えることになるだろう。
高品質な電源は家庭用コンセントからボイチェン機器へと伝わる各種のノイズをフィルターするため、ノイズが少なくなるる。

とかく微細な変声をおこなうボイチェン環境ではノイズの発生が致命傷となりがちなので、電源選びは慎重に行いたい。

実を言うと電源は他の会社(S○NY:流石に企業名は伏せさせて頂く)の廉価なものを使用していた。が安物故フィルターの機能があまいのか、細かいノイズの発生源となって苦しんでいた。が、上のAV-P250を導入した後、このノイズ問題がかなり軽減できた。ボイチェン環境におけるノイズの発生に悩まされたら、導入を検討してみよう。まぁノイズが無くなる保証はできませんが。

また、電源は高額なボイチェン機材を外乱から守るためにも必要な機材と言える。

・各種ノイズを除去するフィルター機能
・落雷によるサージ電流の抑制
・ボイスチェンジ機材の電源一括投入・電源順次投入機能

ケーブル類

上で述べたような機材を一通り揃えたならばケーブルにて接続することになるが、意外なことに「ケーブル由来」のノイズに頭を悩ませることになる。

というのも、ボイスチェンジャー・マイクプリアンプ・イコライザーはそれぞれがノイズを発生させるし、「女声」の周波数域と高音ノイズ帯が被っているため、「サー」という高音ノイズを除去するのに頭を悩ませることになるのだ。グラフィックイコライザーにより高音部を増幅するとホワイトノイズが増幅されて「キーン」という高周波音が常時響くことになる。

ボイチェン各種機材から発生するノイズは機材由来なので仕方ないのだが、ケーブルはなるべく良いものを使ったほうがいい。また、ケーブル長さはなるべく短くすること。

ケーブルに関しては自作するのもいい。6.3ジャックやXLRジャックは数百円で売っているしケーブルも10m切り売りで販売しているので、はんだごて片手に自身の環境にあった長さのケーブルを自作すると安上がりになるぞ。

ただしケーブルの自作は思った以上に手間がかかり時間もかかる。購入するのが最も手早いとは思う。まぁ趣味の世界だからいいんだけどさ。

オーディオインターフェース

ボイスチェンジ・マイクアンプ・グラフィックイコライザーを通して編声した男声→女声をパソコンに入力するために必要な機械。

上で紹介しているのは筆者も所有しているAG-03。かつてはこれで女声ボイチェンの調整を煮詰めていた。

グラフィックイコライザーのOUT側から出したオーディオケーブルをパソコンのマイク端子に指しても良い。がグラフィックイコライザーによってはコンプレッサー・ノイズサプレッサー・ノイズゲートといった各種の機能を含むものもあるので、女声の最終的な調整をオーディオインターフェースで行うというのが理想。

YAMAHAのAG-03による設定。AG DSP CONTROLLERでの調整で声質が劇的に変化するのが分かるだろう。筆者は30万のオーディオインターフェースを所有しているが、正直AG-03で十分だったかなと思っている。

YAMAHA AG-03のコントロールパネル(DSP)
パラメトリックイコライザー機能とコンプレッサー、エフェクト機能が満載。
女声を微調整する上で極めて有用な機能だ。
この価格でこれだけの高度な調整ができる機器を私は他に知らない。

上で紹介しているAG-03はオーディオインターフェースとしては定番中の定番。グラフィカルなDSPを採用しており、イコライザー機能も非常に優秀であるため、導入を検討してほしい。
余談だが筆者がYAMAHA AG-03を購入した時はSteinberg cubase AIというソフトのダウンロードキーが付属していた。これがDTMをする上で非常に役立っている。筆者のようにバ美肉をこじらせるとオーディオにも興味が湧くかもしれないので、マジでオススメ。

筆者はUS-366という古い機種も所有している。今更この古い機種を買うのもアホらしいので最新の多機能なAG-03を購入することをおすすめします。懐事情に余裕があるならば更に高額なオーディオインターフェースを採用するのもいい。業務用の数十万するオーディオインターフェースは流石に品質が違うので。

CubaseAIの波形分析機能を使う

私がこのYAMAHAのAG-03というオーディオインターフェースを購入した時「CubaseAI」というDAWソフト(音楽作成支援ソフト)のダウンロードキーが付属していた。当初はボイチェンのことしか頭になく音楽作成など考えていなかったので興味がなかったのだが、最近ピアノを購入して音楽作成に勤しみ始めた際に試しに入れてみた。

そのときに気づいたのが「CubaseAIには音声波形の分析機能がある」ということだった。

CubaseAIによる音声波形。音声波形がリアルタイムで表示される。
試しに筆者のきったない美少女声の波形を見てみた。

この波形を見ていると、どうもきれいな女声と汚い女声には一定のパターンがあるのだというのがわかってきた。なのでAG-03に付属のCubaseAIの分析画面を見ながら、各種イコライザーで設定を煮詰めていくのが、美しい女声への近道ではないかと思う。

注意点

機種購入時に注意することは
・パソコンとのUSB接続が可能か
・サンプリング周波数がご使用のボイスチェンジャーに合っているか
・ハイレゾ配信(192khz以上)に対応しているか。
・ループバック機能はあるか
・コンプレッサー・ノイズゲートといった必要な機能が内蔵されているか、またこの機能を使用することによって遅延は発生しないか
・楽器などを併用する場合は楽器入力用の端子があるか

特に重要というか設定で悩んだのは、サンプリング周波数ですね。私はあまりこのあたりの知識には疎いのですが、ボイスチェンジャー側の周波数と、オーディオインターフェース側の周波数と、OBS側の周波数をなるべく合わせるようにしないと音が歪むようです。

特に無理矢理女声に変性した男声はこの歪がおおきくなるので、よく確認してください。

色々設定をいじってみての体感ですが、ボイチェン48khzならオーディオインターフェース側は96khz、OBS側は96khzか192khzといったふうに、ボイチェンの倍数になるように設定するようにしたほうがキレイな女声として出力されるようです。

オーディオインターフェースにはお金をかけた方がいい印象。筆者の場合、最終的にバビ肉環境で一番金がかかったのがオーディオインターフェースだった。

その他

ポップガード

コンデンサーマイクなど、リップノイズ(口の中が粘っていると生じやすいくちゃくちゃとした音)を拾いやすいマイク対策用。

使うとリップノイズが軽減する。上のリンクのように布製のものもあれば、金属製のものもある。金属製はウェットティッシュで拭くなどメンテがしやすい反面、布製のものと性質がかわるらしい。

ラックスタンド

上で述べたようなマイクプリアンプ・フィルターなどのオーディオ機器をまとめて設置できるラックスタンドだ。案外こういった製品は種類が少ない。上で紹介してるのが安いし場所も食わないので机の上にも置けて便利。自分はバ美肉ユニットを上の製品にまとめているぞ。

女性声への変換

高音域の調整

女性声への変声はとかく「けろけろボイス」と言われる高音で周波数が高い声(ミッキーマウスの声)に悩まされることになるだろう。男性声のピッチ・フォルマントを高く調整すれば甲高い声となるが、ミッキマウスの声になるだけだ。これは女性声ではない。

低音域の調整

では低い周波数帯を入れればよいかというとそうでもない。低い声は男性声の領域であるから、男性声の鈍い声が出力される危険を伴う。
大抵の配信者の場合、男性声がリスナーに聞こえることを極端に恐れるため、大抵の場合はミッキーマウス側に寄せがちだ。

私のように男性で有ることを公言しているvtuberは「別に男ってバレてもいいや」と腹をくくれるが、大抵の場合は[中身も★美少女]を演出したいはずなので、高音域から低音に寄せていくような微調整を行っていくとよいだろう。

響き

大抵の場合は男性声特有の響きをカットするように調整しがちだが、男性声に含まれる響きは、女性のエロティックな声の響きをも含むため、ここをカットすると声の「艶」がなくなってしまう。

響きがない女声は喉が枯れてカスカスになった婆さんの声みたいになる。

この響きを全カットしてしまうと声の深みがなくなり、カラオケ等でエコーをかける時に響き部分が増幅しづらいため、「なんでこんなにエコーかけてるのに響かないんだ」と悩むことになる。

「男性声ではなく」かつ「美しい響き」を得られる周波数帯を見つけ出す必要があるのだ。

が、これは非常に難しい。なぜならば少女声に変声した声には必ず、骨伝導によって自分の地声が乗ってくるからだ。要するに「美少女声」と「自分の地声」の聞き分けが難しいのだ。特にこの「響き」の部分の調整は、胃に穴が開くほど苦しむだろう。

声の出し方

上で述べたハードウェア機材をすべて整え、微妙な調整を完全に実施しても、男性特有の重苦しい声を出している限りきれいなボイスチェンジはできない。

私も各所のボイチェン掲示板を渡り歩いて調べたが、どれほど良い機材を揃えたところで、オクターブの低い地声で話している限り、完全な女性声にはならない。ヤクザのドスのきいたオラつき声を女性声に変換するのは難しいという訳だ。

高級機材を揃えることで低い周波数帯のいやらしい男性的な声をある程度カットはできるのだが、それも完璧とは言いづらい。

そのため「声の出し方」が重要となる。

入力する男声での比較。おっさん特有の低い声で話すとボイチェンが誤変換しやすくなり、なるべく高音で話すほど誤変換がなくなってきれいな女声になる。なので入力側はなるべく高く話す必要がある。これは安物で固めたボイチェン構成の場合さらに顕著になるので、筆者のように地声でボイチェンしたい人は高級機材で固めないとダメ、ということになる。

男の場合、大体2オクターブほどの声域があるため、低い方のオクターブはなるべく使わず、高い方のオクターブで話すように心がける。

が訓練をしていないと2オクターブの上の方を使うことは難しい。大抵の場合は裏声になるし、声を張り上げて無理に高音域で叫ば女性の断末魔の叫びのような声が変成されるため、とても人様に聞かせることができるような声ではなくなるのだ。

ミックスボイス

そこで活用するのが「ミックスボイス」と呼ばれる声の出し方だ。

「粉雪(レミオロメン)」という曲を男性が歌おうとすると、訓練していない人の場合、サビの部分で声を張り上げてしまい喉を痛めてしまう。私はこの曲が歌いたいがために散々歌ったが、喉を壊す日々だった。

が、「ミックスボイス」という技法を使えば、この部分を比較的簡単に歌うことができるのだ(上の動画の「こなゆき~~~ぃ」の部分)。

男性は地声で「 ドレミファソラシドレミファソラシド 」の2オクターブをまかなえることは先述したが、これ以上のオクとなると裏声を使用しなければ無理だ。

通常、男性は[地声]と[裏声]を切り替えて歌う。が、[地声]と[裏声]の継ぎ目が目立ってしまうため、ミックスボイスを訓練していない人だとこのつなぎ目が目立ってしまい聞くに堪えない声となる。鍛えられていない男の裏声ほど、聞くに堪えないものはない。

反面、ミックスボイスでは[地声]と[裏声]のつなぎ目をなくすように歌うため、地声と裏声の切り替えに違和感がなくなる。話すときもミックスボイスを使うことが重要となる。

つぶやきミックスボイスと張り上げミックスボイス

ミックスボイスには「つぶやきミックス」と「張り上げミックス」の2つがあると私は理解している。上で貼った「粉雪/レミオロメン」はどちらかというと「つぶやきミックス」の方だろう。

ラルクアンシエルのWinterFallでは「張り上げミックス」を使っているようだ(~笑顔包むから、のあたりですね)。

ただ、この張り上げミックスは極めて高等な技術である。「つぶやきミックス」を長期間練習し続けることにより裏声の使い方が上手くなり、地声と裏声を混ぜる能力が向上してくると、徐々に小声でしかできなかったミックスボイスが大声でも出せるようになってくるのだ。

ただこれを素人が習得しようとするのは無理がある。はじめは「つぶやきミックスボイス」から初めて徐々に喉を鍛えていこう。

ミックスボイスの習得

このミックスボイスの習得には非常に長い月日と正しい指導者による導きが必要と思う。

実際、私は過去にカラオケを毎日通い、ミックス(らしき)声を手に入れるまでに5年の歳月がかかっている。正しい指導者の元で教育を受ければ数ヶ月で可能と思う。可能ならばボイストレーナーに教えをこうのがいいでしょうね。

バ美肉ボイスチェンジャー環境とつぶやきミックスボイスの相性は極めて良く、話をする際はつぶやきミックスボイスを使うことになる。
が、ミックスボイスは声量を増すと難易度が上がる。いわゆるつぶやきミックスは比較的簡単なのだが、小声になると今度はボイスチェンジャーが音を拾いづらくなり、誤変換により男性声が出力されるという大問題が出てくる。

故に筆者は高感度なコンデンサーマイクを使用するという構成に至ったが、コンデンサーマイクの場合は高感度すぎて今度はリップノイズが入りやすくなる。

リップノイズは男性でも高音域の周波数帯なので、ボイチェンにより超・高音域の音として出力され、話し始めに「チッ」という耳障りな高音が入ってしまいやすくなる。

リップノイズ対策としては「食事後すぐに配信しない(口の中が粘っていると生じやすい)」「ポップガードをつける」といった対策があるが、一番は「マイクから口をなるべく離す」ことだ。

しかしマイクから口を離すと入力音が下がってしまうため、ボイスチェンジャーが誤変換しやすくなる。どうしろっていうんだ・・・・と頭を抱えていた。

現在は「低感度な安物のダイナミックマイク」が案外イケテているのではないか?と思うようになってきて、調整中だ。もちろん、これも正解ではないかもしれない。

息漏れ

つぶやきミックスボイスのコツは「常に息を少し通す」ことだ。息漏れと声の割合が通常は1:9くらいの割合とすると、つぶやきミックスでは息漏れ:声=5:5くらいで初めて見るといい。これを徐々に4:6、3:7と息漏れの量を減らしていくことで、発声に必要な空気量が少なくなってくる。はじめはあまりの空気消費量のため、歌を歌う際に息継ぎが大変だろう。

地声と裏声の切り替えで息の出方を切り替えるのではなく、少し息を通すことでつなぎ目を無くす。息漏れを多くすればリップノイズも比例して減る。リップノイズの根本的な対策になるが、ミックスボイスは話し始めは結構難しいので、訓練が必要だ。

地声に常に裏声が混ざっているような印象。これに関しては人によってコツが様々あるため、色々と試してほしい。

私の場合、息漏れの量を大きく取りすぎる癖があるため、肺の中にある空気の消費量が多いのが難点だ。が、この息漏れは「女性的な響き」をも含むため、女性声への変声を行う場合には少し息漏れを混ぜたほうがよい。が、息漏れを多くすると空気消費量が増えるジレンマ。

ミックスボイスの練習方法

ステップ1

ミックスボイスの練習を始めた頃は、とかく地声と裏声のつなぎ目が目立ちやすく苦労する。

地声で張り上げで歌うには高音域は限界があり、無理に声を出せば確実に喉を壊す(私は高音域を地声で歌おうとして何度も声帯を痛めている)

なのでまずは「裏声で女性曲を歌う」練習をしよう。ミックスができない場合、地声と裏声を頻繁に切り替えることで歌う。はじめの頃は裏声を使うのも厳しいが、少しずつ慣らしていく。女性歌はキー+3くらいしても良い。

徐々に裏声の声帯筋肉が鍛えられて裏声の音量がまして、声が太くなっていく。が、無理に声帯をを締めて大きな裏声を出そうとすると、たちまち声帯は傷ついてしまう。こうなると声帯が回復するのに数週間が必要となるだろう。龍角散のど飴をなめながら寡黙にふけることになり、歌が好きな人にとっては地獄の数週間だろう。
はじめはか細い裏声でよいので、女性曲を地声・裏声を切り替えながら歌おう。

ステップ2

裏声の筋肉がいい感じに鍛えられるまでに数ヶ月がかかる。地声と裏声の声量はどうしても裏声の方が負けるのだが、地声の声量を落として裏声と地声の切り替え部分を目立たなくしていこう。

数ヶ月経過した後は裏声の声量はかなりのものとなっているので、裏声と地声のつなぎ目がかなり目立たなくなっているだろう。が、裏声はどうしてもか細いため、地声発生時はマイクを遠ざけ、裏声の歳はマイクを近づけるなどして、つなぎ目を目立たなくしていく。

この頃になると息漏れにより裏声の声質がかなり変化する事に気づいているはず。はじめの頃は喉を締め上げてでしかできなかった裏声も、喉に力を入れなくても裏声が出せることに気づくだろう。

息漏れの大きい裏声は「喉を開放した状態」で行うが、上のつぶやきミックスの項目で述べたように喉を開放してだす裏声は息の消費量が半端なく多い。

そのためはじめの頃は曲の一番を歌うだけでもへとへとになってしまうだろう。

ステップ3

数ヶ月~数年に渡るカラオケにより、裏声の筋肉と地声の筋肉が程よく鍛えられた時期。

「裏声は喉を閉めなくても出せるんだ」と気付き、地声に「裏声の成分が混じってきた」段階だとする。この頃になるといよいよ「ミックスボイス的なものができるようになってきたんじゃないか・・・?」と実感し始める。

地声と裏声のつなぎ目がかなり目立たなくなり、ある時期「あれ?地声の低音部まで裏声で歌えるじゃん」と気づく。
また同時期に「あれ、裏声でしか歌えなかった高音部が地声でも結構いける・・・ぞ???」と不思議な状態に気づき始める。

このときこそ「ミックスボイスを体得した瞬間」だ。

そう、「低音部まで歌える裏声」と「高音部まで歌える地声」を組み合わせたものこそ、ミックスボイスなのだ。

はじめの頃は「この音域までは地声でいけるけど、裏声に切り替えなければいけないかな?」と悩むのだが、長い訓練によりこの切替部分をあまり意識しなくても歌えるようになる。こうなるともう地声と裏声の切替部分はほとんど目立たなくなり、素人が聞いても切替部分に違和感を感じないと言われるだろう。

女声とミックスボイスの融合

・ミックスボイスを習得できていない人
               地声←|→裏声
[ドレミファソラシドレミファソラシド| レミファソラ]

・ミックスボイスを習得できている人
 ※全体がミックス
[ドレミファソラシドレミファソラシドレミファソラシドレミ]

赤線の部分が、ボイスチェンジャーに入れる声域となる。

配信設定

配信にはOBSを使用する。

他のソフトの設定は知らないので書かない。書けない。

基本的に女声の設定で注意すべき部分はサンプリング周波数の44/48khzとビットレートの192khz設定くらいか。

OBSのバ美肉設定

OBSの右下の[設定]ボタンより設定画面を開こう。

[出力]-[音声]で音声ビットレートを確認する。筆者の使用しているボイスチェンジャーは48khzで運用しているが、これの倍数(x4)である192khzを選択している。

これはyoutubeで配信可能な最高のビットレート数であり、ハイレゾ音声でもあるのでクリアーな音声を視聴者にお届けできるぞ。

OBSの[設定]-[音声]で設定を確認しよう。
[一般]の[サンプリングレート]では”44.1”と”48”khzを選択可能だが、ここはご使用のボイスチェンジャーのサンプリングレートに合わせよう。
ボイチェンが48khzなのにここが44khzだと、音が歪む印象。

[グローバル音声デバイス]ではご使用のマイク・スピーカーの設定に合わせて選択を変更しよう。

windowsのバ美肉設定

筆者の配信PC環境はwindows7である。なので現在主流のwindows10とは若干違うが、設定項目自体はほぼ同じはずなので、参考にしてほしい。

windowsの[コントロールパネル]を開き[サウンド]を開く。するとご使用の再生デバイスと録音デバイスの設定画面がでてくる。

筆者の場合、TASCAMのUS-366でのループバック設定を実施しているため、再生デバイス・録音デバイス共にUS-366だ。まずは録音デバイスのUS-366をダブルクリック。

すると、[スピーカーのプロパティ]画面が出るので[詳細]を押すと、[規定の形式]という項目が現れる。

ここを、あなたが所有されている機器の最大の設定(筆者の場合は24ビット・96000Hz(スタジオの音質)」を選択。ここの”96000Hz”は上で述べたOBSの配信ビットレート数である”192kHz”の半数であることに注目。

(US-366の最大設定は192khzでした。後日変更しています)

ボイチェンが48khz、オーディオインターフェース(US-366)が96khz、OBSが192khzという具合に、ボイチェンの倍数にすることによって音声が歪みにくくなる印象だ。

次にマイク側の設定だ。[録音]タブを押し、あなたが使用しているオーディオインターフェースを選択してダブルクリックしよう。

するとプロパティ画面が開くので、[詳細]タブを押す。そこで規定の形式にて、オーディオインターフェースの最大の設定を選択する。ここもボイチェンの48khzの倍数である96000hzを選択しているぞ。

あとがき

ここで紹介した設定はあくまで筆者の環境で煮詰めた際に問題となった部分を掲載した。私自身音響は素人であるので間違っている部分があるかもしれない。そこはご了承いただきたい。

配信時の注意

・大声を張り上げない(高性能な機材を揃えていても変声が破綻する)

高性能な配信環境やボイスチェンジャー・機材を使用しても大声を出せば破綻する。特に廉価なオーディオインターフェースを使用していると大声時の破綻は避けられない。数十万円するオーディオインターフェースならばある程度はカバーしてくれるが。

コンプレッサーのアタックなどの設定である程度カバーできるが、そもそも安物のオーディオインターフェースにはコンプレッサー機能がないことも多い。

対策

・そもそも大声を出さない(重要)
・コンプレッサーによる大音量音声の抑制設定
・マイクから距離を離す(誤変換のリスクあり)

・小声で話しすぎない(男声が交じる原因となる)

小声で離すとボイスチェンジャーへの入力音が低くなり、誤変換の原因となる。小声対策でマイク入力音量を上げすぎると、ホワイトノイズ上昇・音割れのリスクが発生するので、ある程度の声量で一定で話すように心がけることが重要。

特にVTーX系のボイチェンでこの問題が起きやすい印象。

なるべくボイスチェンジャーの状況を確認する

配信で最悪なのは「女声を出しているつもりが実は男声で配信していた」というものだろう。なるべく自分の女声を自分で聞きながら配信すべきだろう。

ただしハードウェアボイスチェンジャー構成の場合は、一度設定してしまえばハードウェア側の設定を放送中にいじることは少ないと思うのでこのリスクは比較的低い。

ソフトウェア系ボイチェンの情報をいろいろ調べていると「パソコンのスペック不足でおっさん声が交じる」とか「30分以上使用するとソフトがバグり初めておっさん声が交じる」といった、背筋の凍るようなコメントを見かける。ソフト系はこういった弱点があるのだが、ハード系はこういった問題は今の所生じていない。

が放送中に「声質を変えたい」とか「ロリ声とお姉さん声を分けて2キャラを演じたい」といた特殊なニーズを満足するためには設定をいじる必要も出てくる。

しかしうっかり「バイパス」ボタンのように地声をそのまま出力してしまうボタンを触ってしまったら目も当てられない。なるべく、放送中はボイスチェンジャーを触らないほうがいい。バイパスボタンの機能offができるならしておこう。

複数の声を変換できる機能を持つボイスチェンジャーの場合、フットスイッチなどの切り替えスイッチを取り付けられるものもあるので活用しよう。

ボイチェンが誤作動を起こしていないか、普段からよく監視しておく必要もあるだろう。

・配信PCに高負荷をかけない

→配信時にパソコンに負担がかかると声が歪む。私はこの問題で1ヶ月悩んだ。CPU使用率50%を超えたあたりから女声が歪み始め、全体的にこもったような状態になり聞くに堪えない状態になる。

上の配信時がその状態。喉が潰れたミッキーマウスのような声だ。このときの配信PCのCPU使用率は70%前後。対策としてCPUに過大な負荷をかけていたFacerig(40%ほど)をメインPCへと移行することで対策した。

LAN回線速度と遅延

私の配信環境はゲーム用パソコンと配信用パソコンの2台構成によって行っている。二台のパソコンが1000BASEのLANで結ばれており、常時100Mbps程度の通信速度によって通信している状態だ。

この状態だと当然、100BASEの通信環境だと通信が難しくなる。はじめは100BASE環境で配信を実施しようとしたがNDIの通信が回線速度不足で遅延の問題が発生した。

遅延により女声が歪まないとも限らないため、LAN環境はなるべく余裕を持った環境で構築しておきたい。

ネットワーク帯域を使いすぎない

筆者の通信環境はアパート付属のCATVで30M~80Mbpsほどの通信速度が出る。これだけ出ていれば通信速度的には問題なく1920*1024 60fps 9000ビットレートの高画質配信が可能だ。

配信時にはOBSの右下に通信速度が表示されるが概ね8500~9000前後で安定して配信できている。

しかし大規模マンションなどの複合回線の場合、夜間は他ユーザーのP2P使用などによって通信速度が一時的に急減することもある。理論上は1Gbpsの超高速光回線!と歌われていても、実際は1Mbps程度まで一時的に回線が絞られてしまうこともある。

こうなると配信が満足にできなくなり、コマ送りになったり、リスナー側で遅延が発生したり、最悪配信が途切れてしまうといった自体になる。

配信が一度切れると、各種の設定をもう一度やりなおさなければならず再放送に手間がかかること、リスナー側に迷惑をかけてしまうためチャンネル登録解除、最悪放送事故といったリスクも出てくるので、ご自分の使用しているネットワーク環境に合わせた配信画質の設定が必要だろう。

音声ハードウェア・ソフトウェアの周波数を合わせる

ボイスチェンジャー・オーディオインターフェース・OBSといった音声に直接関係する機材にはサンプリング周波数の設定項目が存在する。

この周波数帯の設定をなるべく合わせること。合わせないと音がひずむ原因となる。特に女声は声の歪み・こもりが目立ちやすいため注意が必要だ。

経験上、ボイスチェンジャーのサンプリング周波数を48khzに合わせたら、windowsのマイクは48khzの倍数(96khz・192khz)、スピーカー(オーディオインターフェース)、OBSも同様に倍数に合わせると歪が少ないと感じた。

女声変声の調整

さて、ここまで読んでしまった読者は、筆者の静止も聞かずボイチェン機材を購入してしまったのかもしれない。罠だと言ったろうに・・・。

仕方ないので、女声の調整について少しだけ書いていく。ただまぁ筆者のボイチェンも正直微妙な感じなんであくまで参考程度に。調整については正直俺が教えてほしいくらいだよ・・・。

ピッチ・フォルマント調整

機器調整

1~2:マイク入力~マイクアンプ

マイクアンプでおっさんの声をどのように調整するかの部分。

ボイチェンの性能に大きく左右されるが、基本的にボイチェンは「おっさんの声を女の声にする」機械だから、おっさん声である低音~中音域をほどほどに活かし、ノイズ源となりやすい高音域はカットしてもよいと思う。

完全に低音~中音域をカットすると声がカスカスになってしまい音量を稼ぐことができなくなる。またこの状態だとオーディオインターフェースのエフェクトでエコーをかけてもエコーがかからない(響きがないため)という状態に陥ってしまうので、歌ってみた系配信をする人は注意。

2~3:イコライザ

上記同様、ノイズとなりやすい高音域をカットする。ハイカット・ローカットの設定をうまく変更することで、違和感のない帯域の女声を狙いたい・・・がこれが結構難しい。

上の動画ではハイカット・ローカット共に周波数の設定しか変更していないが、筆者の所有するパラメトリックイコライザーはそれぞれの周波数に対して強弱を変更できるので、実際の設定幅が非常に広く、動画のように声を”クリアー”にするか、”こもら”せるかだけではなく、尖った印象にするか、ノイズを徹底的に減らすか・・・といったところも調整ができる。

3~4:ボイチェン

ピッチ・フォルマントの微調整で女声のベースを作る。ピッチを上げすぎるとけろけろボイスになるので控えめにする。低音すぎると可愛い声でなくなるので、このバランスをうまく取る。

ピッチとフォルマントは声質の変化をつける部分。あなたの作りたい女声に合わせた声づくりをするベースとなるので、まず「どんな声にしたいか」という点を決め、ピッチ・フォルマントを調整してベースとなる声を作ろう。

基本的にロリ声になればなるほど声は作りやすくなるがやりすぎるとミッキーマウスの声になる。お姉さん声はおっさんっぽさが出るので作るのは難しい。

高性能なボイスチェンジャーは内部機能にパラメトリックイコライザー機能があるので、これとDSPのイコライザー機能を使用し外部イコライザ・マイクアンプを極力使用しないことでノイズを低減できる。が、こういった高性能ボイチェンは市場にはほとんど出てこない。

4~5:イコライザ

変声した女声の中に「ポップノイズ」や「おっさんの声」などが高確率で混じっているので、これをカットするように調整する。

基本的に低音~中音域はばっさりカットし、女声の主成分である高音域を入れる。
が高音域を入れすぎるとキーンとした高音のノイズが響きやすいので、ここをうまく調整する。

5~:パソコン

ハードウェアイコライザで除去しきれなかったおっさん声・リップノイズ・高音ノイズなどを、高性能のオーディオインターフェースのフィルター機能で極力カットする。

しかしカットしすぎると音が痩せてしまうため、コンプレッサー等の機能で音を増幅させ調整。

DSPの設定としては低~中音域をかなりカットしている。が、動画のようにカットしすぎるとカスカスな声になり艶がなくなるので、程々は入れたほうがよいと思われ。

音声波形から見る女声

上で紹介したが、オーディオインターフェース AG-03に無料ダウンロードキーがバンドルされていた「CubaseAI」の音声分析画面。筆者は最近、この波形と一般的な女性の音声波形とを比べることで、きれいな女声に近づけていくというトライをしている。

~100Hz帯

男声の不快な低音部は~100HZに含まれていることが多いようだ。なのでここはがっつり切ってしまった方が良いようだ。

MIC2200ではLO CUTを入れて320Hzあたりまでツマミをあげると良いだろう。グラフィックイコライザーでがっつり切ってしまってもいい。
ただし切りすぎると動画のようにカスカスの声になるので、微調整が必要だ。

200~2000Hz帯

200Hzから2000Hzは女性声の重い部分を担当しているようで、この部分が女性声のベースとなっている。この部分の波形が乱れていると、なんとなく汚らしい声になってしまうので、画像のように発声時に波形がなめらかになるように調整すると美しく聞こえるようだ。

200~2000Hz帯の大きさが4000~100000Hz帯より大きすぎると、こもったような低音の大きい女性声になるのでバランスを取るようにイコライザ調整する。

1000~2000Hz帯

1000~2000Hz帯はどうも男声と女声の中間のにごった声のように感じる。筆者はこの部位をDPSのイコライザとグラフィックイコライザー下げている。

MIC2200だとLEVEL_EQの値をある程度下げる。ただし下げすぎると声が痩せすぎるので、ここも微調整。

2000Hz~15000Hz

女性的な声の高音部分を担当する周波数域。この部分はなるべく目が細かく、ギザギザした波形になるように調整するのがコツのようだ。声のキャラクター性が最も出る部分なので、お好みの声質に合わせて調整したいところ。この部位で声全体のクリアーさを得られるように調整できるとGOODだ。

特にマイクの性能が試される部分のようで、高性能なマイクになればなるほど、このギザギザ部分のピッチが細かくなり、キャラクター性を表しやすくなるようだ。お手持ちのマイクを入れ替えて色々と試してみよう。

先述したように 200~2000Hz帯と4000~100000Hz帯の波形をうまくバランスを取ることでバランスのいい女性声になるようだ。ただし 高音部は上げすぎると機器のノイズを如実に拾い増幅してしまうため、ノイズとの戦いになる。ここが本当に難しい。

ノイズが大きい波長と女性声の美しい波長とをうまく切り分けてピンポイントで調整するのだが、パラメトリックイコライザーのみだとこの調整は難航する。グラフィックイコライザーがあれば調整は容易だが、グラフィックイコライザーを挟む分ノイズも増えるというジレンマ。

15000Hz~

カリカリとした高音のノイズ源となる部位なので、15kHz以降は切ってしまって構わない。グラフィックイコライザーに20kHz以降カットする機能がある場合もあるので、活用しては。

Cubase AIの設定

YAMAHA AGー03に付属していたこのソフトで自分の音声波形を見ながら「どこが悪いのか」というのを目視しながら調整することにより、随分と調整しやすくなった。

ただ初見では結構使い方がわからず難儀するソフトなので、簡単に解説していく。

とりあえずインストールしたCubase AIのアイコンがデスクトップ上にできるのでダブルクリックで開く。

「ファイル」ー「新規プロジェクト」で新しいプロジェクトを作成する。

「レコーディング」アイコンが選択された状態で「空白のプロジェクトを作成」ボタンを押そう。

Cubase AIの画面が開いた。正直言って全く見慣れない画面に戸惑いを覚えるだろう。私自身も未だに慣れないが、音声波形を見る為の設定ならなんとなくわかったので書いていく。

画像の「+」ボタンをクリックすると「トラックを追加」というダイヤログが開く。本来ここであなたのオーディオ環境に応じた「オーディオ入力」「構成」「オーディオ出力」を選択して「トラックを追加」を押すのだが、ここの設定は後で簡単に変えられるのでとりあえず「トラックを追加」を押す。

新しいトラックが作成できた。「入出力チャンネル」というトラックが作成できたと思うので、「e」というボタンを押してみよう。

オーディオの設定が正常にできていればこの状態ですでに波形が表示されているはずだが、残念ながらうまく設定されていなかったようだ。

「←」や「↓」「↑」を押してみよう。

筆者の場合、「←」を一度押したら音声波形が表示された。

この「チャンネル名」の部分が、オーディオインターフェースの入力チャンネルに該当するようだ。ここは「↑」「↓」キーを押すことで切り替えできる。

波形確認

筆者の場合、Stereo Inの5にマイクをつなぎ、そこからボイチェンへ入り、ボイチェンからStereo In 4に入り、イコライザなどを経由して最終的にStereo In 3へと出力されていく。

試しに「マイクのテスト中」の「マ」の波形を下に貼ってみたので、違いを見てみよう。

おっさん声

Stereo In 5 (Analog 9 (1) / 10 (1))

おっさん成分の20~200Hz帯が太いのがわかる。
この部分が大きいとおっさんの汚い声が強調されてしまうので、ここをイコライザーでカットだ。
この前段階でグラフィックイコライザーにて波形を調整しているので、厳密にいえば地声の波形ではない。

微少女声

Stereo In 4 (Analog 7 (1) / 8 (1))

ボイチェンに入った直後の声だ。このままではやはり20~200Hz帯が大きいので耳障りな声に聞こえる。
ボイチェンに入ることで2kHz以降の高周波帯が増幅されているのが分かる。
また、女性の腐ったようなガラガラ声の主成分である1~2kHz帯が太いので、汚い声だ。
全体的にノイズが大きい印象。

Stereo In 3 (Analog 5 (1) / 6 (1))

美少女声

オーディオインターフェースやグラフィックイコライザーの調整により、~100Hz帯がガッツリ削除され、おっさんくささがかなり消えた。
また、女性の腐ったようなガラガラ声の主成分である1~2kHzをかなり削ったことで、かなりマシな美少女声に近づいた。最終的にリスナーさんに聞こえる声だ。

音声波形が表示できるようになったら、試しに好きな声優の声をマイクから入れて、自分の女声波形と比較してみよう。

スピーカーの特性などが違うので厳密には比較は難しいかもしれないが、参考にはなると思います。

ノイズ対策

ボイスチェンジャーによる女声変換はとにかくノイズに悩まされる。ノイズには様々なものがあるが、ボイスチェンジャーの場合は、高音ノイズに頭を悩ませることになる。

ノイズの発生原因は様々ある。その発生源を特定していくことが、ノイズ低減のカギとなる。

マイク

マイク由来のノイズは、マイクの性能によって大きく左右される。高性能マイクであればあるほど音をよく拾う。特にコンデンサマイクは集音性能が良いので、周りの雑音を拾ってしまうことがてしまい、この雑音が後に変換されてノイズとなることがある。

安物のピンマイクの様に低音域の集音性能が良いマイクはボイチェンでは有利に働く事が多いが、マイクから口が近すぎるとリップノイズ、息づかいがボイチェンに入り不自然な雑音を生じる場合がある。

音量

ホワイトノイズ対策は音量の調整が非常に重要である。ほとんどの機器の場合、ノイズの特性は図のようになっている。1つの機器で音量を最大に上げている場合、ノイズが相対的に大きくなる傾向にあるようだ。なので音量調整ができる機器ではホワイトノイズが生じにくい適正な音量(緑線)を見つけ出して複数の機器で音量を上げていく方が良い。

切り札は最強のオーディオインターフェース

色々と各種調整を煮詰めてきて、最終的に至ったのがこの「RME Fireface UFX ii」。

最強のオーディオインターフェースと歌われるRME社のフラグシップモデルで、ボイチェン環境でも最高度のパフォーマンスを発揮してくれた。

値段を見たらめんたま飛び出るほど高いが、その価格に見合っただけの声質調整能力に脱帽。とかくおっさん声のまじりや高音ノイズなどで頭を悩まし続けてきた私でしたが、その殆どの問題がこのオーディオインターフェースによって解決しました。

まぁ・・・ボイチェンと心中するつもりならば購入してみてもよいのでは?

ただしこれは業務用機器でオーディオ系とパソコンの深い知識がある人にしか扱うのが難しく、機能を把握するまでにかなりの勉強と時間を要します。上で紹介しているようなAG-03などの廉価なオーディオインターフェースとは一線を画するので、よほどの覚悟が必要といえるでしょう。

Fireface UFX ii では基本的に上の図のボイチェン以外の部分をすべて負担させることになります。

具体的には「マイクアンプ」「イコライザ」「オーディオインターフェース」の3つですね。マイク入力後のおっさん声をマイクアンプ機能で増幅しつつ、イコライザ機能で変声し、出力した音声をボイチェンに入れ、ボイチェン後の微少女声を再びイコライザ機能で調整し、パソコンに出力させるのです。

流石に業務用機器だけあって調整できる項目が多岐に渡り、ノイズをほぼ感じさせないクリーンな音質は満足いくものでした。

私の場合、2台のPCをつかっての配信・ゲームプレイをしているためサウンド出力先をUFXIIにまとめて一つのヘッドホンに出力させたり、OBSへの出力先の音をまとめたり、ピアノやオーディオ機器の出力をまとめたりと、「これほど便利なものがあったのか」と感心しています。

本来ボイチェンのみに使用するつもりの用途で買ったのですが、今では配信環境の中心部としてなくてはならない機材になりました。

ただ個人的には全くオススメしません。AG-03が廉価&多機能で極めて優秀なんで、AG-03で調整できるならばその方がいい。もうここまでくるとヤケクソな感じ。バ美肉なんてクソっ喰らえだ。

調整のコツ

コツとしては
・VT-3.4のピッチ・フォルマントを一番上まで上げておく
・オーディオインターフェースAG-03を下の動画のような波形に整えておく
・マイクプリアンプMIC2200の入力側・出力側のダイヤルを少しずつ動かして、声の違和感を消していく(高音のカリカリ音、低音部のおっさん声)
・グラフィックイコライザーで女声出力側の低音~中音域をカット
・VT- 3.4 のピッチ・フォルマントをお好みの声質にする
・最終的にAG-03・マイクプリアンプ・グラフィックイコライザーそれぞれの値をつきつめる←今回はしょったのはココ

一番最後の部分が一番難しいです。ここの調整はそれぞれのステータスをわずかに動かしながら、最適な部分を見つけ出さなければなりません。

所感

ハードウェア系ボイチェンを極めると友人たちとゲームをプレイしながらのバ美肉配信も可能だ。

私は2pcで配信環境を組んだが、ゲームpcでディスコードを起動し友人たちとの会話は男声で行い、ボイスチェンジャーは配信用pcに接続して配信は女声で行なっている。

こうすることで友人達との会話も違和感はないし、配信は女の子を演出できるので面白い。配信pcでディスコードを立ち上げれば女声でのボイチャにも参加可能だ。

ここではあえてVT-3という性能の低いボイチェンでの女声構築について紹介してきたが、最新の機種を使えばもっと簡単にできるのではないかと思う。ただしこの女声の微調整というのはここで紹介してきたように非常に困難を極めるので、ハードウェアボイチェンを始める人は覚悟して欲しい。

ている
ている

正直言ってバ美肉女声ボイチェンvtuberは茨の道よ・・・(´・ω・`)

スポンサーリンク
クソ雑魚へたれちゃんのFPS上達法・配信・マイニング講座

コメント

タイトルとURLをコピーしました