
ぶっちゃけハードウェア系のボイスチェンジャーってどうなの?

ぶっちゃけ金かかるよ。
しかも理想の声を得られるかどうかは才能
バ美肉とはなにか

バ美肉とは「バーチャル美少女受肉」を短縮化した造語だ。
要するに「女の子のキャラクターの皮を被って、ボイスチェンジャーにより女の子声になったオッサン」のことを表す。正直、見ていて痛い。私自身もバ美肉をやっていて「これって痛いなぁ・・・」と思いながらやっている。
実にアホらしい。金もかかる。がバ美肉系Vtuberにトライすると学ぶことが非常に多いので、暇な人はトライしてみるといい。
ダンバインとぶ 地声+ハードウェアボイチェンでのトライ
遅延が殆どないので合唱ができるのがいいですね
EQUALロマンスを歌ってみました。
ハードウェアボイチェンをつきつめた結果がこのくらいの声、という感じです。
参考になれば。
ハードウェアかソフトウェアか
ボイスチェンジャーにはハードウェアとソフトウエア方式がある。
あとは「両声類」と呼ばれる、男なのに女の子の声を出せる一部の人も存在するが、才能と努力が必要だ。一般人には無理だろう。
お好みの声質を得られるかどうかは、ハードウェア・ソフトウェア・両声類のいずれも「本人の声質」に大きく左右される。
女声もスポーツや芸術・歌と同じように、本人の才能により声質が大きく左右されるのが辛いところだ。が、声質は本人の努力によりある程度は変えられる。
ソフトウェア系バ美肉を目指すならここでブラウザバックだ。以下の記事は見る必要はない。多分見ないほうがいい。
ソフトウェア方式
最近のパソコンの進化によりソフトウェア方式でのボイスチェンジャーによる男性声→女性声が主流となってきているようだ。
しかし筆者はハードウェア方式で突き詰めているため、ここでは詳細はとりあえず割愛させていただく。
ソフトウェア方式でのボイスチェンジは
・遅延が大きい
・比較的安価
といったメリット・デメリットが有る
ここでは代表的なソフトウェア系ボイスチェンジャーへのリンクを貼っておく。筆者の管轄外なので詳しくはググれ。
読み上げ系
いわゆる「テキストを女の子の声で読み上げる」というタイプのもの。のらきゃっと等のvtuberが有名ですね。
筆者もこれで配信をしていた時期があります。
おっさん声→マイク入力→テキスト変換→読み上げソフト→女声
といった感じで変声してくれます。声をテキストに変換する際に誤変換が起きる問題もありますが、その誤変換がいい味をだしていて人気になるというケースもあります(のらきゃっとさんがそうですね)
のらきゃっとさん大好きなんですよ・・・個人的に。中身の親近感も含めて(笑)
顔バレしても辞めなかったあの姿勢はとても偉いと思います。私も微妙なハードウェアボイチェンを諦めず半年間続けてこられたのは、あの人の姿勢から学んだところが大きいでせう。
正直、リアルタイムでなくて良いのならばこの方式はおすすめです。下手におっさんがボイチェン機材揃えても、もともとの滑舌が悪かったり声質がそもそも女声に向いていなかったりすると、かわいい女の子の声にはなりません。
ボイスロイド系のソフトを使用した読み上げについては別の記事を作る予定なのでしばしお待ちを。
ハードウェア方式
ハードウェアによるボイスチェンジの方式は
・遅延が少ない
・機材が高価
といったメリット・デメリットが有ります。
筆者環境の場合はほぼ無遅延なので、配信のように友人たちと普通に会話をしながらゲームをプレイできるのが最大のメリットですね。
おそらく、ここを見ている皆さんがやりたいのはこういう事だと思います。
もしも解説系の動画を作りたいのならば遅延はある程度許容できると思いますので、ソフトウェア系で構成していくことがよいと思います。筆者のように生配信で違和感なく使いたいという用途は、突き詰めるとかなりお金も手間もかかるので・・・。
基本構成
構成例1

バ美肉系ハードウェアボイスチェンジの基本構成を示します。
1、マイクにより入力された男声をマイクプリアンプで増幅&声質調整
2、更にイコライザーで不要周波数帯をカットするなど調整
3、ボイスチェンジャーでおっさん声を微少女の声に変換
4、微少女の声に混じるおっさん成分をマイクプリアンプのイコライザーで除去and増幅
5、イコライザーでおっさん成分を除去
6、オーディオインターフェースでおっさん声を除去and最終調整
7、美少女声で配信
機器の構成を増やせば増やすほどケーブルの数が増え、機器のノイズも問題となるため、機材構成は極力少なくしたほうが有利。
マイクプリアンプにイコライジング機能があるならば、別途イコライザーを用意する必要は無いと感じるかもしれない。が、パラメトリックイコライザーのみでは各周波数帯での微調整が難しいので、 どこかにグラフィックイコライザー機能を含んだ方が良いと思う。
上の構成はあくまで基本構成で、筆者の場合は更に細かくハードウェアイコライザを何段にも組み入れている。それに伴い、調整難易度が非常に跳ね上がってしまった。
筆者のように高額なオーディオインターフェースを使うと、マイクプリアンプ・イコライザの機能を統合できる。
・ボイスチェンジャー
機種
様々な機種があるが現在の主流はVT4と言われている、というか現行機種ではこれしかない。
ソフトウェアタイプではバ美声などあるようだが、どうしても遅延する問題を解消できないようだ。ソフトウェアタイプの弱点である。筆者も使ってみたが、やはり遅延の問題で違和感を解消できなかった。
これを疑似的に解決するのがマグロナ式といわれる方法のようだ。
マグロナ式ではVT-4でボイスチェンジした音声を自分で聞き、バ美声などのソフトウェアボイチェンを放送に乗せるといった形で行っている。
ソフトウェアボイチェンの場合どうしても遅延が発生するので、この女声を自分で聞きながら話すと非常に話しづらくなる。この問題を疑似的に解決しているのがマグロナ式。
筆者とは方針が違うが、ソフトウェア構成の方が音質はよくなるようなので、マグロナ式でいくか筆者のようにほぼ無遅延を目指しての茨の道をいくか、よく考えよう。
誤変換
本題に戻るが筆者は過去にVT-3を使用していたが、ローランドのこの系統の機種は誤変換が多く頭を悩ませることになるだろう。誤変換とは入力した男声が女声として変声されず出力されてしまう問題だ。
VT-4ではこの誤変換問題がかなり改善されているようである。
VT-4ではこの誤変換問題はある程度は改善したようだ。が「神機」とされるこの機材も「即座に女声で配信できる!」といった類のものではない。
ここが ハードウェア系ボイチェンを難しくしている理由の一つなのだ。
筆者が試しにVT4前の機種であるVT-3を使用したボイチェン環境を1時間程度で整えた動画を貼っておいた。VT-3はとにかくこの誤変換が多い機種であるが、当サイトで紹介しているイコライザやマイクプリアンプなどの機材を揃えれば、この程度までは比較的簡単にセッティングできる。
かつて、様々なボイスチェンジャーが発売されたようだが、そのどれも決定打にかけるという印象。どのボイチェンにも一長一短ある上、過去のものはそもそも市場にでてこない。この世の中どこを探しても「このボイチェンを購入したら完璧な女声になる」機械は存在しないのが辛い。
「VT-4を買ったのに満足いく女声にならないじゃないか!」と憤慨しているケースが散見されるが、現状発売されているボイスチェンジャー単体ではこれらの問題は対処しにくい。やはりイコライザ・マイクプリアンプ・ある程度性能の高いオーディオインターフェースは、揃えなければならない。
機能説明
基本的にどのボイスチェンジャーもピッチ・フォルマントを調整するという機能がついている。この2つの声質を変更することによって男性声→女性声へと変換することができる。
VT-3という性能の低いボイチェンで試しにボイチェン構成を構築してみる。
上はボイチェンでのピッチ・フォルマント設定だ。ソフトウェア・ハードウェア問わずボイチェンはピッチ・フォルマント設定ができる。ここで大まかな女声を作り、以下で紹介するイコライザーやマイクプリアンプ・オーディオインターフェースといった機械で調整していくのが、ハードウェアボイチェンによる女声構築の流れだ。
誤変換対策
男性声の荒く波長の低い周波数帯の音がボイスチェンジャーで処理しきれず、ダイレクトに出力されてしまうため、リスナーにとって不快な思いをさせてしまう(誤変換問題)
しかし低音部音は響きを含むためこの部分を下記に紹介するイコライザーなどの機材のローカットフィルターでがっさりカットしてしまうと、艶のあるエロティックな女性声(峰不二子みたいな)を作ることが難しくなるというジレンマが生じる。多くのバ美肉系配信者は「艶のある女性的な声」を望んでいるものの、それを実現するのはなかなか難しいのだ。
ボイチェンの誤変換問題。VT-3は特にこの誤変換が多く多くのボイチェンマニアを悩ませたいわくつきの機械だ。誤変換はどのボイスチェンジャーでも生じるものであるが、高級機種になるほど誤変換が少なくなる印象。誤変換を防止するには入力するあなたの男声が重要で、ここにボイチェンの難しさがある。
また荒く低い周波数の音をボイスチェンジャーで変声しても、荒く高い周波数の女性声(?)にしかならないので、キンキン声が耳障りな音となってしまう。
話し方
これを防ぐためには「話し方」が重要で、とかく低音で話しがちな我々おっさんは、1オクターブ上げた明るい声で話すことを心がけなければならない。
男性の場合は「ドレミファソラシドレミファソラシド」の2オクターブを地声で賄うことができ、これ以上となると裏声の領域となる。基本は赤線で塗った領域の声で話すように心がける必要があるが、これだけだとボイチェンでの誤変換は防ぎにくい。解決策は後で述べる。
※ただし、非常に高級な機材を組みあわせ調整を煮詰めると、この「話し方の工夫」すら必要なくなる。普通に会話している声が、それなりの女性声になるのだ。ただし、ほぼ地声を女声に編成した場合、筆者の配信のように点数的には40点ほどで「赤点ではないが・・・」というレベル。
ミックスボイスを使えばこれが60点~となりわりかし納得できる声になるのだが、ディスコードなどで友人たちには地声を聞かせている以上、それはできないというのが筆者環境のジレンマ。
調整
私が使用しているボイスチェンジ機材は廃盤でオークション等でも既に入手できないのものなのでここでは掲載しないが、ピッチ・フォルマント調整機能、コンプレッサー・イコライザー・マイクアンプ機能など非常に高性能な機材となる。が、基本的な機能はピッチ・フォルマントの調整なので現行機種でも過去の機種でもここは変わらない。
私の所有しているボイチェンは高機能であるがゆえに調整が難しく良し悪しだ。
最近ようやく使いこなせるようになってきたが・・・。ボイスチェンジ機を購入してから3年が経過していた。扱いづらいボイチェン側の設定に頭を悩ませるより、VTシリーズのように簡単にピッチ・フォルマントを調整できる機材のほうが、調整、操作的には楽だと思う。
ただこれらの問題は、高級なマイク・イコライザー・ボイスチェンジャーを揃えると解決できる。筆者環境は総額50万円ほどはかかっているが、それでも放送のレベルだ。ゆえにハードウェアボイチェンはいばらの道なのだ・・・。
・マイク
マイクには「ダイナミックマイク」と「コンデンサーマイク」の二種類がある。女声にとってどちらのマイクがいいのかという答えはいまだに出ていない。なぜならそれぞれの特性が全く違うからだ。コンデンサーマイクにはコンデンサーマイクの、ダイナミックマイクはダイナミックマイクなりの女声の突き詰め方があるはずだ。
マイクによる比較。ダイナミックマイク・コンデンサーマイクなど筆者は数本所有しているが、ボイチェンに向くマイクを見つけるのに非常に苦労した。所有しているオーディオインターフェース・マイクプリアンプなどとの相性があるからだ。
ダイナミックマイク
・マウス音・生活音・道路からの騒音など 周りの音を拾いづらい
・コンデンサーマイクに比べてややこもったような声になる
・機械的に丈夫な構造
・比較的安価
・コンデンサマイクに比べ音量が低い
ダイナミックマイクはコンデンサマイクに比べ集音性能が低いのが欠点でもあり利点でもあるのだが、ダイナミックマイクの最大の欠点として「マイクから口元が離れた場合の入力音量の減衰が大きい」という点が挙げられる。
これはどういうことかというと、マイクから1cm離れたときと5cm離れた時とでは入力の音量はおろか声質まで大きく変化するということである。
当然、おっさんの声質が変化すればその変化に対応したボイチェンの設定が必要になる。しかし事実上、マイクとの距離毎にボイチェンの設定をいじることなど出来るわけもないので辛いところ。
だがこの問題はCL-1を使うことでマイク本体の入力音を稼ぐこと、マイクプリアンプで音量を稼ぐこと、高性能なオーディオインターフェイスを使用することで解消可能だ。
ダイナミックマイクで特におすすめなのがこのSM7Bだ。あの有名なマイケル・ジャクソンが使用していたという伝説のマイクで、ダイナミックマイクの中でド定番。ハードウェアボイチェン構成を作るならば、このマイクでトライするのが定石と言える。
ダイナミックマイクを使う場合、極力ボイチェンに入力させる音量を上げる。が、上げ過ぎるとボイチェンの処理能力の限界を超えてしまい音割れ、声がガビガビになるという問題が発生する。入力音量を下げ過ぎると、今度はボイチェンが処理エラーを起こしてオッサン声が漏れてしまう。
そこでおすすめなのがCL-1だ。これはダイナミックマイクにファンタム電源を供給することで、ダイナミックマイクに不足しがちな音量をクリーンな音質のまま稼げるというアイテムだ。
上のSM7Bとセットで購入したい。が、ファンタム電源が供給可能なマイクプリアンプ・オーディオインターフェースが必要となる点には注意だ。
ただ、オーディオインターフェース単体で十分な声量を稼げる場合はCL-1は不要とも言える。筆者は所有しているマイクプリアンプとオーディオインターフェースでSM7Bの音量不足は解消できた。環境的にどうしても声量を稼げないという場合のみ、CL-1を追加購入すればよいと思う。
コンデンサーマイク
・高感度なため声以外の音を拾いやすい
・高感度なためクリーンなボイスとなる
・精密な機械なため取り扱いに注意
・高価な機種が多い
コンデンサーマイクは高音から低音まで拾うため、発生開始時のリップノイズを拾いやすい。またオクターブの低い男性の声を拾うため、
・「低い男性の声を全カットしたい」という方針ならばダイナミックマイクを使用する。
・「低い男性の声もボイチェンに入れて無理矢理女声に変換したい」という方針ならばコンデンサーマイクを使う。
コンデンサマイク・ダイナミックマイク、どちらがいいの?
ここはボイスチェンジャーの能力・機能、自身の地声の質により変わる。機器構成が変わればそれに合っているマイクも変わってしまうので、どちらがよいと結論づけることができない。
故に、「コンデンサーマイク」と「ダイナミックマイク」を最低限1本は揃えておいた方が、調整しやすいだろう。
またよいコンデンサーマイクを使用する場合、経験上、オーディオインターフェースもまた高級なものを必要とする。AGー03やUSー366クラスの廉価なオーディオインターフェースでは女声の違和感を吸収しきれない印象だったし、おっさん声がオーディオインターフェースのDSPで吸収しきれず出力に漏れた。
コンデンサマイクの場合集音性能が非常に高いのでマウスやキーボードの音や椅子の軋み音、洗濯機の音なども拾う。この音がボイチェンに入ると高音に変換されるため、ボイチェンを使用していることがリスナーにバレやすくなる。
そのためDSPのノイズゲート機能やイコライザーの周波数調整機能を使用してある一定以下の音量の音は出力されないように調整するなど、対策が難しくなる。
筆者は高級なコンデンサーマイク2本で色々と調整してきたのだが、その性能が高すぎるせいか声が尖り過ぎてしまいリスナーから「声がガリガリすぎwwwワロッシュwww」と突っ込まれる始末。
色々やってみたが、オーディオインターフェース・マイクプリアンプの機能を持ってしてもこのガリガリが解消しきれず、ダイナミックマイク環境に戻ってしまった。
筆者の経験
男性から女性声へと変換したい場合、マイク選びが重要となる。 私は、
・数百円の中古ダイナミックマイク(定価10000円)
・十数年前に購入したカラオケ用のダイナミックマイク( 5000円で購入)
・同じく購入したダイナミックマイク(1500円ほど)
・購入したコンデンサマイク( 30000円)
・なにかの製品についてきたヘッドセット型ピンマイク(数百円?)
・10万円のコンデンサーマイク
・5万円のダイナミックマイク(SM7B)←今ここ
と複数のマイクを使い分けながら調整してきたが、上で述べるように高品質なマイクが良いとは限らなかった。
あるシーンでは数百円のピンマイクの方が良いし、あるシーンでは3万円・10万円のコンデンサーマイクが良かった。
マイクアンプやイコライザー、そしてボイスチェンジャーによる声の変成は声の「波長」をいじるもので、それぞれのマイクにより特性が違うため、シーンによってはこちらのマイクの方がよい、この場合はあちらのマイクのほうがよい、と頭を悩ませるだろう。
確実に言えることは「マイクは複数本持っていたほうが良い」ということ。
筆者の場合、以前は高級なコンデンサーマイクを使用して調整をすすめてきた。これは私が所有しているボイスチェンジャーが高級品で機能が多く性能が高いため「男性声の鈍い声も高性能なボイチェンを使用して女性声に変換する」という方針だからだ。
が、コンデンサーマイクでは話はじめのリップノイズを拾ってしまい、これがボイスチェンジャーと各種アンプ・フィルターにより高音に変換されて不快な高周波音となってしまった。イコライザーなどの調整でかなりカットできるのだが、これならば5000円のマイクのほうがよかったのでは?と悲しくなった。
その後紆余曲折ありSM7Bへと至ったわけだが・・・これが最適なのかはまだ分からん。
女声道は長く険しいのだ。
マイクの入力音量
マイクの入力音量については、大きすぎず小さすぎず。大きくすれば音が割れるし、小さすぎればボイスチェンジャーで女性声に変換できず「男性声のまま出力される」という最悪の自体を招く。
故にマイク入力音量は可能な限り大きくする必要があるが、大きすぎると音が割れるのでその限界を狙う。
マイクプリアンプのマイク入力側のフィルター調整を行うと出力音量もかわり、ボイスチェンジャーへの入力音量が変わるので都度調整したい。
とにかく女声は「薄く軽い」アニメ的な声を作るのが比較的簡単ではあるのだが、声が薄くなると音量を上げても全体的な音量が上がらないという問題が出てくる。なのでリスナーから「声が小さくて聞こえないよ」と苦情がくるのだが、無理にボリュームを上げると女声の微妙な調整のバランスが崩れて「今度はおっさんの声みたいだよぉ・・・」とクレームがくる(笑)
地獄かな?
マイクケーブル
意外や意外、マイクケーブルは非常に重要です。重要でした。
もともと、自作のマイクケーブルを使っていたのですが、マイク・イコライザーなど他の機器を極限まで突き詰めて最後に「マイクケーブルでもいいヤツに変えておくか~」と替えたところ・・・ノイズが激減&音がクリアーに!!!
あぁ~自分はえらく遠回りしていたんだなぁ・・・と後悔。初めからマイクケーブルにはお金をかけておくべきだった。
筆者は下のPA-02 XLR V2/2.0 を購入しました。
購入時に注意スべきは、「極力短いケーブルにする」コト。特に我々のようにPC周りのノイズが多い環境では、マイクケーブルはアンテナの効果を発揮してしまい、長いケーブルであればあるほどノイズの影響を大きく受けてしまいます。
筆者が以前に使用していた自作の(一応シールド付きでしたが)ケーブルは、こういったノイズの影響を強く受けてしまっていたので、ボイチェンに入る前の声にノイズが入り込みこれが増幅、不快な音として変換されてしまっていたのですね。
気づけば簡単な事だったのですが、気づくまでに3年かかりました(´・ω・`)
上のOYAIDEのヤツはノイズ耐性に定評があり、サウンドハウスやamazon、楽天でのレビューをみても高評価。筆者が調べに調べぬいてたどり着いた一本だっただけに、この結果には満足でした。
・マイクアンプ
マイク音量の増幅を基本とするが、入力~出力間で声質を変化させることができるタイプのアンプがあるので、これをおすすめする。パラメトリックイコライザー機能があれば声質の調整はダイヤルを変更するだけで自在に行える。
マイクアンプの機能として
・マイクから入力された声を増幅する
・入力側は男性声の荒々しい声を整える
・出力側は女性声を整え、かつボイスチェンジャーから発せられる誤変換された男性声をフィルターする
といった機能をもたせる。
マイクプリアンプの設定例。性能紹介のため、あえて性能の悪いVT-3というボイスチェンジャーを使っているが、キンキンした音がプリアンプ調整で声質をかなりなめらかにできるのが分かるだろう。筆者はこれをボイチェンのIN側とOUT側につないでいる。
上のリンクは筆者が使っているMIC2200だ。定番のマイクアンプであり、これにより
・MIC GAIN(入力側のマイク音量を調整)
・PHASE REV(波長を反転するらしい。ボイチェンでは使わないかな)
・LO CUT (男声の嫌な低音をカット)
・OCTAVE(声の響きを調整?)
・LEVEL(こちらも声の響きを調整する感じ)
・OUTPUT(出力側の音量を調整)
といった感じで、マイク入力音・ボイチェン出力音の微妙な調整を行えるのだ。つややかな女性の声やアニメっぽい声など、ここで声質をかなり変更できる。この機種は真空管を使用しているため、温かみのある優しい声になる。ボイチェン後の声はどちらかよいうとキンキン金切声に近くなると思うので、この点は嬉しい。
またボイスチェンジに生じる様々なノイズを、このマイクプリアンプのパラメトリックイコライザ機能によってある程度低減させることができる。特に、ボイスチェンジ時に生じる男声特有の低音域の誤変換ノイズを、設定によってかなり隠すことができるのでアナログ系のハードウェアボイチェンを構成する上で、非常に重要な機械だ。
コンデンサーマイクはダイナミックマイクと違い48ボルトの電源(ファンタム電源)を供給する必要がある。バ美肉系vtuberを目指す場合、マイクはコンデンサーマイクを選択することもあると思うので、ファンタム電源供給可能なものを選択しよう。
実を言うと「やっぱマイクプリアンプいらなくね?」とMIC2200を外して、マイク+オーディオインターフェースのみの構成でボイチェンにチャレンジしてみた事がある。
結果的にはこれは失敗で、オーディオインターフェースの192KHzパラメトリックイコライザー機能を多段で使用しても、デジタル特有のギザギザ音を変換できず、結局はMIC2200を通す元の環境に戻った。
MIC2200はボイチェンで発生するギザギザな音を真空管特有の「温かみのある音」へと変換するため、ボイチェンと非常に相性がいいという結論になった。
筆者的にMIC2200はもう必須機器で、真空管もロシア製の高いやつに変えた。自分で改造するのは結構たいへんだったが・・・効果はというと・・・!?よくわからんw
・イコライザー
機能
不要周波数帯のカット・増幅を行う。グラフィックイコライザーとパラメトリックイコライザーの2種類がある。筆者はグラフィックイコライザーは周波数ごとに摘みが設けられており調整が非常に簡単、パラメトリックイコライザは数個あるつまみで調整するため周波数の状態が視覚的に捉えにくく使いづらい。
上で述べた男性の太く荒々しい声をボイスチェンジャーに入力するかどうかは迷うところである。
荒々しく太い周波数帯の声を女性声に変換すると鈍く荒い女性声になるが、ここは声の響きが含まれる部分でもあるので、イコライザーやマイクアンプの周波数カット機能などを使用して調整したい。
この調整は難航を極めるだろう。極めた。
グラフィックイコライザの設定。25Hz~20kHzまでの幅広い周波数帯ごとの微調整を行える。こういった微調整はオーディオインターフェース単体ではできないことが多いので必須だ。オーディオインターフェースにグラフィックイコライザー機能があればいいが、大抵の場合はパラメトリックイコライザーだからだ。
イコライザーは最低でも2系統のイコライジングが行えること。1系統のみの場合、2台用意する。
理由は、
・1系:マイクからアンプへと接続後の男性声をフィルターする
・2系:ボイスチェンジから出た女性声をフィルターする
という2系統のフィルターが必要だからだ。
高性能なオーディオインターフェースの場合、これらのイコライジング機能を含むものもある。大抵の場合はアナログのものよりも高性能であり細かい調整もパソコン上で行える上にクリーンな声に調整できるので、予算があるなら数十万もの高級オーディオインターフェースを使用するのもいい。
いいのだが、オーディオインターフェース内蔵のイコライザーだけで全てを調整するのは難しかったりする。別途用意したマイクアンプやグラフィックイコライザーなどもあわせて調整するのが理想の声に近づく道でもある。
ただ、調整項目が増えれば増えるほど、調整に妥協点を見出しにくくなるので沼にハマる。覚悟は必要だ。
ボイチェンの調整も極みの段階に入ると「この周波数帯を伸ばしたい」とか「この周波数帯は音がガビるので下げたい」といった、細かい調整をしたくなってくる。こうなると、オーディオインターフェースに付属するパラメトリックイコライザーでは調整が難しいので、最終的にグラフィックイコライザーが必要になってくる。
・電源
男性声から女性声に編成する場合、各種のノイズに頭を抱えることになるだろう。
高品質な電源は家庭用コンセントからボイチェン機器へと伝わる各種のノイズをフィルターするため、ノイズが少なくなる。
とかく微細な変声をおこなうボイチェン環境ではノイズの発生が致命傷となりがちなので、電源選びは慎重に行いたい。
実を言うと電源は他の会社(S○NY:流石に企業名は伏せさせて頂く)の廉価なものを使用していた。が安物故フィルターの機能があまいのか、細かいノイズの発生源となって苦しんでいた。が、上のAV-P250を導入した後、このノイズ問題がかなり軽減できた。ボイチェン環境におけるノイズの発生に悩まされたら、導入を検討してみよう。
また、電源は高額なボイチェン機材を外乱から守るためにも必要な機材と言える。
・各種ノイズを除去するフィルター機能
・落雷によるサージ電流の抑制
・ボイスチェンジ機材の電源一括投入・電源順次投入機能
ノイズ対策については本当に大変で、後述する雷サージ対応コンセントやフェライトコアの取り付けなど、できうる対策はすべて取らないと気がすまなくなるだろう。
ケーブル類
上で述べたような機材を一通り揃えたならばケーブルにて接続することになるが、意外なことに「ケーブル由来」のノイズに頭を悩ませることになる。
というのも、ボイスチェンジャー・マイクプリアンプ・イコライザーはそれぞれがノイズを発生させるし、「女声」の周波数域と高音ノイズ帯が被っているため、「サー」という高音ノイズを除去するのに頭を悩ませることになるのだ。グラフィックイコライザーにより高音部を増幅するとホワイトノイズが増幅されて「キーン」という高周波音が常時響くことになる。
ボイチェン各種機材から発生するノイズは機材由来なので仕方ないのだが、ケーブルはなるべく良いものを使ったほうがいい。また、ケーブル長さはなるべく短くすること。
ケーブルに関しては自作するのもいい。6.3ジャックやXLRジャックは数百円で売っているしケーブルも10m切り売りで販売しているので、はんだごて片手に自身の環境にあった長さのケーブルを自作すると安上がりになるぞ。
ただしケーブルの自作は思った以上に手間がかかり時間もかかる。購入するのが最も手早いとは思う。まぁ趣味の世界だからいいんだけどさ。
オーディオインターフェース
ボイスチェンジ・マイクアンプ・グラフィックイコライザーを通して編声した男声→女声をパソコンに入力するために必要な機械。
上で紹介しているのは筆者も所有しているAG-03。かつてはこれで女声ボイチェンの調整を煮詰めていた。
グラフィックイコライザーのOUT側から出したオーディオケーブルをパソコンのマイク端子に指しても良い。がグラフィックイコライザーによってはコンプレッサー・ノイズサプレッサー・ノイズゲートといった各種の機能を含むものもあるので、女声の最終的な調整をオーディオインターフェースで行うというのが理想。
YAMAHAのAG-03による設定。AG DSP CONTROLLERでの調整で声質が劇的に変化するのが分かるだろう。筆者は30万のオーディオインターフェースを所有しているが、正直AG-03で十分だったかなと思っている。

パラメトリックイコライザー機能とコンプレッサー、エフェクト機能が満載。
女声を微調整する上で極めて有用な機能だ。
この価格でこれだけの高度な調整ができる機器を私は他に知らない。
上で紹介しているAG-03はオーディオインターフェースとしては定番中の定番。グラフィカルなDSPを採用しており、イコライザー機能も非常に優秀であるため、導入を検討してほしい。
余談だが筆者がYAMAHA AG-03を購入した時はSteinberg cubase AIというソフトのダウンロードキーが付属していた。これがDTMをする上で非常に役立っている。筆者のようにバ美肉をこじらせるとオーディオにも興味が湧くかもしれないので、マジでオススメ。
懐事情に余裕があるならば更に高額なオーディオインターフェースを採用するのもいい。業務用の数十万するオーディオインターフェースは流石に品質が違うので。筆者はFireface UFXIIを使用しているが、正直過剰品質かと。
ただ筆者的は自宅に放送局を作っているので、このオーディオインターフェースにパソコン・シンセサイザー・その他楽器・ボイスチェンジャーが接続される中継地点となっている。まさに放送局の要だ。
CubaseAIの波形分析機能を使う
私がこのYAMAHAのAG-03というオーディオインターフェースを購入した時「CubaseAI」というDAWソフト(音楽作成支援ソフト)のダウンロードキーが付属していた。当初はボイチェンのことしか頭になく音楽作成など考えていなかったので興味がなかったのだが、最近ピアノを購入して音楽作成に勤しみ始めた際に試しに入れてみた。
そのときに気づいたのが「CubaseAIには音声波形の分析機能がある」ということだった。

試しに筆者のきったない美少女声の波形を見てみた。
この波形を見ていると、どうもきれいな女声と汚い女声には一定のパターンがあるのだというのがわかってきた。なのでAG-03に付属のCubaseAIの分析画面を見ながら、各種イコライザーで設定を煮詰めていくのが、美しい女声への近道ではないかと思う。
注意点
機種購入時に注意することは
・パソコンとのUSB接続が可能か
・サンプリング周波数がご使用のボイスチェンジャーに合っているか
・ハイレゾ配信(192khz以上)に対応しているか。
・ループバック機能はあるか
・コンプレッサー・ノイズゲートといった必要な機能が内蔵されているか、またこの機能を使用することによって遅延は発生しないか
・楽器などを併用する場合は楽器入力用の端子があるか
特に重要というか設定で悩んだのは、サンプリング周波数ですね。私はあまりこのあたりの知識には疎いのですが、ボイスチェンジャー側の周波数と、オーディオインターフェース側の周波数と、OBS側の周波数をなるべく合わせるようにしないと音が歪むようです。
特に無理矢理女声に変性した男声はこの歪がおおきくなるので、よく確認してください。
色々設定をいじってみての体感ですが、ボイチェン48khzならオーディオインターフェース側は96khz、OBS側は96khzか192khzといったふうに、ボイチェンの倍数になるように設定するようにしたほうがキレイな女声として出力されるようです。
オーディオインターフェースにはお金をかけた方がいい印象。筆者の場合、最終的にバビ肉環境で一番金がかかったのがオーディオインターフェースだった。
その他
ポップガード
コンデンサーマイクなど、リップノイズ(口の中が粘っていると生じやすいくちゃくちゃとした音)を拾いやすいマイク対策用。
使うとリップノイズが軽減する。上のリンクのように布製のものもあれば、金属製のものもある。金属製はウェットティッシュで拭くなどメンテがしやすい反面、布製のものと性質がかわるらしい。
ラックスタンド
上で述べたようなマイクプリアンプ・フィルターなどのオーディオ機器をまとめて設置できるラックスタンドだ。案外こういった製品は種類が少ない。上で紹介してるのが安いし場所も食わないので机の上にも置けて便利。自分はバ美肉ユニットを上の製品にまとめているぞ。
フェライトコア
モニターのケーブルとかについているアレ。上で紹介しているTASCAM電源があればノイズに悩まされる機会はすくないのだが、それでもノイズレスを徹底的に突き詰めようとした場合、フェライトコアが必要になってくる。
フェライトコアは電源ケーブルに取り付けることで、ノイズを抑える働きがある。 同系統に接続されているパソコンやエアコン、冷蔵庫といったノイズ発生源の機器の電源ケーブルに、このフェライトコアを取り付けることで、ノイズを抑えられるという仕組みだ。
マイクやオーディオ関連のケーブルに取り付けるという方法もあるが、信号が減衰してしまうので、ノイズと共に音量も失われていく点には注意。音声をよく聞きながら、どの部位に付けると効果があるか確認しながら行おう。
女性声への変換
VT-3といったボイチェンを単体で使用した時、様々な問題が発生する。が故に「このボイチェン使えねー」と判断する人が多いのだが、今まで紹介してきたように、ハードウエアバ美肉システムはボイチェン・オーディオインターフェース・マイク・グラフィックイコライザ・マイクプリアンプ・電源の複合体を精密に調整して初めて成り立つシステムだ。
女声への変換はあなたの声質に沿った微妙な調整をあなた自身が行わなければならない。ここでは女声に調整する上での様々な問題点について書いていこう。
高音域の調整
女性声への変声はとかく「けろけろボイス」と言われる高音で周波数が高い声(ミッキーマウスの声)に悩まされることになるだろう。男性声のピッチ・フォルマントを高く調整すれば甲高い声となるが、ミッキマウスの声になるだけだ。これは女性声ではない。
低音域の調整
では低い周波数帯を入れればよいかというとそうでもない。低い声は男性声の領域であるから、男性声の鈍い声が出力される危険を伴う。
大抵の配信者の場合、男性声がリスナーに聞こえることを極端に恐れるため、大抵の場合はミッキーマウス側に寄せがちだ。
私のように男性で有ることを公言しているvtuberは「別に男ってバレてもいいや」と腹をくくれるが、大抵の場合は[中身も★美少女]を演出したいはずなので、高音域から低音に寄せていくような微調整を行っていくとよいだろう。
響き
大抵の場合は男性声特有の響きをカットするように調整しがちだが、男性声に含まれる響きは、女性のエロティックな声の響きをも含むため、ここをカットすると声の「艶」がなくなってしまう。
響きがない女声は喉が枯れてカスカスになった婆さんの声みたいになる。
この響きを全カットしてしまうと声の深みがなくなり、カラオケ等でエコーをかける時に響き部分が増幅しづらいため、「なんでこんなにエコーかけてるのに響かないんだ」と悩むことになる。
「男性声ではなく」かつ「美しい響き」を得られる周波数帯を見つけ出す必要があるのだ。
が、これは非常に難しい。なぜならば少女声に変声した声には必ず、骨伝導によって自分の地声が乗ってくるからだ。要するに「美少女声」と「自分の地声」の聞き分けが難しいのだ。特にこの「響き」の部分の調整は、胃に穴が開くほど苦しむだろう。
声の出し方
上で述べたハードウェア機材をすべて整え、微妙な調整を完全に実施しても、男性特有の重苦しい声を出している限りきれいなボイスチェンジはできない。
私も各所のボイチェン掲示板を渡り歩いて調べたが、どれほど良い機材を揃えたところで、オクターブの低い地声で話している限り、完全な女性声にはならない。ヤクザのドスのきいたオラつき声を女性声に変換するのは難しいという訳だ。
高級機材を揃えることで低い周波数帯のいやらしい男性的な声をある程度カットはできるのだが、それも完璧とは言いづらい。
筆者の場合、ディスコードはおっさんの声で仲間たちとゲームをプレイしつつ、配信には女声として流すということをしているので、地声をボイチェンするという修羅の道を歩んでいる。
が普通は声をミックスボイス寄りにして、周波数を高めた高めの男声をボイチェンに入れたほうが圧倒的に美しい女声になる。
そのため「声の出し方」が重要となる。
入力する男声での比較。おっさん特有の低い声で話すとボイチェンが誤変換しやすくなり、なるべく高音で話すほど誤変換がなくなってきれいな女声になる。なので入力側はなるべく地声自体の周波数が高くなるよう話す必要がある。
これは安物で固めたボイチェン構成の場合さらに顕著になるので、筆者のように地声でボイチェンしたい人は高級機材で固めないとダメ、ということになる。
男の場合、大体2オクターブほどの声域があるため、低い方のオクターブはなるべく使わず、高い方のオクターブで話すように心がける。
が訓練をしていないと2オクターブの上の方を使うことは難しい。大抵の場合は裏声になるし、声を張り上げて無理に高音域で叫ば女性の断末魔の叫びのような声が変成されるため、とても人様に聞かせることができるような声ではなくなるのだ。
ミックスボイス
そこで活用するのが「ミックスボイス」と呼ばれる声の出し方だ。
「粉雪(レミオロメン)」という曲を男性が歌おうとすると、訓練していない人の場合、サビの部分で声を張り上げてしまい喉を痛めてしまう。私はこの曲が歌いたいがために散々歌ったが、喉を壊す日々だった。
が、「ミックスボイス」という技法を使えば、この部分を比較的簡単に歌うことができるのだ(上の動画の「こなゆき~~~ぃ」の部分)。
男性は地声で「 ドレミファソラシドレミファソラシド 」の2オクターブをまかなえることは先述したが、これ以上のオクとなると裏声を使用しなければ無理だ。
通常、男性は[地声]と[裏声]を切り替えて歌う。が、[地声]と[裏声]の継ぎ目が目立ってしまうため、ミックスボイスを訓練していない人だとこのつなぎ目が目立ってしまい聞くに堪えない声となる。鍛えられていない男の裏声ほど、聞くに堪えないものはない。
反面、ミックスボイスでは[地声]と[裏声]のつなぎ目をなくすように歌うため、地声と裏声の切り替えに違和感がなくなる。話すときもミックスボイスを使うことが重要となる。
ミックスボイスの概要

普通の人が歌を歌う時、ある程度高音になると裏声を使わないと歌えなくなってしまう。
その場合、高音と低音を切り替えた際に、つなぎ目が明らかに目立ってしまい、相当な違和感がある。女声の場合は裏声をボイチェンに入れるというのも良いが、ある程度低音域まで音が下がると、今度は裏声だけでは厳しいというジレンマに陥る。
が、ミックスボイスの場合は、裏声と地声を匠に混ぜ合わせ、高音域から低音域までをカバーできる(上の画像のようなイメージ)
このミックスボイスを使い、低音域から地声に裏声(赤色分)を混ぜていくというのが、ミックスボイスの技法だ。
この技法はプロの歌手ならほぼ例外なく取得している技術。ここが素人とプロの分かれ目、登竜門だと言ってもいい。
つぶやきミックスボイスと張り上げミックスボイス
ミックスボイスには「つぶやきミックス」と「張り上げミックス」の2つがあるといわれる。上で貼った「粉雪/レミオロメン」はどちらかというと「つぶやきミックス」の方だろう。
ラルクアンシエルのWinterFallでは「張り上げミックス」を使っているようだ(~笑顔包むから、のあたりですね)。
ただ、この張り上げミックスは極めて高等な技術である。「つぶやきミックス」を長期間練習し続けることにより裏声の使い方が上手くなり、地声と裏声を混ぜる能力が向上してくると、徐々に小声でしかできなかったミックスボイスが大声でも出せるようになってくるのだ。
ただこれを素人が習得しようとするのは無理がある。はじめは「つぶやきミックスボイス」から初めて徐々に喉を鍛えていこう。
筆者の実例
「あしたに生きろバルディオス」の一曲めを試しに歌ってみよう。
・・・~空のブルーになるんですー
・・・僕らの命も見えないけれど
・・・祈りでみちれば~
・・・父母みんなが憧れてきた 希望のブルーが蘇るでしょう
ブルーブルーブルーフィクサー
・・・明日を救えバルディオス
赤がミックス、青はミックス失敗(裏声になってる)
上の条件でボイチェンに入れて合唱すると、このようになります。
低性能なボイチェン環境であればあるほど、赤文字のようなつぶやきミックスを使わないと違和感が大きくなるようです。高性能な環境であれば地声でもそれなりに聞こえます。
ミックスボイスの習得
このミックスボイスの習得には長い月日と正しい指導者による導きが必要と思う。
実際、私は過去にカラオケを毎日通い、ミックスを手に入れるまでに5年の歳月がかかっている。が、私は独学だったので、正しい指導者の元で教育を受ければ数ヶ月で可能と思う。可能ならばボイストレーナーに教えをこうのがいいでしょうね。
バ美肉ボイスチェンジャー環境とつぶやきミックスボイスの相性は極めて良く、話をする際はつぶやきミックスボイスを使うことになる。
が、ミックスボイスは声量を増すと難易度が上がる。いわゆるつぶやきミックスは比較的簡単なのだが、小声になると今度はボイスチェンジャーが音を拾いづらくなり、誤変換により男性声が出力されるという大問題が出てくる。
故に筆者は高感度なコンデンサーマイクを使用していた時期があったが、コンデンサーマイクの場合は高感度すぎて今度はリップノイズが入りやすくなる。
リップノイズは男性でも高音域の周波数帯なので、ボイチェンにより超・高音域の音として出力され、話し始めに「チッ」という耳障りな高音が入ってしまいやすくなる。
リップノイズ対策としては「食事後すぐに配信しない(口の中が粘っていると生じやすい)」「ポップガードをつける」といった対策があるが、一番は「マイクから口をなるべく離す」ことだ。
しかしマイクから口を離すと入力音が下がってしまうため、ボイスチェンジャーが誤変換しやすくなる。どうしろっていうんだ・・・・と頭を抱えていた。
これらの問題はマイクプリアンプの音量調整と、各種イコライザーの設定調整によりかなり対応できる。頑張って調整してみよう。
息漏れ
つぶやきミックスボイスのコツは「常に息を少し通す」ことだ。息漏れと声の割合が通常は1:9くらいの割合とすると、つぶやきミックスでは息漏れ:声=5:5くらいで初めて見るといい。これを徐々に4:6、3:7と息漏れの量を減らしていくことで、発声に必要な空気量が少なくなってくる。はじめはあまりの空気消費量のため、歌を歌う際に息継ぎが大変だろう。

地声と裏声の切り替えで息の出方を切り替えるのではなく、少し息を通すことでつなぎ目を無くす。息漏れを多くすればリップノイズも比例して減る。リップノイズの根本的な対策になるが、ミックスボイスは話し始めは結構難しいので、訓練が必要だ。
地声に常に裏声が混ざっているような印象。これに関しては人によってコツが様々あるため、色々と試してほしい。
私の場合、息漏れの量を大きく取りすぎる癖があるため、肺の中にある空気の消費量が多いのが難点だ。が、この息漏れは「女性的な響き」をも含むため、女性声への変声を行う場合には少し息漏れを混ぜたほうがよい。が、息漏れを多くすると空気消費量が増えるジレンマ。
年齢のジレンマ
声は年齢とともに低く、重く変化していく。筆者のように40才を超えているような場合、地声はかなり重く、ボイチェンには全く向かない声となってしまう。
上に掲載している私のうたってみた音声を聞けばわかると思いますが、私の声は特に重く、ボイチェンには全くもって不向きな声です。この不向きな地声を女性の声に違和感なく変換するには、高級な機材を組み合わせても相当無理がある、ということです。
故に10代の高い地声ならばボイチェンは非常にやりやすい。なおかつミックスボイスを習得していれば、地声でも女性の声を演じられる可能性がある。
ミックスボイスの練習方法
ステップ1
ミックスボイスの練習を始めた頃は、とかく地声と裏声のつなぎ目が目立ちやすく苦労する。
地声で張り上げで歌うには高音域は限界があり、無理に声を出せば確実に喉を壊す(私は高音域を地声で歌おうとして何度も声帯を痛めている)
なのでまずは「裏声で女性曲を歌う」練習をしよう。ミックスができない場合、地声と裏声を頻繁に切り替えることで歌う。はじめの頃は裏声を使うのも厳しいが、少しずつ慣らしていく。女性歌はキー+3くらいしても良い。
徐々に裏声の声帯筋肉が鍛えられて裏声の音量がまして、声が太くなっていく。が、無理に声帯をを締めて大きな裏声を出そうとすると、たちまち声帯は傷ついてしまう。こうなると声帯が回復するのに数週間が必要となるだろう。龍角散のど飴をなめながら寡黙にふけることになり、歌が好きな人にとっては地獄の数週間だろう。
はじめはか細い裏声でよいので、女性曲を地声・裏声を切り替えながら歌おう。
ステップ2
裏声の筋肉がいい感じに鍛えられるまでに数ヶ月がかかる。地声と裏声の声量はどうしても裏声の方が負けるのだが、地声の声量を落として裏声と地声の切り替え部分を目立たなくしていこう。
数ヶ月経過した後は裏声の声量はかなりのものとなっているので、裏声と地声のつなぎ目がかなり目立たなくなっているだろう。が、裏声はどうしてもか細いため、地声発生時はマイクを遠ざけ、裏声の歳はマイクを近づけるなどして、つなぎ目を目立たなくしていく。
この頃になると息漏れにより裏声の声質がかなり変化する事に気づいているはず。はじめの頃は喉を締め上げてでしかできなかった裏声も、喉に力を入れなくても裏声が出せることに気づくだろう。
息漏れの大きい裏声は「喉を開放した状態」で行うが、上のつぶやきミックスの項目で述べたように喉を開放してだす裏声は息の消費量が半端なく多い。
そのためはじめの頃は曲の一番を歌うだけでもへとへとになってしまうだろう。
ステップ3
数ヶ月~数年に渡るカラオケにより、裏声の筋肉と地声の筋肉が程よく鍛えられた時期。
「裏声は喉を閉めなくても出せるんだ」と気付き、地声に「裏声の成分が混じってきた」段階だとする。この頃になるといよいよ「ミックスボイス的なものができるようになってきたんじゃないか・・・?」と実感し始める。
地声と裏声のつなぎ目がかなり目立たなくなり、ある時期「あれ?地声の低音部まで裏声で歌えるじゃん」と気づく。
また同時期に「あれ、裏声でしか歌えなかった高音部が地声でも結構いける・・・ぞ???」と不思議な状態に気づき始める。
このときこそ「ミックスボイスを体得した瞬間」だ。
そう、「低音部まで歌える裏声」と「高音部まで歌える地声」を組み合わせたものこそ、ミックスボイスなのだ。
はじめの頃は「この音域までは地声でいけるけど、裏声に切り替えなければいけないかな?」と悩むのだが、長い訓練によりこの切替部分をあまり意識しなくても歌えるようになる。こうなるともう地声と裏声の切替部分はほとんど目立たなくなり、素人が聞いても切替部分に違和感を感じないと言われるだろう。
女声とミックスボイスの融合
・ミックスボイスを習得できていない人
地声←|→裏声
[ドレミファソラシドレミファソラシド| レミファソラ]
・ミックスボイスを習得できている人
※全体がミックス
[ドレミファソラシドレミファソラシドレミファソラシドレミ]
赤線の部分が、ボイスチェンジャーに入れる声域となる。
配信設定
配信にはOBSを使用する。
他のソフトの設定は知らないので書かない。書けない。
基本的に女声の設定で注意すべき部分はサンプリング周波数の44/48khzとビットレートの192khz設定くらいか。
OBSのバ美肉設定

OBSの右下の[設定]ボタンより設定画面を開こう。

[出力]-[音声]で音声ビットレートを確認する。筆者の使用しているボイスチェンジャーは48khzで運用しているが、これの倍数(x4)である192khzを選択している。
これはyoutubeで配信可能な最高のビットレート数であり、ハイレゾ音声でもあるのでクリアーな音声を視聴者にお届けできるぞ。

OBSの[設定]-[音声]で設定を確認しよう。
[一般]の[サンプリングレート]では”44.1”と”48”khzを選択可能だが、ここはご使用のボイスチェンジャーのサンプリングレートに合わせよう。
ボイチェンが48khzなのにここが44khzだと、音が歪む印象。
[グローバル音声デバイス]ではご使用のマイク・スピーカーの設定に合わせて選択を変更しよう。
windowsのバ美肉設定
筆者の配信PC環境はwindows7である。なので現在主流のwindows10とは若干違うが、設定項目自体はほぼ同じはずなので、参考にしてほしい。
windowsの[コントロールパネル]を開き[サウンド]を開く。するとご使用の再生デバイスと録音デバイスの設定画面がでてくる。

筆者の場合、TASCAMのUS-366でのループバック設定を実施しているため、再生デバイス・録音デバイス共にUS-366だ。まずは録音デバイスのUS-366をダブルクリック。

すると、[スピーカーのプロパティ]画面が出るので[詳細]を押すと、[規定の形式]という項目が現れる。
ここを、あなたが所有されている機器の最大の設定(筆者の場合は24ビット・96000Hz(スタジオの音質)」を選択。ここの”96000Hz”は上で述べたOBSの配信ビットレート数である”192kHz”の半数であることに注目。
(US-366の最大設定は192khzでした。後日変更しています)
ボイチェンが48khz、オーディオインターフェース(US-366)が96khz、OBSが192khzという具合に、ボイチェンの倍数にすることによって音声が歪みにくくなる印象だ。

次にマイク側の設定だ。[録音]タブを押し、あなたが使用しているオーディオインターフェースを選択してダブルクリックしよう。

するとプロパティ画面が開くので、[詳細]タブを押す。そこで規定の形式にて、オーディオインターフェースの最大の設定を選択する。ここもボイチェンの48khzの倍数である96000hzを選択しているぞ。
配信音量
音量に関してはOBSのマイクのフィルターでコンプレッサー音量を調整できるが基本的には使わないほうが良い。基本はマイクアンプ・各種イコライザー機器の音量で調整すること。
理由は音が歪むため。


あくまでハードウェア機器側で音量を稼ぐよう努力すること。
あとがき
ここで紹介した設定はあくまで筆者の環境で煮詰めた際に問題となった部分を掲載した。私自身音響は素人であるので間違っている部分があるかもしれない。そこはご了承いただきたい。
配信時の注意
・大声を張り上げない(高性能な機材を揃えていても変声が破綻する)
高性能な配信環境やボイスチェンジャー・機材を使用しても大声を出せば破綻する。特に廉価なオーディオインターフェースを使用していると大声時の破綻は避けられない。数十万円するオーディオインターフェースならばある程度はカバーしてくれるが。

コンプレッサーのアタックなどの設定である程度カバーできるが、そもそも安物のオーディオインターフェースにはコンプレッサー機能がないことも多い。
対策
・そもそも大声を出さない(重要)
・コンプレッサーによる大音量音声の抑制設定
・マイクから距離を離す(誤変換のリスクあり)
・小声で話しすぎない(男声が交じる原因となる)
小声で離すとボイスチェンジャーへの入力音が低くなり、誤変換の原因となる。小声対策でマイク入力音量を上げすぎると、ホワイトノイズ上昇・音割れのリスクが発生するので、ある程度の声量で一定で話すように心がけることが重要。
特にVTーX系のボイチェンでこの問題が起きやすい印象。

小声の場合は大きめの声に自動的に変換してくれる。
なるべくボイスチェンジャーの状況を確認する
配信で最悪なのは「女声を出しているつもりが実は男声で配信していた」というものだろう。なるべく自分の女声を自分で聞きながら配信すべきだろう。
ただしハードウェアボイスチェンジャー構成の場合は、一度設定してしまえばハードウェア側の設定を放送中にいじることは少ないと思うのでこのリスクは比較的低い。これが、筆者がハードウェアボイチェンを手放せない理由の一つだ。
ソフトウェア系ボイチェンの情報をいろいろ調べていると「パソコンのスペック不足でおっさん声が交じる」とか「30分以上使用するとソフトがバグり初めておっさん声が交じる」といった、背筋の凍るようなコメントを見かける。ソフト系はこういった弱点があるのだが、ハード系はこういった問題は生じていない。筆者も3年ほど配信しているが、おっさん声がダイレクトに放送にのった事は一度もない。
放送中に「声質を変えたい」とか「ロリ声とお姉さん声を分けて2キャラを演じたい」といた特殊なニーズを満足するためには設定をいじる必要も出てくるが、地声をそのまま出力してしまうボタンを触ってしまったら目も当てられない。なるべく、放送中はボイスチェンジャーを触らないほうがいい。バイパスボタンの機能offができるならしておこう。
複数の声を変換できる機能を持つボイスチェンジャーの場合、フットスイッチなどの切り替えスイッチを取り付けられるものもあるので活用しよう。
ボイチェンが誤作動を起こしていないか、普段からよく監視しておく必要もあるだろう。
・配信PCに高負荷をかけない
→配信時にパソコンに負担がかかると声が歪む。私はこの問題で1ヶ月悩んだ。CPU使用率50%を超えたあたりから女声が歪み始め、全体的にこもったような状態になり聞くに堪えない状態になる。
上の配信時がその状態。喉が潰れたミッキーマウスのような声だ。このときの配信PCのCPU使用率は70%前後。対策としてCPUに過大な負荷をかけていたFacerig(40%ほど)をメインPCへと移行することで対策した。
LAN回線速度と遅延
私の配信環境はゲーム用パソコンと配信用パソコンの2台構成によって行っている。二台のパソコンが1000BASEのLANで結ばれており、常時100Mbps程度の通信速度によって通信している状態だ。
この状態だと当然、100BASEの通信環境だと通信が難しくなる。はじめは100BASE環境で配信を実施しようとしたがNDIの通信が回線速度不足で遅延の問題が発生した。
遅延により女声が歪まないとも限らないため、LAN環境はなるべく余裕を持った環境で構築しておきたい。
音声ハードウェア・ソフトウェアの周波数を合わせる
ボイスチェンジャー・オーディオインターフェース・OBSといった音声に直接関係する機材にはサンプリング周波数の設定項目が存在する。
この周波数帯の設定をなるべく合わせること。合わせないと音がひずむ原因となる。特に女声は声の歪み・こもりが目立ちやすいため注意が必要だ。

Windows・OBS側も必ず合わせる。


経験上、ボイスチェンジャーのサンプリング周波数を48khzに合わせたら、windowsのマイクは48khzの倍数(96khz・192khz)、スピーカー(オーディオインターフェース)、OBSも同様に倍数に合わせると歪が少ないと感じた。
女声変声の調整
機器調整

1~2:マイク入力~マイクアンプ
マイクアンプでおっさんの声をどのように調整するかの部分。
ボイチェンの性能に大きく左右されるが、基本的にボイチェンは「おっさんの声を女の声にする」機械だから、おっさん声である低音~中音域をほどほどに活かし、ノイズ源となりやすい高音域はカットしてもよいと思う。
完全に低音~中音域をカットすると声がカスカスになってしまい音量を稼ぐことができなくなる。またこの状態だとオーディオインターフェースのエフェクトでエコーをかけてもエコーがかからない(響きがないため)という状態に陥ってしまうので、歌ってみた系配信をする人は注意。

MIC2200での調整について軽く紹介。
MIC GAINの入力側はノイズが発生しない限界レベルまで上げる。
FREQUENCY LOCUTはできる限り低めに。高めにすると低音域が無くなってしまい、声がガビガビになってしまう。
FREQUENCY はX10でなるべく高めに。なるべく地声の周波数を高めるため。
BANDWIDTHとLOVEL _EQはパラメトリックイコライザーで、可能な限り高めにする。これも地声の周波数を極力上げるため。
2~3:イコライザ

2kは声がガビガビになる原因なのでカット。
4K以上はボイチェンで変換されない域で、ノイズ源になるのでカット。
上記同様、ノイズとなりやすい高音域をカットする。ハイカット・ローカットの設定をうまく変更することで、違和感のない帯域の女声を狙いたい・・・がこれが結構難しい。
上の動画ではハイカット・ローカット共に周波数の設定しか変更していないが、筆者の所有するパラメトリックイコライザーはそれぞれの周波数に対して強弱を変更できるので、実際の設定幅が非常に広く、動画のように声を”クリアー”にするか、”こもら”せるかだけではなく、尖った印象にするか、ノイズを徹底的に減らすか・・・といったところも調整ができる。
3~4:ボイチェン
ピッチ・フォルマントの微調整で女声のベースを作る。ピッチを上げすぎるとけろけろボイスになるので控えめにする。低音すぎると可愛い声でなくなるので、このバランスをうまく取る。
ピッチとフォルマントは声質の変化をつける部分。あなたの作りたい女声に合わせた声づくりをするベースとなるので、まず「どんな声にしたいか」という点を決め、ピッチ・フォルマントを調整してベースとなる声を作ろう。
基本的にロリ声になればなるほど声は作りやすくなるがやりすぎるとミッキーマウスの声になる。お姉さん声はおっさんっぽさが出るので作るのは難しい。
高性能なボイスチェンジャーは内部機能にパラメトリックイコライザー機能があるので、これとDSPのイコライザー機能を使用し外部イコライザ・マイクアンプを極力使用しないことでノイズを低減できる。が、こういった高性能ボイチェンは市場にはほとんど出てこない。
4~5:イコライザ
変声した女声の中に「ポップノイズ」や「おっさんの声」などが高確率で混じっているので、これをカットするように調整する。
基本的に低音~中音域はばっさりカットし、女声の主成分である高音域を入れる。
が高音域を入れすぎるとキーンとした高音のノイズが響きやすいので、ここをうまく調整する。
5~:パソコン
ハードウェアイコライザで除去しきれなかったおっさん声・リップノイズ・高音ノイズなどを、高性能のオーディオインターフェースのフィルター機能で極力カットする。
しかしカットしすぎると音が痩せてしまうため、コンプレッサー等の機能で音を増幅させ調整。
DSPの設定としては低~中音域をかなりカットしている。が、動画のようにカットしすぎるとカスカスな声になり艶がなくなるので、程々は入れたほうがよいと思われ。
Cubase AIの設定
YAMAHA AGー03に付属していたこのソフトで自分の音声波形を見ながら「どこが悪いのか」というのを目視しながら調整することにより、随分と調整しやすくなった。
ただ初見では結構使い方がわからず難儀するソフトなので、簡単に解説していく。

とりあえずインストールしたCubase AIのアイコンがデスクトップ上にできるのでダブルクリックで開く。

「ファイル」ー「新規プロジェクト」で新しいプロジェクトを作成する。

「レコーディング」アイコンが選択された状態で「空白のプロジェクトを作成」ボタンを押そう。

Cubase AIの画面が開いた。正直言って全く見慣れない画面に戸惑いを覚えるだろう。私自身も未だに慣れないが、音声波形を見る為の設定ならなんとなくわかったので書いていく。
画像の「+」ボタンをクリックすると「トラックを追加」というダイヤログが開く。本来ここであなたのオーディオ環境に応じた「オーディオ入力」「構成」「オーディオ出力」を選択して「トラックを追加」を押すのだが、ここの設定は後で簡単に変えられるのでとりあえず「トラックを追加」を押す。

新しいトラックが作成できた。「入出力チャンネル」というトラックが作成できたと思うので、「e」というボタンを押してみよう。

オーディオの設定が正常にできていればこの状態ですでに波形が表示されているはずだが、残念ながらうまく設定されていなかったようだ。
「←」や「↓」「↑」を押してみよう。

筆者の場合、「←」を一度押したら音声波形が表示された。

この「チャンネル名」の部分が、オーディオインターフェースの入力チャンネルに該当するようだ。ここは「↑」「↓」キーを押すことで切り替えできる。
波形確認
筆者の場合、Stereo Inの5にマイクをつなぎ、そこからボイチェンへ入り、ボイチェンからStereo In 4に入り、イコライザなどを経由して最終的にStereo In 3へと出力されていく。
試しに「マイクのテスト中」の「マ」の波形を下に貼ってみたので、違いを見てみよう。
おっさん声
Stereo In 5 (Analog 9 (1) / 10 (1))

この部分が大きいとおっさんの汚い声が強調されてしまうので、ここをイコライザーでカットだ。
この前段階でグラフィックイコライザーにて波形を調整しているので、厳密にいえば地声の波形ではない。
微少女声
Stereo In 4 (Analog 7 (1) / 8 (1))

ボイチェンに入ることで2kHz以降の高周波帯が増幅されているのが分かる。
また、女性の腐ったようなガラガラ声の主成分である1~2kHz帯が太いので、汚い声だ。
全体的にノイズが大きい印象。
Stereo In 3 (Analog 5 (1) / 6 (1))
美少女声

また、女性の腐ったようなガラガラ声の主成分である1~2kHzをかなり削ったことで、かなりマシな美少女声に近づいた。最終的にリスナーさんに聞こえる声だ。
音声波形が表示できるようになったら、試しに好きな声優の声をマイクから入れて、自分の女声波形と比較してみよう。
スピーカーの特性などが違うので厳密には比較は難しいかもしれないが、参考にはなると思います。
ノイズ対策
ボイスチェンジャーによる女声変換はとにかくノイズに悩まされる。ノイズには様々なものがあるが、ボイスチェンジャーの場合は、高音ノイズに頭を悩ませることになる。
ノイズの発生原因は様々ある。その発生源を特定していくことが、ノイズ低減のカギとなる。
マイク
マイク由来のノイズは、マイクの性能によって大きく左右される。高性能マイクであればあるほど音をよく拾う。特にコンデンサマイクは集音性能が良いので、周りの雑音を拾ってしまうことがてしまい、この雑音が後に変換されてノイズとなることがある。
安物のピンマイクの様に低音域の集音性能が良いマイクはボイチェンでは有利に働く事が多いが、マイクから口が近すぎるとリップノイズ、息づかいがボイチェンに入り不自然な雑音を生じる場合がある。
音量

ホワイトノイズ対策は音量の調整が非常に重要である。ほとんどの機器の場合、ノイズの特性は図のようになっている。1つの機器で音量を最大に上げている場合、ノイズが相対的に大きくなる傾向にあるようだ。なので音量調整ができる機器ではホワイトノイズが生じにくい適正な音量(緑線)を見つけ出して複数の機器で音量を上げていく方が良い。
切り札は最強のオーディオインターフェース
色々と各種調整を煮詰めてきて、最終的に至ったのがこの「RME Fireface UFX ii」。
最強のオーディオインターフェースと歌われるRME社のフラグシップモデルで、ボイチェン環境でも最高度のパフォーマンスを発揮してくれた。
値段を見たらめんたま飛び出るほど高いが、その価格に見合っただけの声質調整能力に脱帽。とかくおっさん声のまじりや高音ノイズなどで頭を悩まし続けてきた私でしたが、その殆どの問題がこのオーディオインターフェースによって解決しました。
まぁ・・・ボイチェンと心中するつもりならば購入してみてもよいのでは?
ただしこれは業務用機器でオーディオ系とパソコンの深い知識がある人にしか扱うのが難しく、機能を把握するまでにかなりの勉強と時間を要します。上で紹介しているようなAG-03などの廉価なオーディオインターフェースとは一線を画するので、よほどの覚悟が必要といえるでしょう。

Fireface UFX ii では基本的に上の図のボイチェン以外の部分をすべて負担させることもできます。
具体的には「マイクアンプ」「イコライザ」「オーディオインターフェース」の3つですね。マイク入力後のおっさん声をマイクアンプ機能で増幅しつつ、イコライザ機能で変声し、出力した音声をボイチェンに入れ、ボイチェン後の微少女声を再びイコライザ機能で調整し、パソコンに出力させるのです。
流石に業務用機器だけあって調整できる項目が多岐に渡り、ノイズをほぼ感じさせないクリーンな音質は満足いくものでした。
私の場合、2台のPCをつかっての配信・ゲームプレイをしているためサウンド出力先をUFXIIにまとめて一つのヘッドホンに出力させたり、OBSへの出力先の音をまとめたり、ピアノやオーディオ機器の出力をまとめたりと、「これほど便利なものがあったのか」と感心しています。
本来ボイチェンのみに使用するつもりの用途で買ったのですが、今では配信環境の中心部としてなくてはならない機材になりました。
ただ個人的には全くオススメしません。AG-03が廉価&多機能で優秀なんで、AG-03で調整できるならばその方がいい。もうここまでくるとヤケクソな感じ。バ美肉なんてクソっ喰らえだ。
所感
ハードウェア系ボイチェンを極めると友人たちとゲームをプレイしながらのバ美肉配信も可能だ。
私は2pcで配信環境を組んだが、ゲームpcでディスコードを起動し友人たちとの会話は男声で行い、ボイスチェンジャーは配信用pcに接続して配信は女声で行なっている。
こうすることで友人達との会話も違和感はないし、配信は女の子を演出できるので面白い。配信pcでディスコードを立ち上げれば女声でのボイチャにも参加可能だ。
ここではあえてVT-3という性能の低いボイチェンでの女声構築について紹介してきたが、最新の機種を使えばもっと簡単にできる。ただしこの女声の微調整というのはここで紹介してきたように非常に困難を極めるので、ハードウェアボイチェンを始める人は覚悟して欲しい。

正直言ってバ美肉女声ボイチェンvtuberは茨の道よ・・・(´・ω・`)
コメント