ライターが体験した「FutureVoice Actors」~花江夏樹さんなど人気声優の声を合成


ライターによる「FutureVoice Actors」レビュー
Writing by 柑こたつ

花江夏樹さんや金田朋子さんなど
人気声優の声を、自動生成するサービス

 皆さんご存じのように、人気声優さんはアニメにゲームにナレーションにイベントにと、今や引っ張りだこですよ。でもどれだけ無数のキャラを演じる人気者でも、人間だから身体はひとつしかない。よって常に忙しく、ほんのひと言ふた言ほしいと思っても、数週間から数ヶ月待ち……なんてこともあったりします。
 で、これですよ。テキストをカタカタっと入力するだけで、花江夏樹さん(あの炭次郎!)、内田彩さん(あの南ことりちゃん!)、金田朋子さん(あの金田朋子さん!)など、豪華声優陣(執筆時点で24名)の声でテキストを読み上げてくれる、その方面の方には夢のサービスが誕生しました。

 NTTテクノクロスが以前より提供している「FutureVoice Crayon」(ふゅーちゃーぼいす くれよん)という高性能な音声合成ソリューションと、本職の声優さん達が夢の最強タッグを組んだ法人向け新サービス、その名も「FutureVoice Actors」。2020年11月に概要が発表されて以来、気になり続けていた方も多いのではないでしょうか。

 このたび株式会社5次元が本サービスの販売代理店となり、一ライターとして気になっていた筆者にも触れる機会が回ってきたため、ちょっとこの場を借りて感想をお伝えしてみます。

テキスト入力、再生ボタンで
あっという間にボイスデータが完成

 本サービスはWebでの提供となり、契約すればブラウザで24時間いつでもどこでも利用可能。まず驚くのは操作のシンプルさで、「使いこなすためにマニュアルと睨めっこしながら試行錯誤」という複雑な初期プロセスはほとんど必要ありません。読んでもらいたい文章をコピペして再生ボタンを押すだけで、設定した声優さんの音声合成がただちに読み上げてくれるという塩梅です。

 試しにまずは「ありがとうございます」と入力して再生。すると、まったく違和感もロボット感もない、自然なアクセントの音声で「ありがとうございます」と再生されました。これは完璧!


 次は「こんにちは、今日はいい天気でゲスねえ。ゲッヘッヘー。」と入力して再生してみたところ、実際に再生された音声は「こんにちは、今日はいい天気で、げすねえ。げっへっへー」といった具合。自動解析によって「今日はいい天気で」「ゲスねえ」の間に、短い区切りが入力されたようです。また「ゲッヘッヘー」の部分は、さすがに「読んでる」って感じがしちゃいます。

これをパラメータで見てみると、

コンニチワ[,00]キョーワ[/01]イー[/01]テンキデ[ 01]ゲスネー[.01]ゲッヘッヘー[.03]

となっています。

 [,00]の部分がAIのテキスト解析によって自動入力される「アクセント句」というパラメータで、区切りとアクセントの設定です。「,」「 」「/」の部分は句点などの「ポーズ」(短い無音時間、区切り)を挿入するもので、「00」「01」など数字の部分がアクセントの位置を表しています。これによってセリフ全体のイントネーションが制御されている模様。難しくないですね。
 「今日はいい天気でゲスねえ」の部分を一気に読んでほしいので、ちょっといじってみました。とはいっても、いじったのは「テンキデ」のあとの[ 01]を[/01]にしただけ。半角スペースは短い無音を挿入する「小ポーズ」で、スラッシュは無音時間を入れずにアクセントのみを切り替える際に使うものです。

キョーワ[/01]イー[/01]テンキデ[/01]ゲスネー[.01]

 これで「今日はいい天気でゲスねえ。」の部分を一気に読んでくれるようになりました。

 お次は「ゲッヘッヘー」の部分。真ん中の「ヘッ」のトーンが上がってしまい「おっぱっぴー」のようなアクセントになっているので、せめてこれを「えっへっへ」「がっはっは」のような笑い声のアクセントにしたいので、数字の部分をいじってみることに。数字はそのままアクセントの位置を何文字目にするか設定するというもの。「ゲッヘッヘー」の場合は1文字目の「ゲ」の部分にアクセントを置きたいので、この場合は[.03]を[.01]に変更するだけ。さすがにゲスな笑い声そのものにはなりませんが、笑い声のセリフにはなりました。

 花江夏樹さんのボイスで「大正コソコソ噂話」を再生したら、おおっ炭次郎だ! ですが、「禰豆子ォ!!!」はちょっと無理かなといった感じで、執筆時点のバージョンでは全体的に感情表現が難しいようなので、キャラクターボイスに使用する場合はシナリオライターの腕の見せ所でしょうか。

 「話者・口調」というメニューでは、声優さんのボイスを選ぶことができます。前述の「金田朋子」「内田彩」「花江夏樹」のほか、「伊瀬茉莉也」「池澤春奈」「飯塚雅弓」「小山剛志」「川原慶久」「村田太志」など、アクロスエンタテインメントの人気声優陣の名前がズラリ。さらに「普通」「楽しい」「悲しい」など、声のトーンに感情を含ませた口調が用意されています。同じテキストでも声優さんによってガラリと違った印象になるのは、機械音声とはいえさすがプロですね。


 また「辞書」機能も搭載。漢字を含む固有名詞、例えば「花江夏樹」と入力してみると、最初は「ハナ[ 02]コー[/01]ナツ^キ[.00]」と自動的に読み取られたりといったこともあるわけですが、テキストフォームで「ハナエナツキ[.00]」に修正すれば、ひとまずはOK。そして同じ単語を何度も使う場合、辞書に登録すれば読み方もアクセントも以後は自動で出てくるようになるという寸法です。


 読み上げの「声質」「話速」「音量」「抑揚」「声の高さ」をセリフごとに変更したい場合は「合成パラメータ」というミキサー機能を使います。セリフ単位で音声ファイルに変換できるので、同じ演者でもセリフごとにパラメータを操作すれば、長いセリフの中で起伏をつけることも可能になりそうです。

 AIのテキスト解析によるセリフのアクセントや区切りの自動設定は、なかなかの精度。癖の強いテキストでもない限り、だいたい望んだ通りのイントネーションで再生されます。細かい調整が簡単にできるのも前述したとおり。
 それにしても予想以上に自然で流暢な、それでいて声優さんの個性をバッチリ反映した生々しいまでのボイスが再生されるのには、最初はビックリすることでしょう。ビックリしましたし。こりゃあ無限に遊べてしま……もとい、さまざまな用途に対応してくれること間違いなし。アイデア次第で誰も想像できなかったキャラクターを生み出すことも可能かも。

声優さんに時間制約のない「ムチャ」をお願いできる
アイデア次第で用途は無限大かも!?

 ボイスの再生についてはテキストの「読み上げ」ベースなので、ナレーションであればほぼ完璧、それほど感情の起伏がない会話についても成立できるレベルですが、「いっけええええ!!!」とか「最低だ……俺って……」といった感情全振りのセリフは、現状まだ期待した通りの音声にはならないかも。しかし「FutureVoice」のクライアントは日々バージョンアップしており、そう遠くない将来に可能になっちゃうかもしれません(その際はまた続報を書きますかね)。

 そんなわけで、本サービスの用途としてまずパッと思い浮かぶのが、アプリゲームやVTuberといった更新頻度が高いキャラクターボイス。突然の仕様変更などによる録り直しも簡単にできてしまうのが良いですね。ほかには、「リアルな音声実況」がウリの野球やサッカーなどのスポーツゲーム。これは大量の選手名や専門用語を収録する必要がありますが、本サービスなら声優さんを長時間拘束する必要がなくなり、新選手の追加なども簡単に行えるわけです。「ホームラン!」「ゴォォォル!!」といった激しい音声だけ、スタジオでの収録をお願いすればいいわけですね。
 また、人間味あふれる起伏に富んだ感情表現は難しいものの、ロボットやAIなどのキャラクターボイスになら十分そのまま使えてしまうことでしょう。えーとほかには……本職の開発者でしたらさらに豊富(ムチャ)な使い方も、すでにアイデアとして浮かんでいるのではないでしょうか。

 さまざまな用途に本物の有名声優ボイスを起用できてしまう「FutureVoice Actors」。
 実際に触れてみても本当に手軽に扱えて非常に面白いサービスなので、誰でも気軽に楽しんでいただきたいという気持ちはあるのですが、こちらはあくまで法人向けサービス。記事でいくら「流暢だよ」「衝撃だよ」「炭次郎だよ」と言われてもピンとこんわ! 具体的な実力や価格設定を知りたい! という方、株式会社5次元にお問い合わせいただければ、実際に「FutureVoice Actors」を体験できるトライアルアカウントをご用意いたします。まずはお気軽にお問い合わせくださいませ。

お問い合わせ先:contact@5dims.com

注・掲載した画面写真は、2021年1月29日に撮影したものです。
FutureVoice Actorsは、NTTメディアインテリジェンス研究所が開発した音声合成エンジン「Saxe」を使用しています
Copyright © 2020 NTTテクノクロス株式会社(NTT TechnoCross Corporation)