KDDIとKDDI総合研究所は、新しい音楽視聴体験を可能にするアプリ「音のVR」の配信をスタートした。これはKDDI総合研究所が開発した技術を使い、配信コンテンツを360度の見たい・聴きたい部分に自由にフォーカスできるインタラクティブ体験をユーザーにもたらすもの。今回は東京混声合唱団が歌う、定番卒業ソング5曲が配信され、様々な視点からの絵と音や、あるパートに近づいた際の聴こえ方まで体験可能となっている。いったいどんな方法でこれを実現しているのか、開発を担当した堀内俊治さんにインタビューした。
全国10代〜50代が選んだ「卒業式の合唱曲」から人気の名曲をセレクト。
「音のVR」を楽しむには
今回配信される「音のVR」のコンテンツは、「卒業合唱」をテーマにした5曲が配信されている。新型コロナウイルス感染症対策による休校や、卒業式の中止・縮小によって思い出づくりができなかった方々に向けて、「卒業式で歌われる合唱曲を贈ろう」という趣旨で企画・制作されている。
「新音楽視聴体験音のVR」アプリをApp Storeからダウンロードするだけで簡単に楽しめるので、対応デバイス(iOS13がインストールされたiPhoneやiPadなど)をお持ちの方はぜひチェックしていただきたい。
●今回提供された合唱曲
『旅立ちの日に』『大地讃頌』『3月9日』『群青』『心の瞳』
--今回KDDIと東京混声合唱団による「音のVR」の新しいコンテンツが配信をスタートしたと聞きました。まずは、「音のVR」の技術的な特徴を教えてください。どのような点にKDDI総合研究所の開発した技術が使われているのでしょうか。
堀内 「音のVR」という用語は最近いろいろなところで話題になっていますが、ここで言っている「音のVR」は、当社のオリジナルの技術を指しています。
その狙いは、音源に近づいたり、あるいは遠ざかったりといった感覚を再現した点にあります。包囲感を再現する手法として、アンビソニックスとかHRTF(頭部伝達関数)を使うものがありますが、「音のVR」はそれらとは違います。
今回は再生デバイスにiPhoneやiPadを使っていますので、2chのステレオで再生します。しかし収録時には、360度全周が撮影できるカメラと、同じく360度の指向性を持ったマイクを使います。
マイクはZYLIAのZM-1で、19個のマイクを搭載した360度マイクと呼ばれるものです。通常はこれで録音してアンビソニックスに変換することが多いのですが、アンビソニックスは音場を360度回すことは得意ですが、音源に近寄ると言ったことはできません。
それを可能にするために、ZM-1で録音し、その後もマルチチャンネルのままで配信しています。そこからアプリ上で画角に応じた2ch音源を作成して再生することで、あたかも360度方向から再生されているような体験が可能になるのです。この変換ソフトウェアが独自のノウハウになります。
--マルチチャンネルのまま配信しているということは、マイクの19chぶんをそのまま送っているのですか? それとも5.1chなどに変換しているのでしょうか?
堀内 19個のマイクで収録した音は、一旦、NHKさんが提唱している22.2chのサラウンド方式に変換してから配信しています。再生時には、アプリ側で22.2chの音源を隣り合ったステレオスピーカーごとに縮小していき、最終的にステレオに落とし込んでいるのです。
22.2chの音源をモノーラルではなくステレオペアで認識していますので、音源に寄っていく場合でも左右のバランスがとれた状態で再現できます。だから、ズームしても定位が崩れないし、音源に近づいた時の印象が再現できることになります。
--22.2chを経由するのは、音場感を再現するためなのですか?
堀内 いえ、22.2chが必須というわけではありません。チャンネル数が多いに越したことはありませんが、5.1ch程度があれば「音のVR」は可能です。
22.2chを使っているのは、音の方向性や距離感もしっかり再現したいという点もありました。もともとあるスピーカーの並びに準じて音を変えていくことで、アンビソニックスのように、移動感、音が回っていく様子を再現しています。
またある音に近づくということは、実際にはその他の音は後ろに回り込んでいくわけです。今回はHRTFを使っていないので、位相を変えていくことで擬似的に距離感を演出しています。また視界から消えた被写体については、音も少しずつフェードアウトしていくように処理をしています。
--実際のアプリ上では、どんな風に絵や音が変化するのでしょうか?
堀内 使い方は簡単で、メニュー画面から聴きたい曲を選んでもらえれば大丈夫です。コンテンツがスタートすると、普通のテレビと同じくらいの画角で正面から捉えた映像が表示されますので、あとは画面を見ながら左右、上下にタップして視点を切り替えたり、ピンチで拡大していただければ映像と音が連動して変化します。
5ミリ秒ごとに演算処理し、20ミリ秒ごとに更新していますし、視点の動きに応じて連続的に変えていますので、遅れや違和感はほとんどないと思います。なお、映像を真上や真下にした場合は音がモノーラルになるようにしています。これはちょっとしたお遊びです。
--このアプリは360度の8Kビデオと3Dオーディオが再生可能とのことですが、その点も詳しく教えてください。
堀内 カメラはInsta360 Proシリーズを使っていますが、こちらは球体の側面に6つの魚眼レンズが付いていて、全周を水平7680×垂直3840の8K画素数で出力できます。いわゆる8Kテレビの画面をくるっとまるめたような状態に近いのです。撮影時にはカメラとマイクを中心に置いて、合唱団の皆さんにそれを囲むように並んでもらいました。
--カメラを囲んでの合唱とは面白いですね。その映像は8Kで配信されているのですか?
堀内 配信は2種類準備しています。iPhoneなどの一部の古いモデルでは4K画質までですが、新型iPhoneやiPad Proでは8Kも選んでいただけます。どちらを再生するかはメニュー画面で選択します。8Kならズームした場合も綺麗です。ただ、8Kはデータ容量が大きいので、無線LAN環境での鑑賞をお薦めします。
--配信の映像や音のコーデック、ビットレートはどれくらいなのでしょう?
堀内 映像のコーデックはHEVCで、4K映像の場合は7Mbps、8Kは15Mbpsです。オーディオはコーデックがAACで、どちらの場合も1チャンネル当たり192kbpsなので、22.2chで約4.6Mbpsになります。なお音の収録は48kHz/24ビットのリニアPCMで行なっています。
「”音”のVR」ですから、ビットレートもそれなりに贅沢なレートを使いました。これ以上圧縮してしまうと、声が混ざっている部分で粒立ちがなくなったり、圧縮でロスしていることが分かってしまうのです。倍音感などもまったく違ってきます。周波数特性を計るとほぼ違いはないのですが、人が聴くと違いがはっきり分かりました。
--「音のVR」のアプリは、今回の5曲のコンテンツ専用なのでしょうか?
堀内 コンテンツの作り方さえ同じなら、このアプリを通して楽しんでいただくことが出来ます。コンテンツの種類については、今回のように事前に編集まで仕上げた作品の方が安心ですが、ライブも不可能ではないと思います。
--今回のコンテンツをご覧になった方の声などは上がってきていますか?
堀内 合唱団のメンバーさんや合唱部の先生、作曲家さんからは、今までにない聴き方で、今後の合唱の練習にも使えそうだといった意見をいただきました。お客様が自由に聴きたいパートを選べるという意味では画期的なコンテンツでもあります。
--今回の取り組みで面白かったこと、新しい発見はありましたか?
堀内 ソフトウェア的にはそれほど難しいことはありませんでしたが、実際の録音をどうすればいいのかや、収録した音がどう聴こえるかという点はまったく未知数でした。
実は、最初に合唱団の皆さんにマイクを囲んだ状態で歌ってもらったら、ソプラノもアルトも混ざって聴こえてきて、私には聴き分けできませんでした。ですのでアプリでうまく聴き分けることができるか心配だったのですが、やってみたら案外いいバランスで、ズームの声の距離感もきちんと再現することができました。
これまで音楽コンテンツを届ける方向は、クリエイターが生み出したものをそのままユーザーに届けるという流れしかありませんでした。それに対して、通信事業の研究者という立場から、どこかにユーザー側の意図が入り込む余地はないかということを考えていました。
とは言っても、アーティストさんやクリエイターさんがすべての権限をユーザーに渡すことはないでしょう。では渡せる権限とは何かを考えて、今回は画角であったり、音の範囲と言った部分をクローズアップしてみたのです。
画面内の特定の人物に近づいていけるとか、気になるパートに聞き耳を立てられるといったことができたらいいなぁという発想があって、それを今の技術で再現してみたのが「音のVR」といえるかもしれません。
--では最後に、今後どんなコンテンツで「音のVR」を活用してみたいとお考えですか?
堀内 音楽コンテンツを増やしていくという方向もあるでしょうし、昨年のCEATECで展示しましたが、フィギアスケートのようなスポーツ鑑賞でも応用できるのではないかと考えています。
こういった見方、聴き方もできるよということを、選手やアーティストと一緒に発信していけるといいですね。「音のVR」の楽しみ方が普通になったら、スポーツの採点方法が変わったり、作曲の方法が変わったりといったことが起きてくるかもしれません。そこについては、これから徐々に発信していきたいと思っています。
今後は5Gのインフラが充実してくるでしょうから、将来的には触覚を含めたオーディオビジュアル体験をお届けできればと思います。
演奏する側にとっても新しい体験で、いい刺激になりました。
緊張するけれど、色々やってみたいと思います
今回配信がスタートした5曲の卒業ソングは、すべて東京混声合唱団の皆さんによるもの。マイクとカメラを中心に据えて歌うというふだんともまったく違う合唱スタイルを、団員の方々はどんな風に感じたのだろうか、今回は東京混声合唱団でテノールを担当している平野太一朗さんにもお話をうかがった。
--今回「音のVR」の収録に参加されたそうですが、普段と違って苦労した点などはありましたか?
平野 普段われわれ合唱団は横に並んで、お客様に向かって歌を届けているのですが、今回は聴いている方を囲むようにして収録をしました。この並び方だと、普段と違う聴こえ方になりますので、ハーモニーの付け方なども微妙に違ってきて、新鮮でした。
また出来上がった「音のVR」も見せてもらいましたが、それぞれのパートの音だけ抜き出せたり、フォーカスできる点がとても面白いと思いました。合唱曲の特定のパートだけを抜き出して聴くと粗も見える反面、そのパートが全体としてどんな風に効力を発揮しているのか、どんな風にハーモニーを構成しているのかまで理解していただけるのではないでしょうか。
また、普段われわれが経験できないことにも気づかせてもらいました。たとえばぼくはテノールですから、アルトやバスと隣同士になることが多い。その環境での音を聴いているわけです。でも「音のVR」ではソプラノの音に寄っていって、ソプラノの位置でどんな風に合唱が聴こえているのか体験できるのが面白かったです。
ピアニストや指揮者にフォーカスを当てることで、彼らがこんな風に音を聴いていたんだということも分かりました。お客様に届く前の、指揮者としての感覚は歌っている側にもわからないことですので、貴重でした。
--歌っている立場からみて、「音のVR」でこんな曲を採り上げたら面白そうだといったタイトルはありますか?
平野 合唱では、客席で歌ったり、バラバラに並んで歌ったりするような曲も多く存在します。そういった動きのある曲で「音のVR」を作ったら、もの凄く面白い体験ができるんじゃないかと思いました。普通にソプラノ、アルトといった順番で並んだ時とは違う音の聴かせ方なども考えていけると面白そうです。
--「音のVR」は、リスナーが聴き方や聴く場所を選択できる画期的なツールと言えると思いますが、そういった聴き方が出てきたことに対してはどう思われますか?
平野 演奏する側からしても、新しい聴き方を体験できるのはいいことだと思いますし、作曲家の方々にとっても刺激になるでしょう。動画を含めたコンテンツの選択肢がひとつ増えて、同時にできることはぐっと広がったのではないかと思います。
生演奏とまったく同じとはいかないでしょうが、それに近いフェイズに行けるのではないかと感じました。「音のVR」は本当に面白くて、いい刺激になりますね。緊張するけれど、色々やってみたいと思います。
(取材・文:泉 哲也)