2019年CES会場で麻倉さんが気になった展示のひとつが、ソニーの「360 Reality Audio」(サンロクマル リアリティーオーディオ)だ。いわゆる3Dイマーシブオーディオ再生技術で、従来は2chだった音楽再生をより体験的かつリアリティ豊かに再現する提案だ。そこで今回は、360 Reality Audioの仕組や目指す効果について、開発メンバーの澤志聡彦氏、知念 徹氏、片岡 大氏の3名に詳しくうかがった。(編集部)
麻倉 先日のラスベガスCES会場で360 Reality Audioのデモを拝見しましたが、音楽鑑賞の新しいスタイルとしてたいへん感心しました。
知念 360 Reality Audioの制作技術と伝送技術、再生技術のコアのベース開発を担当した知念です。私は25年ほどオーディオコーデックを担当しており、MPEGのAACや3D Audioにも関わってきました。最近はこのようなイマーシブ系も担当しています。
澤志 澤志です。私はソニービデオ&サウンド株式会社の事業部側で、知念たちが開発した技術を商品に落とし込む部分を担当しています。
これまでは車載機器関連の担当が長かったのですが、最近はオーディオ全般を担当しています。昨年はサウンドバーで高さ方向を再現するためのVirtual(バーチャル)技術も開発しました。
片岡 商品企画を担当している片岡です。商品周りの立て付け、ネーミング、レコード業界を含めた連携をまとめていくことを担当しております。
麻倉 さて今回の360 Reality Audioですが、まずその仕組について詳しく教えてください。
片岡 360 Reality Audioは新しい音楽体験を実現します。そもそも音楽は、元々はライブで、目の前で演奏されるものです。ですから本来は、演奏の瞬間をユーザーに体験していただくのが一番だと考えます。それをコンシューマー機器で実現するのがわれわれの目指すところです。
360 Reality Audioには専用のクリエーションツールがあり、それを使って音楽を立体的に、360度の全天球空間に配置でき、さらに音をオブジェクトとしてダイナミックに動かすこともできます。その結果、これまでにない表現も可能になります。またリスナーの聴取位置、耳の位置より上だけでなく、下方向を含めた全方向に音を配置できるという特徴もあります。
麻倉 ということは、360 Reality Audioはマルチチャンネル再生を前提としたシステムなのですね。
知念 いえ、マルチチャンネルが必須というわけではありません。もちろんリアルスピーカーでも再生できますが、まずはヘッドホンを使ったバーチャル再生での提案を考えています。
麻倉 なるほど。今回の360 Reality Audioの大きな特徴は、ヘッドホン試聴を想定しているところだと思います。ただしこれには個人個人の頭部伝達関数をどうするかが重要になると想いますが、そのあたりはどうお考えでしょうか?
知念 現在開発中ですが、耳の写真からその人の頭部伝達関数を算出するといった試みも進めています。
片岡 具体的には誘導アプリのような形を考えています。アプリの指示に従って写真を撮影して弊社のサーバーにアップしてもらうと、ユーザーに結果がもどってくるような流れで考えています。
同時にヘッドホンの型番が分かればその特性に応じた最適化パラメーターも送ることができます。それがスマホのアプリでできるというのが目標です。
麻倉 それはたいへん面白いアプローチですね。一方で、リアルスピーカーで再生する場合の配置はどうなるのですか?
知念 マルチチャンネルの場合は、推奨している最小システムは13個のスピーカーを使うというものです。オジェクトオーディオはスピーカーを増やすほど音がよくなりますので、どんどん拡張していけるのも特徴のひとつです。
片岡 360 Reality Audioの魅力は、アーティストが演奏しているその場で聞いているような臨場感を再現できることです。今回はそれをストリーミングサービスで実現しようと考えています。ストリーミングで、モバイル環境で聴けるようにしたいというのが狙いです。
目指すところはライブの客席ですが、スタジオ収録時のアーティストの聴こえ方を再現するとか、EDM系の音楽に表現の手段を提供するという考え方もあります。それは制作の考え方次第です。
麻倉 360 Reality Audioはストリーミングで配信するとのことですが、その場合は圧縮して伝送するのですか?
片岡 はい。配信用の圧縮コーデックは国際標準のMPEH-H 3Dオーディオをベースにしています。仕様はオープンにしていきますので、他社さんも仕様にアクセスしてスピーカーのような再生互換機器を開発いただけます。
制作ツールは知念が開発したものを使います。スタンドアローンで、PCで動くアプリケーションで、マック版とウィンドウズ版の両方を準備しています。GUIでオブジェクトを自在に配置でき、マルチトラックの音源があればコンバートすることが出来ます。
麻倉 最大のオブジェクト数はいくつを想定しているのですか?
知念 24個です。編集時は最大128まで可能です。
片岡 制作ベースでは48kHz/24ビットで処理が出来ます。その後のビットレートは、ストリーミングサービスに合わせて最大24オブジェクトで1.5Mbps、通常のCD音源と同程度のデータレートにしています。
知念 24個のオブジェクトが従来のステレオのようにずっと鳴っていると、とんでもない音量になります。人が心地いいと感じる音量はオブジェクトがいくつであれあまり変わりませんので、2chの音量が最適だとすると、それを分散させることになります。結果的にはひとつひとつのオブジェクトは時間的に、あるいは音量的に分散されますので、トータルのエネルギーはそれほど変わらないのです。
麻倉 なるほど。圧縮といっても、選択的なのですね。それはMPEG-H 3Dの仕様なのですか。
知念 そうです。オブジェクトが24個あっても、ほとんどヴォーカルの2chしか鳴らなかったら、1.5Mbpsが極力2chに使われます。それができるフォーマットになっているのがMPEG-H 3Dです。通常バリアブルビットレートというと時間軸方向に割り振りますが、ここでは時間軸だけでなく、オブジェクト方向、空間方向にも割り当てています。
1.5Mbpsにこだわったのは、スマホでも楽しんでいただきたいと考えたからです。これくらいでないとストリーミングでの配信が難しくなり、コンテンツが増えません。コンテンツが増えないと何も変わりませんが、逆にコンテンツが増えるとユーザーに聴いてもらう機会も増えて、最終的にはいいシステムで聴けるようになると思います。
片岡 MPEG-H 3Dの規格としてはハイレゾもサポートできますので、条件が揃えば将来的に検討していきたいと思います。
麻倉 なるほど。鶏が先か卵が先かの問題を打ち破るためには、1.5Mbspは大事ですね。MPEG-H 3Dが公開された段階で、これを採用しようということになったのですか?
知念 いえ、そういうわけでもありません。コア・コーデックという観点からすると、MPEG-H 3Dオーディオの標準化の手順が重要でした。
もともとMPEG-H 3Dの規格化の段階で、商用化する際にはこういう技術も入れておかなくてはならないといった構想を持っていました。それもあり、弊社として標準化に参画してきたのです。
麻倉 MPEG-H 3Dが標準化されたのはいつ頃だったのでしょうか?
知念 2015〜16年頃に、内容がほぼフィックスされました。
麻倉 その頃までに、将来必要になる仕様を盛り込んでいったわけですね。
知念 標準化プロセスでは、世界中の研究者が自分の考えているものを商用化できるように工夫してまとめていきますので、ソニーとしてもそこに参加しておく必要がありました。
麻倉 MPEG-H 3Dオーディオはどこが優れていて、どんな点が360 Reality Audioに合っているのでしょう?
知念 将来を見越したときにネットワーク社会になるというのは20年以上前から言われていました。ネットワークを介して情報伝達をされる世界では、音楽再生もネット経由になると考えるのが当然です。
さらにネットワークでコンテンツを伝送する仕組を考えた場合、低ビットレートで高音質が伝送出来る事が必要になります。それが可能なのが、MPEG-H 3Dオーディオの一番の利点だと思います。
また、オブジェクトベースでソースを制作するという点も重要でした。再生機のバリエーションを増やすという点で考えると、オブジェクトベースがいいのです。ヘッドホンにも使えるし、将来の可能性としてはサウンドバーもAVセンターにも展開できます。
麻倉 MPEG-H 3Dオーディオは、基本的にオブジェクトオーディオが伝送出来るように仕込んであったわけですね。ところで、今回360 Reality Audioでオブジェクトオーディオを選んだ理由はどこにあるのでしょう?
知念 音源の配置の自由度も重要でした。まず、オブジェクトオーディオについて、xyzの3次元空間の原点に聴取者がいるという前提でご説明します。
その3次元空間に3個のスピーカーがあり、3個のスピーカーをつないだ三角形の中に、音源、つまりそこから音が鳴って欲しい場所があるとします。オブジェクトオーディオでこれを再現する場合は、モノーラルの音源とメタデータ(位置情報)を使います。
まずメタデータを、音源位置から原点までの半径と水平方向、垂直方向の角度に変換します。それを元に、各スピーカーからどんな音を、どれくらいのボリュウムで再生すると、そのポイントに音が定位するかを算出するのです。考え方としてはファントムセンター、ファントムイメージをどう作るかと同じです。
簡単に言いますと、音源位置が三角形の重心より右側にある場合は、音源を鳴らすときに右側のスピーカーの音量が大きくなり、左側は小さくなります。それを定式化すれば、メタデータさえもらえればどのスピーカーからどの音圧で再生すれば目的の位置から音が聴こえるかを、リアルタイムで計算できようになりました。この仕組をどんどん継ぎ足していくと、もっと広い空間を作れるようになります。
麻倉 簡単そうにきこえますが、実際にはかなり複雑な演算が必要でしょうね。それでもオブジェクトを使ったほうがいいのですね。
知念 再生機器のバリエーションを考えると、制作側にとってもチャンネルベースよりオブジェクトの方がメリットが大きいと考えています。
澤志 再生側はスピーカー配置などの自由度も高くなって、それに合わせてオブジェクトを活用出来ることになります。
麻倉 そもそもこんなアイデアを、いつ頃から考えていたのでしょうか?
知念 私は1995年頃からコーデックの観点からサラウンドについて関わっていました。当時はDSPの演算能力が足りずに、やりたくてもできないことがありました。
しかしこの10年ほどのDSPの進化は急速で、大量の音源データをリアルタイム処理できるまでになりました。それもあり、最近は3Dオーディオの研究が急速に進んでいるのです。
麻倉 イマーシブ再生のためには、DSPの計算パワーが大切です。
知念 3Dオーディオのアイデア自体は昔からあったわけで、われわれとしては、計算機のパワーだけでなく、スマホという再生機器まで含めて実現できる時期が、今ちょうど来たんだと判断しました。
麻倉 これまではパッケージソフトや、ホームシアター機器が中心でしたが、スマホを使うというとユーザーの裾野が広がりますね。しかもスマホのハードウェアとしてのパワーも高くなっている。まさに理想的なタイミングと言えますね。
※後編に続く(2月12日公開予定)