AES 2018 International Conference on Spatial Reproduction - Aesthetics and Science
テキスト:濱崎公男(ARTSRIDGE LLC)
取材協力/資料提供:AES、取材協力:東京電機大学、東京藝術大学
2018年8月6日~9日(6日はプレイベントのみ)、東京・北千住の東京電機大学東京千住キャンパスと東京藝術大学北千住キャンパスにおいて、「AES2018 International Conference on Spatial Reproduction - Aesthetics and Science」が開催されました。
『PROSOUND』207号と208号では、このコンファレンスに見た空間音響再生技術の最前線をレポートします。前回のイマーシブサウンド録音技術の紹介に引き続き、今号は、マルチチャンネルオーディオの歴史をひも解くところからスタートします。
※『PROSOUND WEB』注:本記事は『PROSOUND』208号掲載の『PROSOUND最前線』より転載しています。今回は「パート2」を、①安藤彰男氏の基調講演編、②ワークショップ編の二回に渡ってお届けします。
207号掲載「パート1」はこちら 基調講演 編 チュートリアル編 ワークショップ編
日本音響学会会長 安藤 彰男 氏の基調講演
「臨場感を感じるとはどういうことか」
コンファレンス2日目最初のプログラムは、富山大学教授で、日本音響学会の会長でもある安藤彰男氏による基調講演「Rendering of multichannel audio(マルチチャンネルオーディオのレンダリング)」で始まりました。以下、その概要をお伝えします(誌面の都合で一部を割愛しています)。
安藤彰男氏 今日は、マルチチャンネルオーディオのレンダリングについてお話します。オーディオシステムでは、臨場感(Sense of reality)を実現するために、チャンネル数を増やしてきました。ここで以下の3つの疑問があります。
ひとつ目は、どのような臨場感が増大するのでしょうか。2つ目は、チャンネル数を増やすことによって制作と再生との関係はどのように変わるのでしょうか。3つ目は、オーディオ再生はどういった方向を目指しているのでしょうか。今日はこの疑問に対する回答をお話ししたいと思います(①)。
本日お話しする内容は以下の通りです(②)。まず、臨場感を感じるとはどういうことかを説明します。そのなかで、オブジェクト臨場感とフィールド臨場感を紹介します。次に、マルチチャンネルオーディオの歴史を臨場感の観点から見てみます。どのような臨場感がマルチチャンネルオーディオによって向上したのでしょうか。その次は、録音された音からどのようにしてオブジェクト要素とフィールド要素を分離するかをお話します。これはレンダリングを実現するうえで重要な技術です。そして、最後にオーディオレンダリングにおける現状と課題をお話ししたいと思います。
臨場感はメディア技術にとって大事な要素です。ヴァーチャルリアリティの分野では、2つのタイプの臨場感が存在することが知られています。それはオブジェクト臨場感とフィールド臨場感です。
オブジェクト臨場感は明確なオブジェクトによってもたらされる臨場感です。フィールド臨場感は音場(フィールド)のアンビエンス(atmosphere)によってもたらされます(③)。
まず、オブジェクト臨場感はオブジェクト音によって生じるものです。例えば、コンサートにおける各楽器音、屋外での鳥のさえずり声などです。これらのオブジェクト音によってもたらせられる心理音響的な情報としては、音像定位があります。このオブジェクト臨場感に関連したモデルは、物理モデルが自由音場モデル、数理モデルが微分方程式による決定論的モデルです(④)。
そして、もうひとつのフィールド臨場感はフィールド音によって生じます。フィールド音は、例えばコンサートホールの残響、屋外のそよ風によって発生する音、そしてバックグラウンド音などです。バックグラウンド音にはおそらくバックグラウンド音楽なども含まれると解釈できると思います。フィールド臨場感に関連した心理音響情報は、音による包み込まれ感(サラウンド)です。また関連する物理モデルは拡散音場モデルであり、数理モデルとしてはおそらく確率モデルが必要なのだと思います(⑤)。
サウンドフィールドの典型的モデルは、自由音場(Free field)と拡散音場(Diffuse field)です。おそらくあらゆる音場は、この2つのモデルの混合で表現できるものと思われます。自由音場では反射音がありません。そして音は球面波として伝搬します。一方、拡散音場では音の方向性がなく、音場のどこにおいても音圧が一定です。自由音場が直接音(Direct sound)に対応し、拡散音場が拡散音(Diffuse sound)に対応しています(⑥)。
ここで、オーケストラの録音を例に考えてみたいと思います。コンサートホールの「S席」では、オブジェクト音はクリアに聴こえますが、残響感は小さいです。つまり、オブジェクト臨場感の方がフィールド臨場感に比べて支配的なのです。「S席」よりも後ろの席では、オブジェクト音がクリアに聴こえず、残響感は豊かになります。すなわち、オブジェクト臨場感よりもフィールド臨場感のほうが支配的なわけです。ところで、オーケストラの録音では理想的な「S席」の音を目指します。クリアなオブジェクト音と豊かな残響感を共存させようとします。実際のコンサートホールではこのような音を体験することはできませんが、録音で作り上げることはできます。つまり、クリアなオブジェクト音と豊かな残響音が共存する満足度の高い臨場感を実現することができるわけです(⑦)。
ここまでの話をまとめると以下のようになります(⑧)。臨場感は音場再生において重要な要素です。そして、2つの臨場感のタイプを考慮しなければなりません。それは、オブジェクト音によりもたらされるオブジェクト臨場感と、フィールド音によりもたらされるフィールド臨場感です。そして、臨場感、音響空間のパラメータ、音の伝搬、音の種類の関連性は図(⑧)に表したようになると思います。オブジェクト臨場感は、直接音つまりオブジェクト音によってもたらされる音像定位や音の方向性に関連しています。フィールド臨場感は、拡散音つまりフィールド音によってもたらされる包み込まれ感やサラウンド感に関連しているのです。
次に、臨場感の観点から、オーディオの歴史を簡単に振り返ってみたいと思います。2チャンネルステレオでは、オブジェクト音が2つのスピーカーの間に配置され、前方のサウンドステージが作られます。一方、本来あらゆる方向から伝搬されるべきフィールド音が、2つのスピーカーに間に閉じ込められてしまっています。これが2チャンネルステレオの大きな問題点だと思います(⑨)。
5.1チャンネルでは、オブジェクト音の定位を安定させるためのセンターチャンネルがあります。そして、サラウンドチャンネルによって、フィールド音を効果的に再生することができます(⑩)。
5.1chのあと、9.1chや11.1chなどが登場してきましたが、それらは割愛して、ここでは22.2マルチチャンネル音響システムを紹介したいと思います。22.2ch音響で三次元方向からのオブジェクト音とフィールド音の再生が実現しました(⑪)。
ここで22.2ch音響についてひとつのお話を紹介したいと思います。22.2ch音響が生まれた時、私はNHKにいました。22.2ch音響の研究を進めるための予算を確保しなければいけない立場でした。そこで、その提案書を作り、NHK放送技術研究所の部長会でそのプレゼンテーションを行ないました。ところが何人かの部長が、22.2ch音響など家庭に入れるのは不可能だと言いました。
この反応は放送という観点からは自然なものだと思います。その場では、その指摘に対する回答ができませんでした。でも今では、その指摘に対する回答ができます。5.1chは制作と再生で同じスピーカー配置を使用します。
しかし、22.2chは制作フォーマットだと言えると思います。制作において22.2ch音響システムを使用すれば、高品位な空間情報を捉えることができ、高品質な音場をアーカイブすることができます。
一方、22.2chフォーマットで制作された素材音を再生するには、劇場、スタジオ、家庭などの再生環境に合わせた調整が可能です。つまり、22.2chフォーマットによって、制作と再生におけるスピーカー配置を分離して考えることができるようになったのです。したがって、再生においては、これを実現するためのオーディオレンダリング技術が必須であり、それが、私が本日お話ししたいことでもあります(⑫)。
従来のオーディオレンダリング手法は、音の方向情報に基づいて行なわれ、自由音場モデルが使用されています。そして、制作と再生におけるスピーカーの角度から、変換係数が算出されています。この手法はオブジェクト音には適していると思います。しかしながら、フィールド音に適しているかどうかは疑問だと思われます。
したがって、望ましいレンダリングとは、オブジェクト音とフィールド音に対しそれぞれ独立した信号処理をするものだと思います。このためには、直接音と拡散音を分離することが必須になってきます(⑬)。
直接音と拡散音の分離に対しての従来の手法では、直接音(オブジェクト音)を、チャンネル間のコヒーレントな要素から推定する方法が使用されています。つまり、ペアとなるチャンネルをもとに推定しているわけです。
この手法を図(⑭)で説明すると以下のようになります。3つの音源があり、そこから3つの直接音が伝搬してきているという仮定の図です。これを2つのマイクロフォンで収音すると、それぞれの直接音は2つのマイクロフォン間で固有の時間差とレベル差で捉えられます。したがって、直接音は2つのマイクロフォン間の信号において大きな相関があります。一方、拡散音はランダム信号としてモデル化されています。
従来の手法に対し、私たちは新たな手法を開発しました。従来手法では、チャンネル間のコヒーレントコンポーネントを、サブバンド毎に2チャンネルの信号を重みづけして加算した信号から推定しています。私たちの手法は、サブバンド毎に他のチャンネルの重みづけ加算から推定するというものです。
2チャンネルステレオの場合で説明すると、従来の手法では、Lチャンネルのコヒーレントコンポーネントを、LチャンネルとRチャンネルの信号の重みづけ加算から推定しています。一方、私たちの手法では、Lチャンネルのコヒーレントコンポーネントは、Rチャンネルの信号のみから推定します。したがって、私たちの手法では、2チャンネルにおけるコヒーレントコンポーネントの推定をマルチチャンネルに拡張することができます。これが私たちの手法の特長のひとつです。そしてフィールドコンポーネントは、オリジナルの2チャンネルステレオ信号と推定したコヒーレントコンポーネント信号の差分(Residual signal)から推定することができます(⑮)。
従来手法と私たちの手法を図(⑯)で比較します。従来手法は、上の図のようにチャンネルペアによる推定を行なっています。これに対して、私たちの手法では、下の図のようにしマルチチャンネルによる推定が可能です。
最後に、オーディオレンダリングにおける現状と課題をお話しします。従来手法は、チャンネルの方向情報によって推定を行なっており、直接音には対応できていますが、拡散音に対しては対応できていません。したがって、新たなレンダリング手法が必要です。そのために、直接音と拡散音(オブジェクト音とフィールド音)を分離する必要があります。そのうえで、直接音は従来手法の方向情報によるレンダリングで対応します。そして、拡散音をレンダリングするための新たな手法が必要です(⑰)。
現時点では、フィールド音をレンダリングするための技術は確立できていません。可能性のある技術としては、以下のようなものが考えられます。まず、非相関化(Decorrelation)の手法。次に、反射音のモデルが空間の形状を参照できるようなレンダリング手法。そして、フィールドサウンドに角度の確率分布を取り入れる手法などです。これらの手法については今後検討する予定です(⑱)。