フランスで開催される国際コンテンツ見本市MIPCOM/MIPTVでは、毎年最新映像に関連した興味深い展示が行われている。StereoSound ONLINEでも麻倉怜士さんによるリポートをお届けしているが、2020年はリモート開催のため例年のような記事は紹介できなかった。しかしそんな状況でもオーディオビジュアル関連展示は数多くあった。そこで今回は、麻倉さんが注目したソニーの「AIによる音源分離」をクローズアップする。インタビュー取材に応じてくれたのは、ソニー株式会社R&DセンターDistinguished Engineerの光藤祐基さんと、コンテンツ開発課ビジネスプロデューサー池田裕司さんのおふたりだ。(編集部) ※インタビュー取材は2020年12月に実施しました

麻倉 今日はよろしくお願いいたします。私は毎年MIPCOM/MOPTVを現地で取材していましたが、今年はコロナ禍の影響でリモート開催になってしまいました。そこでオンラインで展示内容を確認していたところ、ソニーさんが「AIによる音源分離」というテーマを発表しており、これがたいへん面白かった。

池田 弊社では2010年頃からMIPCOMにスポンサードとして参加して、セッションを開催してきました。これまでは3Dや4K/HDR、8K/HDRなど弊社が推進しているフォーマットに関する啓蒙活動を行ってきました。

麻倉 先進映像を紹介するイベントがたいへん面白いので、私はMIPCOMではソニーのブースに入り浸りでした。4Kについても、先進的に取り組んでいるプロダクションの話も聞くことができましたし。

池田 これまではフォーマット関係の展示が中心でしたが、最近はそれも一段落した印象があります。そこでソニーとして新しいテクノロジーを探究していかなくてはならないというミッションが加わり、目先を変えた展示を考えました。

 MIPCOMは基本的にはコンテンツ売買のための見本市で、来場者はコンテンツを売りたい人と買いたい人がそれぞれ3割くらいです。残りはプロデューサーやクリエイターで、彼らは世の中のトレンドや最新技術をチェックに来ているわけです。今回はそれらのプロデューサーやクリエイターに向けて新しいコンテンツ製作手法を議論する場を提案できないかと考えました。

麻倉 ソニーは、最近はクリエイターに向けた技術提案にも積極的ですからね。

池田 コロナ禍の影響もあってロケはもちろんスタジオでの撮影も難しいなど、コンテンツ製作業界は厳しい状況になっています。それもあり、彼らはバーチャルプロダクション、リモートフィルミングといったことに取り組まざるを得なくなっています。

 そこでMIPCOMでもそれらの問題を採り上げ、バーチャルプロダクションの手法や、AIを使って旧作を復活させる方法を紹介しました。

画像: AIによる音源分離の動作イメージ。複数の音がまざった音源からそれぞれの要素を取り出すことができるという

AIによる音源分離の動作イメージ。複数の音がまざった音源からそれぞれの要素を取り出すことができるという

麻倉 その内容について、詳しく教えて下さい。

池田 項目としては、「ボリュメトリック・バーチャル・プロダクション」「LEDウォールを活用したバーチャルプロダクション」「リモートシューティング」「リモートクラウドベース・プロダクション」「リアルタイムVFX」「AIを活用したコンテンツ製作(AIによる音源分離)」です。

 ボリュメトリック・バーチャル・プロダクションは、リアルなセットを3Dでキャプチャーして、スアジオの巨大なLEDウォールやVRゴーグルで再現するという方法です。

 この技術の特長は、3Dで撮影していますので、人が動いた場合に視点の変化に追随して背景画像も変えられることです。さらに映り込みなどもリアルに再現できます。

 次のLEDウォールは、背景に現場の風景を上映し、地面部分だけをスタジオに再現することで、ロケにでかけたような撮影を可能にします。

 リモートシューティングは、例えばオーディション番組などでは応募者がスタジオに集まれないので、それぞれの地元でリモート撮影して番組を制作する方法で、既に実際の制作現場で使われています。

 リモートクラウドベース・プロダクションは、スタッフがスタジオに集まって作業ができないといった時に、クラウドを介してそれぞれの自宅等でポストプロダクションの処理を行う方法です。

 リアルタイムVFXは、いわゆるゲームエンジンを使ったもので、最近この分野の進化がとても早いのです。ゲームエンジンはグラフィック処理の性能がいいので、スタジオの収録現場でもリアルにCGに変更を加えることが可能で、撮影効果を確認できています。

 最後がAIを活用したコンテンツ製作です。AIを応用していますので、応用分野はひじょうに広く、例えば大量のアーカイブ映像から欲しいシーンを選ぶにしても、人が探すよりもはるかに効率的にチョイスできますし、画像修正も可能です。

 そのひとつがAIによる音源分離で、これは言うなれば、AIを使ってモノーラルやステレオの音源をマルチトラック音源に戻すことを実現可能にする技術です。映画やテレビ番組などの古い音源をどう活用するかということから考え出されました。

麻倉 これまでは、“ミックスダウンされた音”は変えられないというのが常識でした。この映画はモノーラル録音だから、立体音響にはできないといった具合に、ある意味諦めていた。

 しかし今回は『アラビアのロレンス』(1963)や『ガンジー』(1982)といった作品がこの技術を使ってドルビーアトモスのUHDブルーレイとして甦ったと聞いて、俄然興味がでてきました。コンテンツ・リ・クリエーションという意味でも見逃せません。開発責任者の光藤さんから、まずは技術的な仕様を教えていただきたいと思います。

画像: 米国盤UHDブルーレイ『コロンビア・クラシックス・コレクション:VOL-1』(日本での発売は未定)

米国盤UHDブルーレイ『コロンビア・クラシックス・コレクション:VOL-1』(日本での発売は未定)

光藤 「音源分離」という名前の通り、混ざってしまった複数の音を分離する技術です。こういった処理は不可能だとずっと思われており、AIや信号処理の研究分野でも、もっとも難しい技術の一つと言われてきました。

麻倉 そうだったんですね。そもそも音源分離の研究というものはいつ頃始まったのでしょう?

光藤 最初に盛り上がったのは1990年代で、革新が起きたのは2010年以降の、いわゆる深層学習(ディープラーニング)のAIが登場してからになります。

麻倉 ということは、90年代はAIを使っていなかった?

光藤 当時もAIは使っていたのですが、データを大量に使用して学習する、今でいうAIではありませんでした。人工的な、単純な音のサンプルを分離することは可能でしたが、実際の映画や音楽作品に適応するにはほど遠いものでした。

 これに対し、今のAIは音の特長を一生懸命解析して、ここに着目すれば音を分離できるだろうといった手がかりを徹底的に探っていきます。音については、足していくことはできるけれど、引くことは難しいと言われます。今回は音を高精度に引くことができた、最初の技術だと思います。

麻倉 ソニーでは、いつ頃からこの研究を進めていたのでしょう?

光藤 90年代も個人個人のテーマとして細々と行っていましたが、プロジェクトとして本格的に取り組み始めたのは2000年代後半からでした。

麻倉 これまでも、モノーラル音源をステレオや5.1chに“変換”したパッケージソフトは発売されています。今回の技術がそれらと決定的に違うポイントはどこでしょう?

光藤 “元の音に戻す”というところがポイントです。従来の方法は2chから5.1chにダイレクトに変換するもので、例えばサラウンドの音を創り出して足していくというアプローチでした。

 今回決定的に違うのは、ある音を抽出、つまり取り出している点です。これができると、次は同様に抽出した別の音と組み合わせて再配置が可能です。今回のUHDブルーレイでも、音の要素を取り出してからドルビーアトモスにリミックスしているのです。

麻倉 ということは、いかにうまく抽出するかがキーになります。そのために、どんなことをやっているのでしょう?

光藤 ここでAIが活躍します。コンテンツを音の信号を低い周波数から高い周波数まで解析していくと、音源によって時間方向と周波数方向の振る舞いが違います。歌声であればこんな風に立ち上がって、こうやって減衰していきます、ドラム音ならこう立ち上がって、消えていきますといった具合です。

麻倉 人の声や楽器によって、周波数軸と時間軸の変化が異なるということですね。

画像: AIに人の声やドラムの音などの特性を学習させることで、ミックスダウンされた音源からそれぞれの楽器の音に分離する。その際には周波数軸と時間軸の変化が大きな手がかりになるそうだ

AIに人の声やドラムの音などの特性を学習させることで、ミックスダウンされた音源からそれぞれの楽器の音に分離する。その際には周波数軸と時間軸の変化が大きな手がかりになるそうだ

光藤 映画であれば、俳優のしゃべり方とか使っているエフェクトでも違います。こういった特長を捉えれば音を分離できますので、それをAIが大量のデータから学んでいくわけです。

麻倉 ということは、とにかく沢山のデータをAIに読み込ませないといけません。

光藤 おっしゃる通りです。AIは人間の赤ちゃんと同じで、たくさん学習することで知識を深めていきます。学習している範囲内のものがわかるのは当然ですが、そこから一般的な特長、手がかりを抽出して未知のものにも適応できるようになったのが、今回のAIの革新といえます。未知の音楽だったとしても、今までの学習経験から分離できるのです。

麻倉 その手がかりとは、周波数特性と時間軸の立ち上がり、立ち下がりがポイントになるのですか?

光藤 貢献として大きいのはそのふたつです。他には、入力信号として2chの場合が多いので、L/Rの位相差やそれぞれの振幅の情報を手がかりとして使っています。

麻倉 抽出のための学習は、具体的にどういった手順で進めていくのでしょう?

光藤 AIの学習データとしては、音が混ざったものが入力、対象以外の音が混ざらずに録音されているものが出力になります。ですので、まずはペアになるデータが必要です。音楽でいえば、2chミックスされた音源が入力で、マルチトラックが出力というイメージです。それらを使って学習していくことで、分離の特長が解析できるわけです。

麻倉 ということは、最初から映画や音楽信号を使うのではなく、入力と出力信号のペアを作っておいて、そこから学習をスタートするのですね。

光藤 学習段階ではそういったデータを準備します。古い映画や音楽作品ではマルチトラック音源が残っていないことも多いので、それらの音源は学習用として使うことはできません。最近の楽曲を使って普遍的な要素を学習したAIを作り、それを過去の音源に対して適応していくことになります。

麻倉 なるほど、普遍性を学習するという点がポイントですね。その研究は順調に進んだのですか?

光藤 ここは手探りでした。というのも、そもそも学習するAIを音源分離に使ったのは弊社が先駆者なのです。

麻倉 世界初、ということですか?

光藤 おそらく音楽分野では世界初だと思います。われわれが正式に取り組み始めたのは2013年で、学会論文で公表を行ったのが2015年でした。SiSEC(Signal Separation Evaluation Campaign)という音源分離の国際コンペティションがあるのですが、そこで2015年にソニーとして初めて参加しています。

麻倉 そんなコンペティションがあるのですか? ずいぶんマニアックですね(笑)。

光藤 2000年代に誕生した組織で、主に大学がやっている研究テーマを発表していました。

麻倉 音源分離にも色々な使い方があると思いますが、SiSEC自体はどんな音源を対象にしているのですか?

光藤 色々なタスクがありますが、その中でもっとも難しいのが商用音楽分離タスクでした。これをクリアーできればビジネスにも応用できるだろうと言われていました。

 2015年のSiSECでは、AIを使った音源分離を提案したのは弊社だけでした。それもあり、商用音楽分離タスクではぶっちぎりで1位に選ばれました。

画像: 取材に協力いただいたおふたり。左がソニー株式会社 R&Dセンター Distinguished Engineer 光藤祐基さんで、右がコーポレートテクノロジー戦略部門 テクノロジーアライアンス部 コンテンツ開発課 ビジネス プロデューサー 池田裕司さん

取材に協力いただいたおふたり。左がソニー株式会社 R&Dセンター Distinguished Engineer 光藤祐基さんで、右がコーポレートテクノロジー戦略部門 テクノロジーアライアンス部 コンテンツ開発課 ビジネス プロデューサー 池田裕司さん

麻倉 初登場、圧倒的1位ということですか、それは快挙だ。AIを使うという発想は他社にはなかったのですね?

光藤 2015年時点では弊社だけでした。このコンペティションは1年半ごとに開催されるのですが、2016年にはわれわれが続いて1位をとることができました。でもその時は他社もAIを採用しており、差は小さくなっていました。

麻倉 他社もAIを使ってきたということですね。当然研究全体のレベルもぐっと上がった。

光藤 その通りです。でもわれわれは先にスタートしていますから、他社より常に先んじていなくてはという気持ちがありました。次のコンペティションは2018年でしたが、ここでも1位を獲得できました。

麻倉 それは素晴らしい。ちなみに、コンペティションでソニーが1位に選ばれたポイントはどこだったのでしょう?

光藤 そもそも当時は、AIを音源分離に使うといっても、笑われることの方が多かったのです。そういう状況もあり、他の企業や大学では研究自体を躊躇した所もあったんじゃないかと考えています。

麻倉 でも、ソニーはやってしまった(笑)。AIでないとこれはできないという確信があったのですか?

光藤 そうですね。AIが何かをもたらしてくれるという確信はありました。

麻倉 2015年の課題の音源はどういったものだったのでしょう?

光藤 プロのクリエイターがコンペティション用に作った音源を使いました。というのも、分離した後にそれが正解かどうかを定量的にみなくてはなりません。つまり、オリジナルのマルチトラック音源がなくてはいけないからです。

麻倉 マルチトラックがあって、そこから2chにミックスした音源が課題曲になるということですね。

光藤 そういった音源で、ロックやポップス、メタルなどの色々なジャンルの曲を使います。それらのすべてを分離して、総合的に評価して順位を決めるわけです。

麻倉 その時の音源分離自体は、どれくらいのレベルだったのでしょう?

光藤 音源として分離できてはいるけれど、商用にはほど遠いレベルでした。具体的には、位相や左右バランスがおかしくなるという現象があり、われわれとしては時間的な安定性がないと考えていました。

 そこで次のフェーズでは、時間的安定性を持たせるという仕組をAIに入れていきました。そこから安心して聴ける品質が確保できました。

※1月22日公開の後編に続く

ハリウッドの担当者が語る、UHDブルーレイ
『コロンビア・クラシックス・コレクション:VOL-1』の音作り

 2020年6月に米国で発売されたUHDブルーレイ『コロンビア・クラシックス・コレクション:VOL-1』(日本での発売は未定)には、『スミス都へ行く』(39)、『アラビアのロレンス』(62)、『博士の異常な愛情』(64)、『ガンジー』(82)、『プリティ・リーグ』(92)、『ザ・エージェント』(96)といった往年の名作が収められている。

 このうち4作品はドルビーアトモス音声が収録されているが、『アラビアのロレンス』と『ガンジー』の2作品はAI音源分離を使って制作されたという。そのドルビーアトモス音声はどのような点に配慮して作られたのか、同ボックスのブックレットに書かれていた担当者のコメントを以下で紹介しておく。

画像: UHDブルーレイ『コロンビア・クラシックス・コレクション:VOL-1』に同梱されたブックレットには、今回の音声分離AIを使った経緯も紹介されている。以下はその日本語訳です

UHDブルーレイ『コロンビア・クラシックス・コレクション:VOL-1』に同梱されたブックレットには、今回の音声分離AIを使った経緯も紹介されている。以下はその日本語訳です

Brian Vessa
Executive Director, Mastering Content Mastering & Delivery Group
Sony Pictures Entertainment

 「ドルビーアトモスのサウンドトラック制作過程にはいくつか難題がありました。もっともいい状態の音源が1988年公開の70mmフィルムとその復元作業でから得られた6トラックのステレオ・コンポジット・ミックスで、それに加えて音楽と効果音のトラックがあるだけでした。

 独立したセリフだけのトラックや、ミックスからセリフを取り除いた音源などはまったくありません。音源の制約が厳しく、当初この映画はドルビーアトモスリミックスの候補から外されていましたが、独創的なサウンド編集と最新のデジタルオーディオ処理技術を活用することで、この歴史ある名作にふさわしい没入感のあるサウンドトラックを作成することができました。

 このリミックス作業で効果的に使用された技術のひとつがソニーのAIによる音源分離技術で、音源データから複数の音の要素を分離した上で、それぞれの音を三次元の音空間の中で動きを持たせて再配置することができました。また、このリミックス版では、モーリス・ジャール作曲の素晴らしいオーケストラ音楽にも新たな命が吹き込まれています。」

This article is a sponsored article by
''.