MIPCOMオンラインで発表されたソニーの「AIによる音源分離」はオーディオビジュアル界に新しい可能性を提示している。前編ではその技術がどのようにして作られたのか、どんな仕組で音を認識しているのかを紹介した。後編では具体的な応用例や、今後の方向性について聞いている。インタビュー取材に応じてくれたのは、ソニー株式会社R&DセンターDistinguished Engineerの光藤祐基さんと、コンテンツ開発課ビジネスプロデューサー池田裕司さんのおふたりだ。(編集部)
※インタビューは2020年12月に実施しました

麻倉 前回はAIによる音源分離の技術概要について教えていただきました。それにしても、AIがいくら頭がよくても、ふたつだけの手がかりでよく音を分離できるなぁと不思議に思います。

光藤 学習データとしては、人間が一生聴き続けられるくらいの量を使っています。それくらいの量の音楽であっても、AIなら数週間かければ一気に学習することができます。人間と決定的に違う点は、人は実時間をかけて音楽を聴かなくてはなりませんが、AIはデジタルデータとして一気に学習できることです。

麻倉 なるほど、それは大きな違いです。そのAIが商用に使えるようになったのはいつ頃からなのでしょう?

光藤 最初に採用したのは弊社のaiboでした。aiboは音声認識機能が入っていて、人の声でコマンドを判別します。しかしaibo自身も動くので、自分のモーター音や動作音をマイクで拾ってしまうのです。これらのノイズを音源分離で切り分けて、人の声だけを抽出できるようにしました。

麻倉 それができるのであれば、駅のアナウンスなど色々な所に応用できますね。

光藤 混ざっている音を切り分けるというのは、日々の生活の中でも色々なシーンで求められるでしょう、最近であれば、リモート会議用のマイクに内蔵して、必要な声だけを抽出するといった使い方ができないかという発想もあります。

 その他にも、風切り音をリアルタイムに低減する機能が、弊社のスマートフォンXPERIA1 II(エクスペリアワン マークツー)以降のモデルに搭載されています。

 あの商品の売りは、屋外で動画を撮ってコンテンツを作りましょうという点ですが、屋外撮影では風切り音をどうするかも重要です。とはいえ大げさなマイクを付けてはスマホで撮る意味がない。そこでデジタルでウィンドフィルターを実現できないかということで考えました。

麻倉 それは風切り音とはどんなものなのかを学習して、撮影時にその音を分離するという機能なのですね。

光藤 おっしゃる通りです。入力としては風切り音と人の声、環境音などが入ってくるわけですが、出力にはそこから風切り音だけを取り除いた音が出てきます。

麻倉 先ほどのaiboなりXPERIAに搭載する際には、モーター音や風切り音といったターゲットの特性をAIに学習させているわけですね?

光藤 はい。各商品がターゲットにしている音について学習し、AIにその特長を覚えさせています。

画像: 2021年限定カラーモデルの「aibo 黒ごま エディション」は2月1日に発売される。飼い主の言葉をしっかり聞き分けられるように音源分離機能が使われていたとは驚きだ

2021年限定カラーモデルの「aibo 黒ごま エディション」は2月1日に発売される。飼い主の言葉をしっかり聞き分けられるように音源分離機能が使われていたとは驚きだ

麻倉 この技術が製品に搭載されるまでに、どんな苦労があったのでしょうか?

光藤 とんとん拍子に採用が進んだわけではありませんでした。なんと言ってもコンテンツ制作に関わる技術ですから、ソニーとしても品質に関しての要求レベルはかなり高く、そこを超えるのは苦労しました。

麻倉 既に採用実績があるということは、社内・社外の両方でこの技術のクォリティが認められたというわけですね。

光藤 商用に耐えうるという意味では、そうだと思っています。

麻倉 ところで音楽の場合、ミックスされた音源からいくつに分離するのでしょう?

光藤 それはお客さんの要望次第です。実際には、ばらばらにしてくださいというよりは、ここのパーツが欲しいといった要望が多いですね。例えば誰それのスピーチから、背景の音楽だけを消して欲しいといったものです。

麻倉 ニーズに応じてAIのパラメーターを変えて希望の音だけを取り出すという処理になるわけですね。そのカスタマイズは依頼ごとに行うのですか?

光藤 ケース・バイ・ケースですが、クォリティを上げるためにはカスタマイズした方がいいでしょう。

麻倉 技術的には、ライブ音源からヴォーカルやキーボード、ギターといった具合にそれぞれの音だけを取り出すこともできるわけですね。

光藤 得手不得手はありますが、ヴォーカルなどは案外うまくいっています。これを応用して、音楽ストリーミングサービスのLINE MUSICでは、ユーザーの手元でカラオケが楽しめる機能を実装しています。通常の楽曲からヴォーカルだけ抽出して、レベルを下げるというものです。

麻倉 LINE MUSICの機能ということですが、スマホアプリ内で処理しているのですか?

光藤 はい。システムをコンパクトにして、スマホアプリに実装しています。このアプリは既に日本と台湾と韓国で配信されています。

麻倉 3ヵ国で使えるということは、このAIは言語によって作り分ける必要はなかったのですか?

光藤 そこが普遍性の面白い所で、言葉が違っても歌ということが分かればAIで同じように処理できるのです。

画像: 映画のような多くの音要素が含まれた素材からも、細かい要素に分けて取り出すことができるという。今回のアメリカ版HUDブルーレイ『アラビアのロレンス』や『ガンジー』でもその恩恵は顕著に現れている

映画のような多くの音要素が含まれた素材からも、細かい要素に分けて取り出すことができるという。今回のアメリカ版HUDブルーレイ『アラビアのロレンス』や『ガンジー』でもその恩恵は顕著に現れている

麻倉 なるほど。映画の場合は、DMS(台詞、音楽、効果音)など様々な音が含まれていますが、『アラビアのロレンス』ではどこまで音源を分離したのでしょう?

光藤 映画の場合は、「ダイアローグエクストラクション」と「フォーリーセパレーション」のふたつを使いました。名前の通りダイアローグ(台詞)を抽出するものと、フォーリーサウンド(効果音)を選んで取り出す機能になります。今回はこれらで抽出した音を配置し直すといったことをやっています。

麻倉 フォーリーにも色々な種類がありますが、それらも細かく抽出できるのでしょうか?

光藤 それも可能です。分離した方が臨場感が出るものと、ある程度ミックスされていた方がいい場合がありますので、スタジオ側の判断でどこまで細かく分離するかを決めていただきます。

麻倉 例えば砂漠を駱駝で爆走するシーンなどでは細かい音はマスキングされてしまいますが、そんな音源から人の声だけを選び出すこともできるのでしょうか?

光藤 程度次第ではありますが、人間が聴いて声だと識別できるくらいの情報があれば、AIでも分離は可能です。逆に人が聴き取れないくらい周囲の音に埋もれている場合は難しいでしょう。

麻倉 それは凄いです。特に分離が難しい音源はありますか?

光藤 学習の段階で想定していないレアな音源は難しいですね。珍しい楽器の音などは、分類自体は可能ですが正確さが落ちてしまいます。

麻倉 MP3などでロッシー圧縮すると情報が失われてしまいます。そういった音源の場合は、分離は難しいのでしょうか?

光藤 失われてしまった要素に関してはどうしようもありませんが、人間が聞いて分かるだけの情報が残っていれば分離は可能だと思います。

麻倉 UHDブルーレイの『アラビアのロレンス』や『ガンジー』についてうかがいます。これらの音源分離作業はいつ頃スタートしたのですか?

光藤 作業自体は2019年にスタートしました。その前年にこの技術をソニー・ピクチャーズにプレゼンテーションしたのがきっかけです。

画像: 『アラビアのロレンス』を例に、音源分離AIの効果を解説してくれた光藤さん

『アラビアのロレンス』を例に、音源分離AIの効果を解説してくれた光藤さん

麻倉 私も先日『アラビアのロレンス』をドルビーアトモスで視聴しましたが、新しい作品体験だと感じました(詳しいインプレッションは巻末のコラムを参照)。

 この技術は映画や音楽以外にも応用範囲がとても広いと思います。今後のテーマとして、技術的にはどういった進化が期待されるのか、またどういった方向に広がっていくのかについて教えて下さい。

光藤 われわれが目指しているのは、コンテンツのマスターとしてダウンミックスされたものだけ保存してあれば困らない世界です。現在はマルチトラック音源を保存していることも多いのですが、それだと量も多いし、管理もたいへんです。それに対し、完成したひとつの音源さえあれば、いつでもマルチトラックに戻せますよというのが、われわれの究極のゴールです。

麻倉 確かに2chならWAVで残しておけるけれど、マルチトラックだと保存が難しいという問題もあるでしょう。その意味ではチャンネル数とクォリティは相反する関係にあったわけです。しかしAI音源分離を使えば、2ch音源があればあらゆるフォーマットに展開できるわけで、クリエイターも嬉しいはずです。

光藤 応用例の最たるものとしては、先ほど申し上げた、背景に流れる音楽を分離するなどの使い方になるでしょう。また映画やドラマの吹き替え素材をこの技術で分離することで、セリフの差し替えも簡単にできます。

 われわれのチームとしては、文化遺産とも呼べるような名作を復元したいということを一番に目指しています。過去の作品で、当時はこんな技術はなかったけれど、今ならこんな風にできますよということを提案し、それを多くの人に楽しんでいただきたいのです。

 例えば現在のアーティストが、既に亡くなってしまった方とコラボできるかもしれない。音源分離AIを使うことで、生まれる時代が違っていたふたりが共演できるわけで、これによってコンテンツの可能性が広がっていくのではないかと思っています。

麻倉 これまでのアーカイブは保存してあることがメインで、それを新しく活用するというところまではいきませんでした。しかしAI音源分離を使えば、新しいものを創っていくこともできますね。

光藤 われわれは技術を作ることはできますので、それどう使うかはアーティストの皆さんに膨らませていっていただきたいと思っています。そのためにも、多くの方にこの技術について知っていただきたいのです。

画像1: ソニーの「AIによる音源分離」は、過去の名作に新しい魅力を与える。世界初の画期的技術はどうやって実現できたのか(後):麻倉怜士のいいもの研究所 レポート43

麻倉 44.1kHzのデジタル音源をハイレゾに変換する技術もありますが、せっかくならこの技術でパートごとに分けて、それぞれを復元してから再度ミックスダウンすると、より高音質なレストアができる気もします。

光藤 今のレストアは、混ざってしまった音源を一括処理していますが、細かい音源に分けた方がそれぞれに最適な処理ができますので、高音質になる可能性は高いと思います。

 また倍音が混ざった状態で高域を伸ばすと、調和性がとれていないので好ましくない結果になることもあります。そうではなく、音源ごとに処理して調和性がとれた状態にしておけば、もっといい音になるでしょう。

麻倉 新しい形のハイレゾレストア技術も実現できそうですね。AI音源分離の可能性は本当に素晴らしい。音楽業界の救世主としての展開を期待します。しかしAI君は頭がいいですね。

光藤 そうですね。基本は数学なのですが……。

麻倉 それに音楽というアナログなものを理解させたのが凄い。

光藤 どんどん賢くなっていますので、数年後にどうなっているか想像もつきません。

麻倉 未来への可能性を感じさせてくれる、本当にソニーらしい展開です。今日はありがとうございました。

「AIによる音源分離」は過去の名作をより深く味わわせてくれる。
人類の共通財産である名画の再発見のために活用すべきである …… 麻倉怜士

 今日はStereoSound ONLINE視聴室の120インチ&7.1.4環境で、アメリカ盤UHDブルーレイボックス『コロンビア・クラシックス・コレクション:VOL-1』から、『アラビアのロレンス』の3つの場面を見ました。

 まず冒頭、ロレンスが事故に遭うシーンから葬儀までです。ここではDTS-HD MA5.1chとドルビーアトモスを比較しましたが、音場の位置が違いました。5.1chスピーカーがフロアー設置ということもあり、DTS-HD MAは平面方向に音が展開します。これに対しドルビーアトモスでは明らかに音場位置が引き上げられます。

 このシーンではモーリス・ジャール作曲による序曲がかかりますが、これはエイドリアン・ボールト指揮のロンドン・フィルハーモニー・オーケストラの演奏です。そのオーケストラサウンドが5.1chではつつましやかに展開しているのに対し、ドルビーアトモスでは、音場だけではなく音質的にもふくよかで、艶をもった印象になります。これからどんな映画が始まるのか、わくわくさせてくれる導入部になっているのです。

 2番目は画質評価でもよく使っていた、チャプター9のネフド砂漠への出発シーンです。『アラビアのロレンス』は先日NHK BS4Kでも放送され、こちらもなかなか綺麗でしたが、やはりUHDブルーレイは解像感、コントラスト感とも高く、ダイナミックレンジも広いですね。フィルムグレインが多いのもこの作品の特徴ですが、それを残しつつ、ディテイルまでしっかり再現されています。

画像2: ソニーの「AIによる音源分離」は、過去の名作に新しい魅力を与える。世界初の画期的技術はどうやって実現できたのか(後):麻倉怜士のいいもの研究所 レポート43

 この場面でも、ドルビーアトモスではセリフが役者の口元にしっかり定位するし、それぞれの位置関係もよくわかります。オーケストラ音楽の広がりや濃密さも備えており、オリジナルのモノーラル音声をただ分離したのではなく、DMSそれぞれの要素をしっかり引き出して再配置していることが分かりました。

 最後のチャプター14、アカバの戦いはドルビーアトモスの効果が最大限に発揮されています。5.1chでは、平面空間の中に情報を押し込めなくてはならないので、駱駝の蹄の音や歓声、低音のパワー感が、どうしてもお団子になっています。オーケストラの広がりも平面的です。

 しかしドルビーアトモスでは音が解き放たれて、音の明瞭度や高さ方向の再現性が格段に上がっている。駱駝の突進でも低音の解像感が高く、一頭一頭の足音まで聞き取れるようでした。マルチチャンネルを構成している要素が細かい部分まで分かってきます。

 もちろんロンドン・フィルの演奏のエモーションも格段に上がっています。このシーンは最初は効果音が中心ですが、次第に音楽が支配的になります。音楽の広がりや奥行感が心地よく、この曲がここで鳴ることでストーリー展開も盛り上がる、映画としての面白さも明確になりました。

 本作は65mm大作で、音響もこだわって作っていたはずです。当時の音響監督が目指した世界が、今回ドルビーアトモスになったことで再構築されたのではないでしょうか。映像も4Kになって情報量が増えているし、音をドルビーアトモスで再配置することで物語の深み、興奮感がよりでてきたと感じました。

 もちろん、オリジナルを好むファンもいるでしょう。しかし今回視聴して、ドルビーアトモスで聴く方が物語の世界に入っていけるのは間違いないので、これを楽しまない手はありません。

 AI音源分離は往年の名作をより深く味わえるように甦らせてくれるという意味で、たいへん有用です。今後はソニー・ピクチャーズの作品に限らず、人類の共通財産ともいえる映像作品の再発見に活躍してくれることを希望します。

This article is a sponsored article by
''.