NHK放送技術研究所では5月30〜6月2日に恒例の「NHK技研公開2024 技術で拓くメディアのシンカ」を開催した。本連載では毎回の技研公開の中から麻倉怜士さんが注目したテーマについて、より詳しいインタビューを実施している。前編では、麻倉さんが選んだテーマから「音楽の可視化」「自然光でのホログラフィー撮影」を紹介する。(編集部)

<テーマ1>音楽の可視化による新しいコンテンツ表現

 音楽好きの麻倉さんが注目したのが、「誰もが音楽をより楽しめるように」という提案。子供から高齢者、聴覚障害者といった幅広い方に音楽をもっと理解し、楽しんでもらいたいという研究で、例えば演奏の映像に、音の強弱や大きさ、テンポなどに応じたグラフィックが表示されるといった処理を行う。

麻倉 今年の技研公開で “おっ” と思ったのがこのテーマでした。音楽を楽しむ際には耳で聴くのが基本だと思いますが、実は耳以外での楽しみ方もあるんじゃないかと、ずっと思っていました。ひとつは響きというか、身体や触覚といった五感で音楽を感じるのも面白いと思うんです。

 今回の展示では画面に “音楽が写る” わけで、音の可視化ということになるのでしょうが、新しい音楽の伝え方ですね。まずは、どこからこういった発想が出てきたのかについておうかがいしましょう。

澤谷 今回の研究を担当しています、澤谷です。ご興味を持っていただきありがとうございます。まずはデモ映像をご覧ください。こちらはEテレのクラシック番組のような想定で、カメラや音声を含めて、実際の制作陣にお願いして作っています。ピアノの演奏に合わせて色々な形やデザインのビジュアルが出てきています。

麻倉 確かに、カラフルな丸いグラフィックがピアノから発生しています。

澤谷 一番わかりやすいのが、明るい曲調になるとグラフィックが上に行って、暗い曲調になると下に動いている点だと思います。あと、音階が変わると色が変わるとか、弾けるようなアタックや高揚感がある時には花火が上がるといったところも面白いのではないでしょうか。

麻倉 言われてみると、グラフィックが曲調に対応して細かく変化しているんですね。

澤谷 丸が割れたり花びらが出てきたりするんですけど、これは和音が不安定だと割れて、しかも割れ方が多いほど不安な感じを表しています。その後に安定した和声が来ると、花びらになるのです。

麻倉 丸が弾けるのは、スタッカートというようなニュアンスなんでしょうか?

澤谷 どちらかというと、アクセントに近い印象です。音楽が流れていくに従って、曲調や表情だったり、音楽の内容と印象が直感的に視覚で伝わるように工夫しています。

麻倉 基本的な質問になりますが、この研究は聴覚が不自由な方に音楽を楽しんでもらおうというのが目的なのでしょうか?

澤谷 まずエンタテインメント性の向上で、“見ても楽しい、聞いても楽しい”というところは、すべての人に向けて考えています。音が聞こえる人も、そうでない人にも、すべての方に音楽をもっと楽しんでもらいたいというところが第一です。

 もうひとつはアクセシビリティの向上で、直感的に楽しい、プラス音楽を理解するというところを、ご推察の通り聴覚障害者の方にも感じていただきたいという思いがあります。このふたつを同時に進めています。

 開発の動機としては、テレビ番組で字幕を表示している時に、セリフは文字として出ているんですけど、音楽になった瞬間に音符マーク1つがずっと表示されるだけで、どんな曲調なのかとか、どんな内容の曲なのかもわからないんです。音楽でストーリーを語っていたりするようなところもあるのに、字幕ではまったくわからない。これをどうにかできないかと考えました。

麻倉 なるほど、確かに映画作品でも音楽が重要な役割を果たすことはよくあります。

澤谷 そういったことを踏まえ、音楽の曲調だったり、内容や印象を直感的に伝えたいなと考えました。

麻倉 簡単な方法として、楽譜を見せるというやり方もありますよね。

澤谷 おっしゃる通りです。ただ、楽譜でどの曲かを示すことはできるんですが、どんな曲調かというのは、例えばピアノだったら、ピアノを演奏できる人にしかわからないですよね。これでは子供たちは楽しめません。音階について大きく音域を分けて、それぞれの音域をサイズや色で示したほうが、分かりやすかったのです。

麻倉 そういった試行錯誤も行われていたのですね。

澤谷 今回は、子供にもわかるテイストを意識して、絵本なども参考にデザインしましたが、コンテンツを届ける対象者に応じて、絵のテイストだったり、画風も変えていくような機能についても、現在開発を進めています。

麻倉 デモ映像ではモーツァルトの『トルコ行進曲』が使われていましたが、あれもわかりやすくてよかったですね。この曲は同音異調と同種異調が連続して入ってくるとても珍しい曲です。メロディ的にもほとんど同じですが、AマイナーからC→A→F#マイナーといった具合にすべての転調が入っているので、絵柄でも上と下の関係がとてもわかりやすかったです。

澤谷 この研究では、楽曲の音楽分析が不可欠なのですが、まずは古典派からから分析を始めようと考えました。

 現在は情感パラメーターと楽理パラメーターのふたつを使っていますが、それらの内容もだんだん増やしていこうと思っています。音楽を分析してパラメーターに値をつけていくことが絵作りの前に必要ですので、そのような音楽データを作ることが重要になっていきます。

麻倉 確かにまずは音楽のデータ化ができていないと、映像化は不可能でしょうね。楽理パラメーターの要素としては音階や音符、情感パラメーターとしては明るい/暗い、強い/穏やかといったものになると。

澤谷 音楽の曲調は楽曲が進むに従って変わっていきますが、そこについては、情感楽譜と呼んでいるものを作って可視化ソフトに入力します。そこでは各パラメータの値も、楽譜の進行や音符の構成によって人が受け取る感覚が変化するのと同じように変わっていきます。

麻倉 楽譜に書かれている音だけではなく、それを聞いた時に人間がどう感じるかを数値化しているということですね。面白いですね。

澤谷 そこについては、今回の研究の肝のひとつにしています。今まで技研ではなかなか踏み込めなかった部分で、コンテンツとかアートという側面を取り入れた形で進めているところです。

麻倉 音楽データの分析は、どんな形で進めていくのでしょう?

澤谷 まさに今、音楽を解析する方程式を作るための研究を重ねているところです。そこでは、私たちも含めて音楽を知っている人間と、音楽家や作曲家といった音楽の専門家が一緒になって、こういう音符の展開が来ると、こういう感覚がこれぐらい得られるよね、といったルール作りを進めています。

麻倉 有識者によるディスカッションで決めていこうということですね。

澤谷 専門家の意見も多く取り入れながら進めています。最初はある程度仮説的に方程式を作って、その後の修正は被験者実験を踏まえてという形になるかもしれません。まずはルールを作っていこうという段階です。

麻倉 例えば、先程の『トルコ行進曲』では、どんな情感になるのでしょう?

澤谷 この曲のように長調で、かつ拍の頭が5度以上上がって、さらに長3度以上の飛躍をしているような時にはどれくらいの値にしようとか、順次上がっていくときはこれくらいの値といった細かいルールを、まさに今作っています。

麻倉 それは面白い。最終的には楽譜をスキャンして、自動的に映像化するといったシステムが作れるのでしょうか?

澤谷 ソフトウェアに音楽を入力したら視覚化された映像が出てくるというのが理想ですが、現状では音源分離やメロディラインの抽出などをどうするかといった技術的な問題も残っています。そういったところも並行して検討しながら、音楽データからの可視化を進めたいと思っています。

麻倉 指揮者がカラヤンか、バーンスタインなのかで、同じ曲でも演奏の印象は違いますよね。そこまでカバーできたら、素晴らしい技術になると思います。

澤谷 私達の取り組む音楽の可視化システムでは、演奏者の特長と楽譜的な特長、音符の並びや構造から得られる感情の3つを大きな要素として音楽データを作成し入力に使っています。演奏者の微細な変化が絵に現れるようにするには、そこでの解析をどのように行うかが重要です。そこから得られる感情がちゃんと映像に出てくることが、この研究のポイントですので、そういったところを目指していきます。

麻倉 演奏から映像を導き出すというのは壮大なテーマですが、ディスプレイ上で演奏者の姿にCGを加えるというのが基本なんですね。

澤谷 ポスプロでこういった形で合成するのも、ひとつの方法だと考えています。ただ、コンテンツの種類によってグラフィックを重ねていい場合とそうじゃない場合があると思うんです。

 例えばドラマなどではBGMも重要な役割を果たしますが、そういった時のグラフィックの見せ方、構図は必ずしも音楽演奏と同じではないでしょう。その場合、映像の周辺部分を使うのか、あるいはサブスクリーン的に多重化して送るのがいいのかというところも、これから検討が必要です。

麻倉 番組や時間帯によって使い分けるという方法もありますね。

澤谷 全部の番組に同じ方法で可視化映像を出すというよりは、コンテンツの種類、時間帯や伝送の仕方応じて使い分けて、なるべく音楽を目で感じてもらえる形にしたいと思っています。

 個人的には音楽番組だけではなく、ドラマでも使って欲しいと思っています。音を出さないでドラマを見ている時に、今どういう曲調なの? と気になることがよくあるんです(笑)。

麻倉 音を出せない環境も案外ありますから、そこで音楽のニュアンスを感じられたら面白いですね。また、音と絵を同時に“見る”ことで、演奏者がどこに力を入れているかまで解明できるかもしれません。

澤谷 例えばお子さんが楽器を練習している時に、演奏した感覚が自分ではなかなかわからないけど、それを絵にしてあげることで、ここはもっと強く弾かなきゃいけないんだと視覚的に理解できる可能性もあります。音楽の表現の仕方が映像になっていると、教育とか楽曲分析などにも役立つんじゃないでしょうか。

麻倉 実用化のタイムスケジュール、いつ頃番組に採用されるかといった予定は決まっているのでしょうか?

澤谷 今年度中にポスプロ用の基本システムを作るので、テイストは限られてはいますが、音楽データが整えば映像化が可能になります。

麻倉 ということは、来年度には放送で採用される可能性もあると。

澤谷 なくはない、という状態です。局内の音楽番組のディレクターとも連携しつつあるので、来年あたりに実現できればいいなと思っています。一方で今お話ししたようなところまで到達するにはまだまだ課題もありますので、徐々に機能拡張しながら、数年を目標にやっていければいいかなと思っています。

 新しい表現方法も取り入れながら、外部のクリエイターの方と一緒になって、映像的にも挑戦をしながら実用化に向けて研究を進めていきたいですね。

麻倉 音楽鑑賞の方法として、ひじょうに画期的な提案だと思います。ぜひ番組にも採用して、新しい音の楽しみを提案してください。楽しみにしています。

▲取材に対応いただいた方々。麻倉さんの右が、日本放送協会 放送技術研究所 スマートプロダクション研究部 主任研究員の澤谷郁子さんで、左が同 副部長の宮崎 勝さん

<テーマ2>自然光でのホログラフィー撮影技術

 NHK技研では、数年前から3次元情報を取得できるインコヒーレントデジタルホログラフィー撮影技術の研究を進めており、以前本連載でも紹介したことがある( https://online.stereosound.co.jp/_ct/17565955 )。今回の技研公開では、自然光やLED照明でも高精細な3次元情報を持った映像を撮影できるようになったという。そこにはどんな進歩があったのか、改めてお話をうかがうことにした。

麻倉 インコヒーレントデジタルホログラフィー撮影については、一昨年の技研公開でもお話をうかがったことがありました。今回はさらに進化したということで、実用化に向けてどんな変化があったのか、まずはそこから教えて下さい。

信川 今回も興味を持っていただきありがとうございます。その時にご説明したシステムでは、反射型光学系を搭載していました。この方式では光のロスが大きいという点が課題でした。そのため、被写体にひじょうに明るい光を当てないとリアルタイムで撮影ができず、リアルタイムで撮影する様子はお見せすることはできませんでした。

 今回は光の利用効率を向上するために、透過型光学系を採用しました。大きく変わったのは、従来は半透過型ミラー使っていたところを、透過型液晶レンズという特殊なデバイスに置き換えています。

麻倉 これまでの反射型光学系では、光の利用率はどれくらいだったのでしょう?

信川 約4分の1です。半透過型ミラーはハーフミラーになっていて、光がここを通過するたびにエネルギー的には半分になります。前回のシステムでは被写体からの光がまず半透過型ミラーを1回通過し、さらに反射型液晶パネルで反射した光が90度曲がってカメラに入りますので、もともとからすると4分の1のパワーになってしまうのです。

麻倉 それはロスが多いですね。確かに何とかしなくてはいけません。

信川 そこで今回は透過型液晶レンズを採用しました。光を集める機能は普通のレンズと同じですが、違いとしては光が振動する方向、つまり偏光の方向に応じて集光の仕方が変化します。光が縦に振動する成分はそのまま通過させて、横方向に振動する成分については集光してくれます。

今回使用されている透過型液晶レンズのデバイス

麻倉 それは、研究開発用に特注した部品なのですか?

信川 いえ、今回のデバイスはホログラフィー用に作ってもらったものではなく、シチズン時計が開発したデバイスを応用しています。もともとは顕微鏡の収差補正や、光メモリーのデータを高精度に読み出すための補正用に使われていました。

麻倉 なるほど、高精度の補正に使えるだけの精度を持っているデバイスを採用したと。それにしても、光の利用効率が4倍になるというのは凄いですね。そこまで改善できたのなら、通常の明るさでもホログラフィー撮影ができますね。

信川 ホログラフィーといっても、特別な照明を用意せず、自然光で撮影できるのが理想です。まだ課題はたくさんありますが、実用化に一歩近づいたと思っています。

麻倉 前回は撮影したデータを後から処理することで立体像を再生していましたが、そこは同じなのでしょうか?

信川 撮影の仕方が変わり、後処理で像を再生する流れも少し変わりました。具体的には、偏光カメラというデバイスを導入したことにより、後処理の流れが変わっています。

 偏光カメラでは画素ごとに透過軸が45度ずつ回転した偏光子が搭載されていて、その偏光子を光が通過する時に、角度に応じて光の位相が変化します。これを通過した後の情報を撮影しているわけですが、結果としてその1枚の画像には、画素ごとに光の位相の異なる信号が記録されていることになります。

 その画像からそれぞれの角度に応じた信号を取り出すと、4枚の光の位相の異なる画像を読み出すことができます。光の位相の情報がわかると、奥行方向のどの位置で光が反射しているかという位置関係も導き出せます。こうすることで、3次元の情報が1回の撮影で得られるという仕組みです。

麻倉 以前はどういう仕組みだったんでしたっけ?

信川 2年前の光学系では、カメラの手前に位相格子と呼ばれるデバイスがありました。ここに光を入れると4方向に分割され、その4方向の光の位相をずらして、センサーの中で4つの干渉縞を、空間の中で領域を分けて形成させていました。今年の光学系では、同軸状に4枚の縞が記録されます。

麻倉 以前はずいぶん手間のかかることをしていたんですね。根本的な部分も改善されているという意味では、2年間の進歩は大きいですね。撮影時間も短くなったんでしょうか?

信川 はい、以前に比べると短い露光時間で3次元情報を撮影できるようになっています。現在は明るいLED照明、太陽光の6分の1ぐらいの照度で照らしていますが、こういった被写体であれば5FPS(1秒間に5フレーム)での撮影が可能です。

麻倉 5FPSまで撮影速度が改善されたと。でも、あくまでも目標は動画だから、少なくとも30FPSはクリアーしたいですよね。

信川 そうなんです。そのためにはさらに光の利用効率を上げる必要があります。ちなみに晴天の屋外ならこの部屋の6倍ぐらいの明るさがありますので、30FPSで撮影できるはずです。

麻倉 なるほど、現在はあくまで照度環境に左右されるんですね。ということは、もっと明るいデバイスが実現できたら、そこも改善できますね。

信川 おっしゃる通りです。今回の光学系で一番光のロスが大きいのが波長フィルターで、白色光に対して赤色光成分だけを取り出しています。その波長幅が10nmで、白色は400nmの帯域がありますから、40分の1しか使えてないことになります。今後は少しずつ波長を広げて、光のロスの少ないシステムに仕上げていこうと考えています。

インコヒーレントデジタルホログラフィー撮影装置の内部。横幅25cm✕高さ15cmというサイズに収まっている

麻倉 室内の明るさで30FPSの撮影ができるようになるのは、何年後くらいを想定しているのでしょう?

信川 なんとか3年以内に実現したいと思っています。

麻倉 ということは、5年以内に3次元情報を持った動画が撮影できるようになるかもしれませんね?

信川 そこを目指して、頑張っていきます。スタジオでの撮影ならもう少し早い時期に可能になるかもしれませんが、われわれとしてはスタジオでも屋外でも使えるカメラにしたいと思っています。

麻倉 このカメラで撮影した映像は、どうやって視聴するんでしょうか。

室井 ふたつのアプリケーションを考えています。ひとつは3Dディスプレイで見る方法です。技研の別のグループが3Dディスプレイの研究をしていますので、最終的には3D映像を特別なゴーグルをつけることなく楽しんでいただけるようにしたいと考えています。

麻倉 今年の技研公開で展示されていた3Dディスプレイは1インチくらいの画面サイズですが、これが20〜30インチになって、しかもカラーで見えるわけですね。もうひとつは、どんなアプリケーションでしょう。

室井 撮影した映像のフォーカス位置を変えるという使い方になります。撮影時に3次元情報が得られていれば、後処理でフォーカス位置を好きなポイントに調整できます。

麻倉 もともと奥行情報があるから、任意のフォーカスポイントの映像を取り出せるんですね。この方法は前回の取材でも見せていただきましたが、その時は後処理に時間がかかるという話でした。

室井 そこについては、30FPSで再構成処理ができるようになりました。今は撮影時の露光時間がボトルネックになって再構成処理の速さがあまり生きてこないのですが、露光時間を短くできれば、撮影しながらリアルタイムでフォーカス位置を変えることもできます。

麻倉 ドラマなどのピン送りが必要なくなるということですね。撮影時にも便利でしょう。

室井 例えば撮影した素材について、数秒前のフレームでは奥の被写体にフォーカスを合わせておき、次に数秒間のフレームではフォーカス位置を手前に変えておくといったこともできます。

 従来のカメラでは、フォーカス位置だけは後処理で変えられなかったのですが、この技術の精度がもっと高くなって、カラーで撮影できるようになれば、編集の段階でフォーカス位置まで全部変えられます。そうなれば、フォーカスがちょっと甘い素材であっても、後から局で補正できます。4K/8Kのカメラはフォーカス調整がひじょうに厳しいので、そういったところで威力が発揮できる、重要な技術になるのではないでしょうか。

麻倉 今回の開発で一番苦労した点はどこだったのでしょう。

室井 光学系の構築と、そもそもデバイスがホログラフィー用に作られたものではないので、周りのレンズや光学素子をどういう風に並べれば綺麗に映像が撮れるかといった点に苦労しました。

麻倉 あくまで汎用デバイスだから、色々工夫してあげないといけないんですね。

室井 本当はホログラフィー用のデバイスを作れるといいんですが……。

麻倉 カメラが実用化されれば、専用デバイスも作ってもらえるでしょう。ここまで開発も進んできたのですから、ぜひ早期の実現を期待します。

▲麻倉さんの右が日本放送協会 放送技術研究所 新機能デバイス研究部 副部長の室井哲彦さんで、左が同じく新機能デバイス研究部の信川輝吉さん。信川さんには2年前の取材でもお世話になりました

※後編に続く