NHK放送技術研究所では5月30〜6月2日に恒例の「NHK技研公開2024 技術で拓くメディアのシンカ」を開催した。本連載では毎回の技研公開の中から麻倉怜士さんが注目したテーマについて、より詳しいインタビューを実施している。後編では、「8K映像切り出し制作システム」がもたらす番組制作の新しいスタイルを紹介する。(編集部)

<テーマ3>8K映像切り出し制作システム

 1台の8Kカメラで撮影した広角映像から2Kカメラに相当する領域の映像を自動的に切り出すことで、あたかも複数台のカメラで撮影したかのような番組を制作しようという提案だ。これにより収録現場の少人数化、ひいては制作コストの削減なども実現できるという。

麻倉 8K映像切り出し制作システムは、今回の技研公開の中でも面白いと思ったテーマでした。さっそくですが、今回の技術概要について簡単に説明していただけますか?

薄井 ご注目いただきありがとうございます。8K切り出しシステム自体は、他社さんを含め数年前から提案されているものになります。われわれはそこについて、単純に映像を切り出すだけではなく、AIを使った機能を加えています。

 今回は、昨年度のNHK全国学校音楽コンクールの神奈川県コンクールの映像でデモをしてます。通常の番組では、マルチカメラで引きの絵や全体の風景を撮影し、その他に生徒の顔が見えるグループショットを狙って、それをスイッチャーが切り替えながら番組を制作しています。

麻倉 となると、それだけカメラマンやスタッフが必要ですよね。

薄井 おっしゃる通り、カメラを5〜6台持っていくとなると輸送する機材や、設営のための人員も増えますし、もちろん中継車も必要になります。しかし、今回の8K映像切り出し制作システムでは、据置き型8Kカメラの映像から切り出しますので、必要なカメラは1台のみです。そこから切り出す範囲を決めて、スイッチングすることで、マルチカメラを使ったような番組が制作できます。

麻倉 基本的には、その場でスイッチングして1本の番組に仕上げるという考え方ですね。8K映像としてそのまま保存して、後から切り出すという方法もありそうですが。

薄井 当然そういう利用方法も考えられますし、技術的には可能ですが、意外とリアルタイムに切り出して番組に仕上げてしまった方が効率的なのです。

麻倉 この考え方は昔からあったと思うんですが、今回新たに提案したというのは、どういった点が違ったのでしょう?

薄井 8Kから切り出して好きな画像を選べますとか、番組制作に使っていけますといった提案は、確かに以前からありました。しかしそこでは、8K映像から切り出す範囲をカメラマンが決めていたのです。でもカメラマンがいるなら撮影してもらったほうがいいですよね(笑)。

 これに対し今回の展示でポイントとなるのは、AIを使って切り出す画角を決めましょうというところで、それによってカメラマンの手間をかなり減らせるというのが、ひとつ大きな特長です。

麻倉 8K映像の中からどこを切り出すかについては、カメラマンではなくAIが考えると。でも、そのためにはAIに画角を学習させなくてはいけませんね。

1台の8Kカメラの映像を解析し、右のモニターのようにマルチ画面(2K)の映像を作り出してくれる。ここからスイッチングを行って番組として仕上げようという提案だ。将来的にはスイッチングもAIで行いたいとのこと

薄井 合唱コンクールなどでは、使うカットはある程度決まっています。ステージ全体の引きのショットと、生徒全体を3つくらいに分けたグループショットがあれば、番組を作ることができます。それを、AIを使って自動的に作ってしまいましょうというところが一番の進化点です。

 AIは、まず人の検出を行います。人物を検出すると、画面の中で生徒がだいたいこの辺りに居るということがわかりますので、そこから16:9画角で切り出すなら、どの範囲がいいかということが判別できます。

 また人の顔も検出して、生徒をグループに分ける場合でも顔が切れないようにしています。これにより、ある程度実用に耐えるような切り出しが可能になりました。

 こうして切り出し範囲を設定しておくことで、8K映像から複数のHD(2K)のカットを作り出すことができます。現在は8Kから8ラインのHD信号を切り出しています。

麻倉 信号の流れとしては、カメラからの8K信号が切り出し装置に入力され、それを解析して2Kのアングルやどこを切り出すかをAIが決めるのですね。そのAI処理は切り出し装置につないだパソコンで行う。

薄井 はい、そういった流れになります。切り出し装置に8K信号を入れると候補アングルが出てきますので、これをスイッチングすれば番組が出来上がります。最近はAIが進歩して使いやすくなっていますので、ここまで自動化できるようになりました。

麻倉 今回は合唱コンクールといった、動きが少なく、AIでの切り出しがやりやすい映像ですが、動きが激しいスポーツなどは難しいのでしょうか?

薄井 合唱よりは当然難しくなりますが、AIの機能を上げていけば不可能ではないでしょう。ポイントは顔や人物の検出をどれくらいの速度でできるかです。60FPSはちょっと難しいけど、30FPSくらいだったらリアルタイムで判別できますので、もうちょっと頑張ればというレベルまでは来ていると思います。

麻倉 もうひとつ、現在の映像はパンフォーカスでの撮影ですよね。でもオーケストラなどは楽器配置によってかなり奥行情報がでてきます。今後はAIでフォーカスまで調整するといったことも求められるのではないでしょうか。

薄井 技術的には、手元でフォーカスを調整するといったことは可能だと思います。実際には、例えばオーケストラなら上から見下ろしたアングルで撮って、なるべくカメラ側で奥行きまでフォローできるような配置を考えることになるでしょう。

麻倉 現在のシステムはワンカメですが、2台のカメラからの映像を切り出すといったこともできるんですか?

薄井 今のソフトウェアはそこまでは対応していませんが、2台のカメラの映像を切り出しシステムで処理するのも技術的には可能です。今回はシンプルなシステムですが、もうちょっと演出の幅を広げたいということになったら、おそらくそういう形になるでしょう。

麻倉 映像自体は16Kカメラから切り出した方が綺麗ですよね。画質的にも解像度が高いに越したことはないので、将来的にそういった展開はどうでしょうか。

薄井 16Kカメラがなかなか手に入るものではないという問題はありますが(笑)、解像度が16Kになればもっと映像表現の自由度は広がります。現状では8〜10人くらいのグループショットでちょうど2Kのドット・バイ・ドットが切り出せるくらいの解像度になります。もし、人物をもっとアップにしたいと思ったら、現状ではアップコンバート処理が必要ですが、16Kならそういった問題もなくなるでしょう。

麻倉 ソフトウェアでのカメラワーク制御技術も開発したそうですが、これはどういったものなのですか。

薄井 例えば引きの映像からセンターにズームインするといったカットについて、本来はカメラマンがズーム操作をするわけですが、このシステムでは切り出し位置をちょっとずつ変えることによって、あたかもズームインしているような映像も作ることができます。

 これに関してはカメラマンにもひじょうに好評で、こういったカメラワークができるんだったら、AIに任せられるといった感想をいただいています。カメラマンの経験則に基づいたパラメーターを盛り込んだ結果でしょう。

カメラのズーミングやパンニングでは、人間のカメラマンと自動処理では微妙な違い(違和感)があるそうだ。今回はNHKのカメラマンの協力を得て、自然な自動撮影を実現している

 ただし、通常のソフトウェア制御ではズームを決まった速度で行うため、出来上がった映像ではズームの始まりや停止が唐突で、見ていて違和感がありました。実際のカメラマンは、ズームの動き出しをゆっくりにするとか、止める時もわずかにスピードを落としてから止まるといった、見ている人が唐突に感じないような操作をしているんです。今回は、そういったカメラマンのテクニックをソフトウェアに盛り込んでいます。

麻倉 今回は2K番組制作とのことですが、同じシステムを使って4K番組を作ろうと思うと、制約が多くなるんですか。

薄井 切り出せるエリアのサイズが限定されてしまいます。8Kから2Kを切り出すというのが、解像度的にはいいバランスだと思います。

麻倉 このシステムを使えば、必要な機材も人材も抑えた番組制作が可能になるとのことでした。ただ、そうはいっても画角のバリエーションはもう少し欲しいので、8Kカメラ3台くらいで撮影して、そこからAIが切り出し、編集までやってくれるようなシステムができるといいですね(笑)。

薄井 演出の幅を広げようと思ったら、確かにカメラ1台では厳しいですし、ロケもバックアップを含めてカメラは少なくとも2台は持っていきます。せっかくならそれらを有効活用できるシステムとして考えたいですね。

麻倉 カメラは2台使うけど、カメラマンは2人いなくていい、というのもメリットになりますね。音楽番組のライブはそもそもたくさんあるわけですから、そういった撮影が定番になればいいと思います。

薄井 番組での実績としては、ゲストとアナウンサーが5人座ってトークをするという番組に採用されたことがあります。そういう内容なら全体を8Kで撮っておいて、ワンショットだけ切り出すこともできます。トーク番組やニュースなども結構使いやすいのではないかという話は出ています。

麻倉 確かに、スタジオのトーク番組などで、あまり派手な編集をしなければ充分実用化できそうですね。特に音楽番組は、こういったシステムを使うことで番組数自体が増えていくことも期待できますから、楽しみです。

▲インタビューに対応いただいた、日本放送協会 放送技術研究所 テレビ方式研究部 薄井武順さん