先日速報をお届けした通り、TVS REGZAはCES2023にブースを出展、独自のレグザエンジンZRαの進化版による高画質&センシング技術の成果を公開した。YouTubeや現地取材でそのパフォーマンスに触れた麻倉怜士さんから新世代レグザエンジンZRαについてより詳しいお話をうかがいたいというリクエストがあり、StereoSoundONLINEでは開発担当者にインタビューをお願いすることにした。対応いただいたのはTVS REGZA株式会社 取締役副社長 石橋泰博さん、R&Dセンター半導体開発ラボ 参事 木村忠良さん、テレビ映像マイスタ 住吉 肇さんの3名。以下でその詳細を報告する。(StereoSoundONLINE編集部)

麻倉 TVS REGZAはCES2023のブースで、レグザエンジンZRαの進化版による様々な新機能を紹介していました。私もデモを拝見しましたが、CESの会場に合致した、とても興味深いプレゼンテーションでした。今日はレグザエンジンZRαの開発について、もっと深いお話をうかがえればと思っています。

石橋 CES2023の展示では、ふたつのテーマを設けました。ひとつはレグザエンジンZRαの進化です。ハードウェア的には昨年と同じですが、独立したディープニューラルネットワークエンジンを積んでいますので、1年かけて新たに機械学習を進めることで、もっと頭がよくなりました。

麻倉 頭がよくなったというのは、具体的にはどういう点でしょう?

石橋 機械学習を進めることによって構図推定などもできるようになりましたので、CESではその進化をお見せしています。またもうひとつのテーマとして、弊社の特長的な機能でもある「おまかせ」モードを、どうやってより快適にお客様に使っていただくかを提案しました。

麻倉 それがセンシングによる新機能ということですね。

石橋 そのために、テレビにミリ波レーダーを搭載しましました。これを使って、視聴者の場所を把握し、絵や音をそこに合わせてアジャストをしていくという機能を実現します。音場再現を改善したいという思いが以前からありましたので、見ている人の位置が分かるということがひじょうに重要だったのです。

麻倉 映像エンジンというと、これまでは入力された情報を分析して、それにどういう反応をするかが中心でした。言ってみると、画面の向こう側で役割が終わっていた。しかし、今回のミリ波レーダーは画面のこちら側まで機能を拡張しています。ユーザー側にテレビが入ってきて、最適化を図ろうというのが画期的ですね。

 これはテレビという製品にはとても重要です。例えば視聴環境に合った映像を再現するといったことは、今までもある程度は実現できていた。今後はさらに進めて、ユーザーの好みの画質・音質を提供するといったアプローチが求められると思います。レグザエンジンZRαはその第一歩を踏み出したということで、素晴らしい提案です。

石橋 ありがとうございます。

麻倉 さてそのレグザエンジンZRαですが、昨年の段階でもAIを使って奥行感を再現しますといったことはおっしゃっていました。新世代では、AIのディープニューラルネットワークがより賢くなったという理解でいいんですね?

石橋 今回は、ディープニューラルネットワークのネットワークそのものを何種類か用意しています。

木村 昨年のAIでは、背景のぼやけた部分を検出して奥行を再現することに注力していました。今回は手前にいる人物をしっかり描きたいということで、構図検出までできるようなネットワークの学習を改めて行いました。

麻倉 そのためには検出の内容を教える必要がありますが、実際にはどんなAI開発を行っているのでしょう?

石橋 開発にあたっては、AIで検出したいテーマを決めて、それに向けて必要と思われる機械学習を進めていきます。

 ディープニューラルネットワークのエンジンそのものは処理を受け持つだけなので、機械学習は全部オフラインで行い、後からチップにインストールします。フィルムグレインを検出するネットワークと、構図推定をするネットワークは別々のプログラムですので、AIの機械学習も別々に行う必要がありました。

 もともとレグザエンジンZRαではディープニューラルネットワークがハードウェア的に独立しているので、処理速度にも余裕があり、複数のネットワークを同時に処理できています。

住吉 正確には、1フレームごとに検出処理を行っています。例えばこのフレームでは顔を検出します、次は構図推定用の検出を行いますと言った具合に、時分割で処理をしていくイメージです。ですので、色々な処理をやろうとすると検出にかかるフレーム数は多くなってしまうんです。

麻倉 なるほど、1フレームでひとつのネットワークの処理をするので、複数の機能を使う場合はいくつかのフレームに分けて検出をするわけですね。

石橋 ソフトウェアでは、このように複数のネットワークを処理することは難しいので、レグザエンジンZRαはハードウェアでAI機能を持っているということがきわめて重要なポイントだと思っています。

麻倉 レグザエンジンZRαは、最初からハードウェアでAI処理を持とうと決めたことが偉かったんですね。

石橋 テレビですので、リアルタイムで処理しなくてはいけないという点がポイントでした。ディープニューラルネットワークは行列演算の固まりで、難しい演算というよりも単純な演算を膨大に処理することになります。

 これをソフトウェアでやろうとすると、フレキシビリティはあるんだけれど、処理時間は長くなってしまいます。なので、小さくてもいいから高速処理が可能なハードウェアを持とうと決めたという点に先見性があったと考えています。

麻倉 AIで狙ったものを正確に検出するのは、演算的にもたいへんなんですね。

石橋 例えば今回はアニメキャラクターの顔を検出していますが、そのためには膨大な数の“アニメの顔”を学習させなくてはなりません。それがひとつのネットワークという形になって、そのアルゴリズムをレグザエンジンZRαに実装することで、AIで検出できるようになるというわけです。

木村 機械学習の際には、4Kのような大きな画像ではなく、もう少し小さな画像を使って学習させています。また実際のレグザエンジンZRα内部の処理でも、縮小した画像で解析しています。入力信号をリアルタイムで縮小して、それを解析するという流れです。

住吉 例えばAIコンテンツ判別では、フィルムグレインのあり/なしの判定を行い、次はアニメかどうかの判定といった形で検出を進めます。このふたつの解析で、フィルム素材かビデオ素材か、さらにアニメならCG制作かセルアニメかといった具合に4つのジャンルに分けることができます。

麻倉 そこまで検出したら、このコンテンツをもっと綺麗に再現するにはどうしたらいいかという処理に入るわけですね。

住吉 画質処理はディープニューラルネットワークとは別の回路で行います。素材の判定はAIが受け持ち、ジャンルが分かったら、そこから映像をどういう風に最適化していくかは、弊社がこれまで蓄積した絵づくりのノウハウを活用していきます。

麻倉 レグザエンジンZRαは、前モデルから入力信号の解析はしていたわけですが、AIが賢くなったことで、出てくる絵もさらに綺麗になっているんでしょうか?

石橋 効果が大きいのはネットコンテンツです。放送コンテンツならジャンル情報などがあらかじめ分かりますから、これまでもある程度の最適化はできていました。しかしネットの配信番組ではそういった情報がわかりませんので、絵を見て判断をするしかない。そこをAIに任せることで、映像の最適化が可能になりました。

住吉 ネットコンテンツは配信会社によってテレビ側が把握できる情報がまったく異なりますので、全部同じように扱うにはAIによるコンテンツ判別が必要になります。

石橋 今後はネットコンテンツを見る時間がさらに増えていくと思いますので、そこで放送コンテンツと同じような高画質化処理を行おうとすると、画像解析は避けられません。そもそも映像エンジンにディープニューラルネットワークを入れられるようになったのも数年前の話ですから、テレビメーカーとしては、今後はここがテーマになるでしょう。

麻倉 レグザエンジンZRαは汎用のチップを使ったのではなく、ゼロから開発したと聞いています。

石橋 いちからパターンを設計し、レイアウトもすべて弊社で作っていますので、本当にフルカスタムです。

麻倉 チップとしては5〜6年は使う予定ですか?

石橋 そうですね、5年はちょっと長いかなって気がしますけど、少なくとも3〜4年は使いたいと考えています。

 画質のための色々な機能はSoC側にも搭載していますので、今後はそこのコンビネーションも変わってくるでしょう。レグザエンジンZRαの処理がすごく重くなったら、いくつかの処理はSoC側に受け持たせるといった可能性もあります。

 レグザエンジンZRαは入力信号の判別にAIを使っていますが、ノイズ処理などの画質処理関係は、AIからの情報に基づいて別のソフトウェアやハードウェアエンジンが受け持っています。そこを外部に出すことは可能なわけです。

取材に対応いただいた方々。写真右からTVS REGZA株式会社 取締役副社長 石橋泰博さん、麻倉怜士さん、テレビ映像マイスタ 住吉 肇さん、R&Dセンター半導体開発ラボ 参事 木村忠良さん

麻倉 今回のレグザエンジンZRαは、AIの判別機能の拡張が最大の進化点ですが、今後はAIの使い方がもっと広がっていくんじゃないでしょうか。

石橋 ディープニューラルネットワークは、基本的には入ってきた信号をAか、Bかといった具合に判別するものなので、今後もまずは判別用に使うことになると思います。

 また今回は映像解析ですが、音に使ったらどうなるだろうといった具合に、色々な分野に拡張していくことはあるかもしれません。それがAIエンジンを持っている価値だと思いますので、引き続き追究していきたいと考えています。

住吉 AIコンテンツ判別機能ができる前は、コンテンツが24pかどうかでフィムルかビデオかの判定をしていました。しかし最近は音楽ビデオなどの24pコンテンツも増えており、そういった作品は例外扱いになっていました。またアニメ素材かどうかもわからなかったので、今回はそこも判別できるようにしています。

麻倉 来年はもっと細かくコンテンツを分析していくことができそうですね。

住吉 もっと細かいジャンルまで解析できるようになれば、それに応じた最適化も可能です。既にクラウド機能では番組ごとの最適化も行っており、プルダウンのケーデンスのパターンや画質の傾向も色々あるということがわかってきています。

 そこでの知見を活かすには、AIで解析する場合もこういったジャンル分けをしないと最適化できないということがわかってきました。さらに、それをカバーするにはどういうことを検知したらいいかをアルゴリズムに反映できますので、画質の底上げにつながっていくと思います。

※後編に続く