TVS REGZAはCES2023にブースを出展、独自のレグザエンジンZRαの進化版による高画質&センシング技術の成果を公開した。前編ではこの新しい映像エンジンの使い方について担当者に直撃、続く後編では、AIによるディープニューラルネットワークの処理内容について更に深いお話しをうかがっている。対応いただいたのはTVS REGZA株式会社 取締役副社長 石橋泰博さん、R&Dセンター半導体開発ラボ 参事 木村忠良さん、テレビ映像マイスタ 住吉 肇さんの3名だ。(StereoSoundONLINE編集部)

画像: CES2023で発表された4K有機ELレグザ

CES2023で発表された4K有機ELレグザ

麻倉 新世代のレグザエンジンZRαでは複数のネットワークを使って解析しているとのことでしたが、具体的にはどんな処理を行っているのでしょう?

住吉 まず顔検出で、実写かアニメかを分けます。次にフィルムグレインがあるか、ないかを判定して、グレインがあるものについては映画コンテンツやセルアニメだという分類を行っています。

木村 もうひとつは構図推定で、フォーカスの当たっている人物がいるかどうかを検出します。つまり、今回のレグザエンジンZRαでは3つのネットワークで解析していることになります。

住吉 実際にはフレームレートなどの情報も合わせてより精度を上げるような工夫をしていますが、大まかにはそういった流れになります。

麻倉 機械学習を進める際に、最初は判別ミスとか、ちょっとおかしいなみたいなことはあったんですか?

住吉 かなり多いので、今でも学習させ続けています。

石橋 ディープニューラルネットワークはきわめて難しいというか、面白い技術で、なぜこう判断したのかというロジックが作った本人にも分からないんです。こうやって学習したらこんな結果が得られるはずだという流れを考えるんですが、ネットワークの中身は自動的に作られるので人間には理解できない。また、たくさん学習すれば精度も上がるだろうと考えがちですが、実は過学習になって精度が落ちてしまうこともあります。

麻倉 難しいんですね。

石橋 AIはデジタル技術だと思われていますが、学習って実はものすごくアナログ的なノウハウの固まりなんです。例えば映像データを学習させる場合もあらかじめ最適化しておかないと、ノイズを正しいデータだと思ってしまうこともあります。われわれはクレンジングと呼んでいますが、そこには膨大な時間がかかります。

木村 顔検出の学習では、顔はこの映像のこの領域にありますということを1枚1枚教えないといけないので、顔のエリアをマーキングしたデータを何万枚も作らなくてはなりません。こういった作業は、すごく苦労します。

画像: 同じく、CES2023で発表された4K液晶レグザ

同じく、CES2023で発表された4K液晶レグザ

麻倉 AIに “アニメの顔” といっても何のことかわからないから、具体的な映像データで、顔はここで、これは違うということをいちから教えてあげないといけないんですね。

住吉 それが機械学習という作業なんです。

石橋 きわめてアナログ的でノウハウが必要な、日本人に向いている作業じゃないかなと思っています。最終的に吐き出したネットワークはコピーできちゃうけど、そのネットワークを作るためのノウハウはコピーできないんです。簡単には真似できない、差別化という意味でもひじょうに大切な技術だと思います。

麻倉 まさか半導体の開発現場でそんな地道な作業をしていたとは思ってもいませんでした。ひとつのネットワークを作る際には、どれくらいのデータを学習させるんですか?

木村 数万単位で学習させないと、精度は上がってきません。ですので、映画、アニメに関わらず、常に色々なコンテンツを見て学習に向いた画像を探しています。

住吉 ある程度の識別ができるようになったら、デモをしてもらいます。それを見れば、こういうところで誤動作するんじゃないかというコンテンツがわかるので、次にそれ渡してテストをしてもらいます。そうやって精度を上げていくんです。

麻倉 なるほど、住吉さんなら難しいコンテンツをいっぱい知っているでしょうから、厳しい洗礼ですね。

住吉 アニソンのコンサートなどで、背景の電光掲示板にアニメの顔が映ったりしますよね。それを検出したら誤動作になるので、どうしたらいいかを考えるわけです。

石橋 そのために、AIにはヒットする絵と、ヒットしちゃいけない絵を両方学習させる必要があります。

住吉 フィルムグレイン検出でも、グレインなのかカメラのランダムノイズなのかの違いがわからないといけません。そのために、ノイジーな映像を集めて、それで学習してもらうようにしています。

画像: AIによるアニメの顔検出の様子。右の画面でキャラクターの顔に検出枠(白く表示しているエリア)があるが、実際の機械学習では開発者がこのエリアを指定して、AIに覚えさせている

AIによるアニメの顔検出の様子。右の画面でキャラクターの顔に検出枠(白く表示しているエリア)があるが、実際の機械学習では開発者がこのエリアを指定して、AIに覚えさせている

麻倉 そのスレッショルド、ここまではグレインと判別して欲しいという基準点は住吉さんが決めているのですか?

住吉 元々のノイズが少なければ、フィルム素材でもビデオ素材でも映像処理の内容は同じです。しかしノイズが目立ってきた時に、グレインだったらあまり抑えたくないけれど、ビデオコンテンツでは消したいので、そんな場合の検出ポイントは絵づくりエンジニアが決めています。

麻倉 フィルムとビデオの判別にグレインノイズを使っていますが、もうひとつ、ガンマでの判別も検討してもらいたいですね。

住吉 検討はしていますが、今の段階では誤動作した時に映像が見づらくなってしまいますので、まだやらないことにしています。

麻倉 ということは、2年後にはガンマも検出できそうですね。その時にはSDRやHDRの違いも検出できるんじゃないですか?

住吉 将来的にはHDRを含めて色々な検出ができるだろうと思っています。レグザエンジンZRαはこれが完成形ではなく、まだファーストステップということです。

麻倉 次のエンジンは4〜5年後ということですが、その頃にはAIの自動判別技術は更に頭がよくなっているでしょうね。

石橋 先ほどお話ししたネットワークの同時処理についても、数が増やせるようになれば判別精度は上がっていきます。そうなれば、もっと絵や音を追い込んでいくことができます。

麻倉 今回のレグザエンジンZRαでは、何個のネットワークまで同時処理できるんでしょうか?

石橋 ネットワークの規模にも依存しますので、単純にいくつというのは難しいですね。

住吉 既に3つは実現できていますが、もっと複雑な処理が求められるようになったら、AIを複数個使う必要があるかもしれません。

石橋 レグザエンジンZRαそのものが高価ですので、なかなか複数搭載するのは難しいかもしれませんが……。

画像1: 【麻倉怜士のCES2023レポート13】正確なAI検出のために、数万を超える映像データの機械学習を行いました。新世代レグザエンジンZRαは、人に寄り添うテレビの第一歩を踏み出した(後)

麻倉 レグザエンジンZRαを他社に提供する可能性はあるのでしょうか?

石橋 将来的には検討したいと思いますが、弊社のAIは日本国内に向けた仕様になっていますので、ネットワークの機械学習などは先方に任せることになるでしょう。

麻倉 最近はテレビの絵づくりも全世界共通にしましょうといった流れがありますが、これはおかしいと思うんです。日本向けモデルには日本的な絵づくりが、アメリカ向けにはアメリカ人が好む絵づくりがあるはずです。

 むしろレグザエンジンZRαのように汎用的に使えるチップがあって、ニューラルネットワークは地域に最適化していくのが正しい方向だと思います。

石橋 カスタマイズ、ローカライズして各地の好みの映像に合わせ込んでいくことが、ひとつの映像エンジンでできるという点が重要ではないでしょうか。

麻倉 同じコンテンツを見ても、レグザと他社では出てくる絵が違うというのが、テレビの本来的な差別化です。そのためにも映像エンジンは本当に重要ですね。

 さて、もうひとつのテーマとしてセンシングがありましたが、これも画期的な提案です。これまでRGBセンサーで照度環境を把握するといったことはありましたが、ミリ波レーダーで積極的に視聴距離を調べることはなかった。

石橋 弊社ではだいぶ前から、コンテンツやデバイスに最適化する、視聴環境に合わせるといった提案を続けてきました。住吉のような匠の技術者が持っている知見を、どうやって簡単にお客様に提供するかです。

 最近はミリ波レーダーの価格もこなれてきており、ハイエンド機種であれば搭載できるくらいのコストになりましたので、実装を決めました。

画像2: 【麻倉怜士のCES2023レポート13】正確なAI検出のために、数万を超える映像データの機械学習を行いました。新世代レグザエンジンZRαは、人に寄り添うテレビの第一歩を踏み出した(後)

麻倉 他社ではセンサーカメラを搭載している製品もありますが、ミリ波レーダーを選んだ理由は何だったのでしょう?

石橋 日本のリビングルームの場合、カメラ付きテレビが受け入れられるのかという疑問もありました。また、ユーザーにコスト的な負担をかけずに、われわれがやりたいことを実現する一番の近道としてはミリ波レーダーが良いというのが、今回の結論です。

麻倉 今回のレグザエンジンZRαでは、視聴者の距離を検出したら、それに応じて画質・音質・音場が変わっていくのが面白いですよね。まさに人に寄り添うテレビです。将来的には視聴者の好みに合わせた画質・音質を再現してくれることを期待します。

住吉 個人の好みに対してどうケアするかは、何年も前から考えてはいます。ただ、初期設定でユーザーに好みの絵を選んでもらうのがいいのか、カメラでユーザーの表情を見ながら自動的に調整する方がいいのかなど、検討すべき要素はまだ多くあります。

石橋 そういう意味ではカメラを搭載して、誰が見ているかや表情まで把握できた方がいいのかもしれません。

麻倉 笑っていたらこのコンテンツが好きだろうといった具合に判別できますね。このままAIが進化していけば、きっと可能になるでしょう。

石橋 また電子番組表などのメタデータを使って、好きなタレントが出ている番組をお知らせすると言ったことも検討していきたいですね。弊社ではタイムシフトマシンに関連した膨大なデータの蓄積があります。これらを活用したユーザーエクスペリエンスを提供できないかと考えているところです。

麻倉 昨今は放送だけでなく、動画配信からYouTubeまでコンテンツが膨大ですから、AIが画面の情報を読み取ってお薦め番組を提案してくれるといいですね。AIの活用方法としても、コンテンツサーチにおける個人最適化と、ピクチャークォリティにおける個人最適化という二本柱がありますよ。

石橋 弊社としても、お客様の好みに合わせていくというのは研究開発の大きな方針ですので、ぜひやっていきたいですね。

麻倉 そう考えると、今回のレグザエンジンZRαは、ユーザーエクスペリエンスをさらに高めるような仕掛けを実現していく一番近いところにいると感じました。

 最後にうかがいますが、CESブースで展示されていたモデルは日本国内ではいつ頃発売されるのでしょうか?

石橋 今回の展示はグローバルモデルで、日本での発売時期はまだ決まっていませんが、例年通りのスケジュールには間に合わせたいと思っています。

住吉 まだ絵も仕上がっていませんので、まさにこれからです。

麻倉 77インチと75インチというサイズもインパクトがありました。これは大型化を進めたいという狙いですか?

石橋 最近は日本でも65インチ以上のマーケットが大きくなっており、ユーザーの大型化志向が高まってきていると感じています。4Kテレビも現在は55インチが中心ゾーンですが、弊社としてはもっと大きなサイズにシフトしていきたいと思っています。

麻倉 基本的な画質が向上していますから、今後は大画面化も重要なテーマです。レグザエンジンZRαは、画質・音質・操作性だけでなく、大画面化にも貢献してくれるきわめて重要なアイテムになりそうですね。2023年のレグザの飛躍を期待しています。

This article is a sponsored article by
''.