今年もアメリカ、ラスベガスで世界最大クラスのテクノロジー見本市「CES 2025」が開催された。Stereo Sound ONLINEでも、例年同様に麻倉怜士さんによるリポートをお届けする。麻倉さんは現場を駆け回って、面白そうなニュース、ストーリーを鋭意取材してくれたので、ご期待いただきたい。
その第一弾として、TVS REGZAの技術展示についての直撃インタビューをお届け。テレビをより使いやすく、より高画質に進化させてくれるAIの使い方とはどんなものなのか? 現地ブースにて、TVS REGZA株式会社 取締役副社長の石橋泰博さんと、海外事業本部グローバルマーケティング&ブランドマネージャの西岡竜大さんにお話をうかがっている。
麻倉 今日はCES2025のTVS REGZAブースにお邪魔しました。同社では以前から、独自の映像エンジン「レグザエンジンZRα」を活用したAI機能を搭載していました。今年はそれをさらに進化させ、生成AIを使った機能を開発したとのことです。生成AIについては結構私も研究していますが、そのアプリケーションはだいたい画像やテキスト作成がメインで、テレビに入るというのは新しい提案につながりますね。
実際に今回のCESでも、数社からAIを使った提案が発表されていますが、機能の差別化といったものがほとんどでした。しかしレグザの場合、テレビと視聴者の関係を変える、大きな可能性を感じていますので、今日は徹底インタビューをお願いしたいと思っています。まずは今回のCESでの発表内容について、改めてご紹介いただけますか?
西岡 弊社ブースにおいでいただきありがとうございます。今回はいくつかの新技術を展示していますが、あくまで参考展示で、テレビのセットとしては現行のZ970シリーズをベースとしたコンセプトモデルです。
麻倉 コンセプトモデルと言っても、いつかはこの技術を搭載した製品も発売されるわけですよね。
西岡 弊社では、昨年からCESで技術展示を行っていますが、ここでは開発中の技術を展示して、コンセプトを理解していただきたいと考えています。今年は、“テレビと生成AIの組み合わせ”というところの驚きと、“これからどうやっていくのか”ということをご覧いただきます。
石橋 麻倉さんのような専門家の方に、こういった場で新技術をご覧いただいてフィードバックをもらい、そのご意見を実際の製品に活かしていこうという狙いです。
麻倉 では、今回の展示の中で生成AIに関連している技術について順番に教えて下さい。
西岡 第一が「生成AIボイスナビゲーター」です。レグザは今までの製品でも、「AIコンテンツ判別」「クラウドAI高画質テクノロジー」といったAIを画作りに使った機能を搭載していました。今回は、新たな方向性としてレグザインテリジェンスと呼んでいます。
二番目は、「AI オーディオリミックス」になります。入力された音源を声や環境音に分離して声のレベルだけを上げ下げするもので、AIで正確に切り出してリミックスも極力自然にしましょうという技術です。
石橋 しかも、それをリアルタイムで処理しています。
麻倉 音源分離技術は以前からありましたが、あくまでもプロが使うものでした。それが家庭の、しかもテレビに入って来たのが凄いですね。また従来音源分離をするには、データをクラウドに上げて処理するものでしたから、技術的な進化も素晴らしい。
西岡 クラウドを使うのは、テレビとしてはどうなの? という思いもありました。あくまでもテレビですから、どんなコンテンツでも音源分離できる必要もありましたし、AIで正確に音源を切り出すだけではなく、それをどのように再生するかも重要です。
例えば、再生用にリミックスする際に声以外の音を全部消すこともできるんですが、それだとやっぱり不自然になります。周りの情報やノイズをどれくらい残すかが結構ポイントで、今回の展示でも弊社の技術者が色々チューニングをして、いい感じになるように若干幅を持たせて調整するといったところまで追い込んでいます。
麻倉 体験としての自然さ、違和感のなさは大事ですよね。
西岡 そこがリミックスという名前をつけた所以で、ただ単に技術を見せるのではなく、ユーザーがいかに使いやすいか、さらに自然なのかを感じていただきたいと思っています。
最後は「AIシーン高画質の進化」です。これは去年のモデルにも搭載されていたAIシーン検出とシーンに特化した最適化プロセスの進化版です。
麻倉 今回は、どこが進化したのでしょうか?
西岡 去年はボクシングなどの「リング競技」とか、「夜景」「花火/星空」「サッカー/ゴルフ」といったシーンを検出していましたが、今回そこに「音楽ライブステージ」を追加しています。コンサートなどのシーンを認識して、専用の高画質化プロセスを作ったというところになります。
今回は、超大型ディスプレイに最適な高画質化技術とMiniLEDバックライト制御技術の組み合わせを、AIを軸にして構築したということになります。
麻倉 なるほど、色々な面でAI活用していることがよくわかります。ではまず、生成AIボイスナビゲーターについて教えて下さい。
石橋 我々のスタンスとして、とにかくテレビを使っていただきたいという強い思いがありました。そのためにどうしたらいいのかというひとつの答えとして、今までパッシブだったテレビをアクティブに変えたらどうだろうかという発想です。
弊社の上位モデルはミリ波レーダーセンサーを搭載しているので、人がテレビに近づいたことを検出できます。そこで、ユーザーが近くに居ると検出したら、テレビの方から「何かご用はありませんか?」というような形で問いかけていく。それによってユーザーにテレビを使ってもらう機会を増やしていきたいと思っています。
またその際にリモコンではなく、ユーザーと会話をすることによって、新しいテレビの使い方として感じていただきます。またその際に、これまでは定型の言葉じゃないとサーチやオペレーションができませんでしたが、今回は普通の会話、曖昧な言葉であっても会話が成立していくようになっています。
また今までのレコメンド機能は狭いカテゴリーに集中しがちで、ある程度使っていると同じ作品ばかりお薦めされると言ったこともありました。しかし今ではコンテンツはほぼ無限にあるのだから、そういった新しいコンテンツとの出会いを提供していきたいと考えました。
麻倉 確かにこれまでのテレビと視聴者の関係は、テレビが映し出すものをユーザーが享受するという、ある意味で一方的な受け身の間柄でした。でも生成AIボイスナビゲーターが入ることによって、テレビが秘書や先生になってくれる。特にコンパニオン的に新しいコンテンツを推薦してくれるっていうのはいいですね。
石橋 今回のデモンストレーションでは、人の存在を検出するところに留まっているのですが、将来的なビジョンとしては人を検出するだけではなく、それがお父さんなのか、お母さんなのかといったところまで判別してお薦めを提案するといった展開も考えています。
またテレビはひとりで見ることもありますが、家族みんなで見る場合も多く、その人数によってお薦め番組も変わってくるべきだと思います。家族3人の時はこういう番組を見ているけど、お父さんだけの時はゴルフばっかり見ているよね、みたいなこところまでAIが考えて、コンテンツとの出会いを提供するということをやっていきたいと思っています。
麻倉 その場合は、個人を識別することが重要になりますが、それはどうやって取得するのでしょう?
石橋 ひとつの可能性としては電波センサーを考えています。現在の電波センサーはミリ単位で動きを検知できますし、脈や呼吸といったバイタルデータも取得できます。また対話をしている声を使って、相手が誰なのか識別できるでしょう。
テレビにカメラを搭載するという方法もありますが、日本のユーザーはカメラで検知されるのを好まない方もいらっしゃいますので、それ以外の方法でユーザーを検知、識別したいと考えています。
麻倉 人の検知・識別はセンサーでできますが、各人の嗜好についてはどうやって取得するのでしょう?
石橋 そこについては、この人はこういうコンテンツをよく見るといった具合にAIが学習していくことになります。さらに究極の目標として、その人がリラックスしているのか、焦っている状態なのか、また朝なのか夜なのか、季節は夏なのか冬なのかといったことでも見たい内容が変わってくると思いますので、それらのデータも組み合わせて、その時に最適なお薦めを提供できるようにしていきます。
麻倉 最適なコンテンツを探してくる時に、生成AIによるサーチを使うということですか?
石橋 いえ、生成AIを使うのは主にコミュニケーションの部分です。新しい出会いは、曖昧な言葉で会話をしている中で生まれてくると思うんです。「30分しかないけど、何かお薦め番組はない?」とか、「面白いニュース番組はない?」といったイメージですね。
我々の強みは、様々なコンテンツにシームレスにアクセスできることだと思っていますし、録画素材についてもタイムシフトマシンという膨大な録画コンテンツも持っています。生成AIで入手した情報を使い、これらを横断した素材からお薦めコンテンツを提供します。
麻倉 それだけの中から選ぶとなると、逆にどういった最適な判断をしていくか、生成AIの見識が問われますね。
石橋 その通りです。生成AIの種類によってはコンテンツ名の認識が不十分で、特に俳優のニックネームとか番組の略称の引っかかり方というのがLLM(大規模言語モデル)によってかなり違ってくるというのが研究でも見えています。ここについては色々実験をしながら、我々のニーズに一番合っている、コンテンツに強いLLMを構築していきます。
麻倉 LLMとしての選択と基準が、これまでとまったく違いますね。でも、従来のLLMはすべてを対象にしていましたが、そこを専門化していくというやり方もあるんじゃないですか?
西岡 そこにはふたつの方向性があります。レグザとしてはキーワードサーチで高い専門性を持っているという強みがありますので、これを LLMと組み合わせるというのが、第一の方法です。
もうひとつは、今石橋が申し上げたLLMの選び方です。これをいかに組み合わせるか、バランスを取るか使い勝手に一番影響する部分ですので、慎重に考える必要があります。
麻倉 LLMを独自で開発する方法もありますよね。
石橋 それもひとつの方法ですが、現状では既存のシステムとミックスするのが一番バランスがいいんじゃないかと考えています。
麻倉 ハルシネーション(Chat AIなどが、事実とは異なる内容や、文脈と無関係な内容を生成すること)についてはどうお考えですか?
石橋 そこは今後のテーマです。どういう風に誤情報を制限するかは、これから検討していきます。
西岡 AIの強いところ、制限をかけるところを見極める必要はあるでしょう。
麻倉 今日のデモは文字ベースでしたが、将来的には音声会話も視野に入れて開発しているんですよね?
西岡 音声会話は技術的には可能ですが、CES会場のような環境だとノイズが多いので難しいですね。LINEのようなチャット形式で画面上にテキストを表示するタイプもキャッチーで面白いと思います。
麻倉 この機能が製品に実装されるのは2025年モデルからでしょうが、第一弾はここまで、第二弾になるとこれもできるといったビジョンはお持ちですか?
石橋 今までは製品のサイクルに合わせて機能を進化させてきましたが、生成AIを使った機能に関しては、独立したサイクルで開発を進めようと思っています。例えば2025年に発売する製品に関しては、ある程度の期間は生成AI機能をアップデートするといったところまで考えていきたいですね。
麻倉 同じテレビでも進化していけるわけですから、ユーザーも嬉しいでしょう。テレビと言っても、普段は自分の知ってる番組しか見なかったりするから、そういう意味では新しいコンテンツを見つけるのは結構難しいんですよね。
西岡 ChatGPTにしろ、他の生成AIにしろ、キュレーションの中には色々な刺激があるからこそ、新しい出会いが生まれるんだと思います。ここが生成AIの面白いところで、そこにレグザのコンテンツ選択の強みが重なったら、まさに自分の好みなんだけど新しいものと出会えた、という機会を増やすことができるんじゃないでしょうか。
麻倉 単なる会話型生成AIじゃなくて、新しいコンテンツを発見するためにそれを使おうというところがレグザらしいですね。
石橋 弊社としては、既に存在する生成AIやLLMと自分たちの技術をどう融合させるかが肝だと考えています。AIだけ、LLMだけテレビに乗せても面白くないし、新しいコンテンツの出会いを提供できるわけではありませんから。
西岡 これが形になったら、メニューのカスタマイズを含めて色々なことができます。今はコンテンツのディスカバリーに注目していますが、それ以外にもできることを試していきます。
麻倉 個人個人に向けた番組表を作ってくれるといいですね。放送から配信まですべてのコンテンツを横断して、あなたはこれを見ると最高よ、みたいな提案ですね。その中には見慣れた番組もあっていいし、新しい出会いもある。
石橋 それはいいですね。クラウドの担当者に話しておきます。
西岡 10年ぐらい前から、レグザの番組表の横にマイチャンネルを作って欲しいとリクエストしていたんです。今回の生成AIがあれば、それもやりやすくなるかもしれません。
麻倉 番組もシーン単位まで踏み込んでくれれば、新しい見方も提案できますね。チャンネルスキップとも違う、本当に見るべきところだけをシーンミックスするという方法です。
では次に、音源分離についてお聞きします。音源分離といえば、昔ソニー・ピクチャーズが『アラビアのロレンス』の3ch音源からサラウンドサウンドを作る時に使って話題になりました。それがテレビの機能として入ったということは、本当に驚きです。
石橋 デモをすると、皆さん驚いてくれます。これは私の個人的な思いもあって、足掛け3年をかけて開発したのです(笑)。
麻倉 といいますと?
石橋 とにかくテレビの音をよくしたいという思いは以前からありました。例えばドルビーアトモス音源ならちゃんと各チャンネルで分離した状態で入力されるから、包囲感たっぷりに楽しむことができます。でも、そういった特別なソースだけでなく普通のテレビ放送もなんとかできないだろうかということと、高齢の方にも聞きやすいような音を届けたいという思いがありました。
ある時、AIのディープラーニングで音源分類ができるといった論文を読んで、エンジニアにこれを研究してくれないかと依頼しました。最初はリソースの問題で、パソコン上では実現できるけど、テレビに搭載するのは難しいという状態でした。
また音源分離ではレイテンシー(遅延)も発生するので、CPUの負荷とレイテンシーのバランスを追い込んで、今の状態に行き着いている感じです。それもあって、今回のシステムでは声の分離を重視しました。
麻倉 テレビ番組であれば、声さえ取り出せれば、あとは環境音とみなしてもいいでしょうしね。
西岡 テレビに音声信号が入力されれば音源分離できますので、放送かブルーレイ、DVDかといったソースを問わずにお使いいただけるのも特長です。
石橋 ブルーレイや配信コンテンツをドルビーアトモスで見ていた人が、放送に戻ったとたんに音が寂しいと感じてしまうのは、テレビメーカーとしても残念です。ユーザーにはそのコンテンツがドルビーアトモスかどうかなんて関係ないので、イマーシブ環境をどうやって作るかが重要でしょう。
そもそも配信やパッケージはオブジェクトサウンドにどんどん対応しているのに、地デジは基本的には2chのまま取り残されている。そこを何とかしたいというのが狙いです。
麻倉 まさにユーザーのためを考えた技術ですね。ところでこの機能は、どういった使い方ができるのでしょう?
石橋 コンテンツの内容に合わせて、「STADIUM」「DRAMA」「NEWS」などいくつかのモードを準備しています。
西岡 テレビの置き方によっては、人の声が聞こえにくくなると言ったケースもありますので、そういう時にこの機能を使って自然に音声をエンハンスできるというのも大事だと考えています。
麻倉 逆に、声だけを抑えてカラオケとして使うといった発想も面白いと思いますよ(笑)。
西岡 技術的には可能ですが、権利の問題もありそうなので実装できるかは難しいですね(笑)。あと、ニュースの街頭インタビューなどはノイズが残っていることも多く、聞き取りにくいという声あります。そういった問題は、この機能で改善できるでしょう。
麻倉 音楽番組などをサラウンド化するのもいいですね。疑似サラウンドではなく、ちゃんと音源分離して再配置するといったことも可能でしょう。
西岡 そういう処理を、リアルタイムでどこまでできるかが、これからの技術的なチャレンジかなと思います。
石橋 音源分離には大きな可能性を感じています。
麻倉 となると、次は画像分離ですね(笑)。
西岡 レグザでは既に3D超解像処理はやっていますが、それを全部リアルタイムでやるって事ですね。今は人を検出して、遠景、中景、近景の3つで認識していますが、それがひとつひとつのオブジェクトに分解できれば、確かに絵作り素材としても最高です。ただ、現実にはなかなか難しいですね。
石橋 動画で画像分離をやろうとすると、メモリーがどれだけ必要になるか想像もつきません(笑)。
麻倉 シーン検出の進化も頑張りましたね。
石橋 おかげさまで、昨年発売した100インチクラスのレグザが売れ始めています。そういった大きい画面でイマーシブ感を得られるのは、やはりスポーツやライブですので、今回は画面サイズの大型化にとって効果的なコンテンツということで「ライブステージ」を追加しています。
麻倉 先ほどその映像を拝見しましたが、画面全体にきらめきが出てきましたね。また明るい昼間の映像もクリアーになっていました。
石橋 昼間の風景についてはまだ研究段階で、特定の映像ではうまくハマるんですが、まだまだかなというシーンもありますので、もう少し開発を進めたいと思います。
麻倉 テレビとして、画面が大きくなって、さらに解像度が上がると、やっぱり奥行再現が欲しくなります。
西岡 新設した「音楽ライブステージ」モードでは、奥行きを作り出すというよりは、エッジの処理をきちんとやって自然な3D感を再現するという処理を加えています。映像検出でパフォーマーとステージに分離し、パフォーマーの衣装のきらめきや立体感を復元し、ステージ部分はハレーションを抑えてコントラストを最適化するという処理を別々に加えているのです。テレビ側のコントラストが上がってくると、画面上の奥行感は出しやすくなってくると思うので、その辺をきちんとやっていきたいと思います。
麻倉 今日は面白い話を本当にありがとうございました。生成AIがテレビの品質や操作性をどこまで高めてくれるのか、2025年のレグザのパフォーマンスを楽しみにしています。