対話型AIや音声技術「AIオーディオリミックス」など
<CES>レグザ、生成AIを採り入れた「レグザインテリジェンス」開発発表。テレビがさらに便利&高画質に
TVS REGZAは、米ラスベガスにて1月7日から開催される世界最大級のエレクトロニクス展示会「CES2025」にて、TVS REGZAブースを展開する。本稿では、国内メディア向けに開催された説明会の情報を基に、ブース内の展示内容を紹介していく。
ブースでは、現在開発中の最新技術デモを中心に展示を予定。新たな技術コンセプトとして「レグザインテリジェンス」を掲げた。同社の高画質エンジン「レグザエンジンZRα」などに生成AIを盛り込み、長年培ってきたセンシング技術やユーザーのプリファレンスを組み合わせ、視聴者の嗜好や感心、などさまざまなものを加味して、新しいコンテンツとの出会いを作り出していきたいという。また、新コンセプトの機能によって、大画面の魅力を最大限に感じられる新たなユーザー体験を作り上げていきたいと明言した。
「レグザは長年ディープラーニング技術を用いてテレビ開発を行ってきた。新コンセプトの技術では、生成AIとディープラーニング、ミリ波センサー、人間工学といった技術をベースとし、そこに視聴者のプロファイルを融合させることで、新しい映像コンテンツ、新しい気付き、新しい出会いを提供していきたい」と同社の石橋氏は語る。
対話型AIを導入し、テレビが視聴者と対話を通して、使用しているユーザーの嗜好や習性をテレビ側が分析してプロファイリングを行うことで、視聴者に最適なコンテンツを推薦できるのものにしていくという。クラスタリング/協調フィルタリング/深層学習などを用いた視聴者のプロファイリング、視聴履歴データ/属性データ/生体データといった視聴者データを構築、双方の組み合わせによって実現させていくとのこと。
個々の興味関心に合わせたコンテンツ推薦ができる「パーソナライズ性」、新たなコンテンツを発見して推薦する「新規性」、ユーザーの興味・感心の幅を広げる「多様性」、状況に合わせてコンテンツを動的に推薦する「リアルタイム性」を叶えた機能の搭載を推し進めていくとした。
実際のブースでは、「レグザインテリジェンス」に順じた機能のひとつとして「生成AIボイスナビゲーター」のデモを展開。今までの映像コンテンツの出会い方は、作品のタイトル名やアーティスト名など具体的な名称を入力して検索したり、検索ワードを工夫したりすることで、検索ヒット率を上げる方法を用いることが主流だった。この具体化作業を「生成AIボイスナビゲーター」が代行するものだという。
従来までユーザーが行っていた検索時の具体化作業は、アプリの起動やリモコン操作など、検索するための発生する操作に対して煩わしさを感じさせる点があったが、「生成AIボイスナビゲーター」を用いることで、曖昧な検索ワードによっても、ユーザーが観たい映像コンテンツに最短リーチできるようになるとアピールする。
説明会では、CES2025にて展示するパブリックデモンストレーションを実際が行われた。「生成AIボイスナビゲーター」のデモでは、テレビ画面にアバターのようなものが現れ、「Move closer to the TV(テレビに近付く)」と表示。デモで使用された4Kテレビにはミリ波センサーが搭載されているため、テレビが視聴者の位置を把握しており、視聴者が近付くと「Press and hold the voice button and speak(音声ボタンを長押しして話す)」と表示テキストが変化する。
リモコンの音声ボタンを長押ししてテレビに話しかけると、チャットのようなUIへと進み、レグザと視聴者が対話できるようになっている。次に「今30分ぐらい時間あるんだけど何かおすすめのコンテンツありますか」と視聴者側からレグザに問い掛けると、「おすすめのアニメをご紹介いたしますね」と返事が表示され、「今話題の作品」「続きを視聴したい作品」など、視聴者がより観たい作品を見つけ出すお手伝いをするようなコメントが表示された。
そして「話題のやつお願い」と答えると、「GUNDAM」「LOVE LIVE! SUPERSTAR!」といった具体的な作品をレグザが提案してくれる。「GUNDAM」を選択すると、関連作品が一覧となって表れ、観たい作品を手軽に選べるようになっていた。
デモのように通常の会話のような内容で、また作品コンテンツを指定するような具体的な言葉がなくても、レグザがレコメンドしてくれる作品を視聴することができていた。レコメンドしてくれる作品も、視聴者の情報がレグザ側に構築されていくことで、ピックアップされるタイトルや提案内容が洗練されていくようだ。また、全てリアルタイムで実行され、レグザのレスポンスも速くてスムーズであり、返事を待つ時間も非常に短かいことも特長だとした。
次に生成AIを活用した音声技術「AIオーディオリミックス」技術を解説。例えばサッカー中継では、解説を行うアナウンサーの声、選手たちのプレイ中の音、スタジアムの歓声といった、さまざまな音声が混在しているが、「AIオーディオリミックス」ではレグザに内蔵されているAIエンジンを活用することによって、声と環境音を分離させ、さらに声と環境音を別々に音量コントロールすることが可能だという。
本機能を使用することで、スタジアムの歓声やプレイ中の音を中心に聴きたい、アナウンサーの解説をメインに視聴したいといった、どちらかの音を強調して、視聴者が聴きたい音へとリアルタイムでカスタマイズすることができるようになっている。
「AIオーディオリミックス」のデモでは、サッカー中継の映像とニュース番組をイメージしたコンテンツを用いて、本機能を使用した際の効果の違いを確認することができる。音声モードをNormal/Voice/Stadiumの3パターンで比較。Normalでは通常通り、アナウンサーの解説もスタジアムの歓声も混ざって聴こえるが、Voiceにすると歓声の音がわずかに聴こえる程度の音量となり、解説の声が非常に聞き取りやすくなる。
Stadiumのモードに変更すると、Voiceのときとは反対に解説の声が小さくなり、歓声やプレイ中の音がメインとなるため、スタジアムで試合を観ているような臨場感を味わうことができる。また、大画面テレビで視聴しているときに「AIオーディオリミックス」のモードをStadiumにすれば、よりいっそう没入感を体感できる印象を与える。
続いてニュース番組で「AIオーディオリミックス」の機能を使用。キャスターが屋外でレポートするシーンでは、Normalの場合はキャスターの声と現場の背景音が混ざっている状態だが、Voiceにすると背景音が小さくなりキャスターの声だけフォーカスされるようになる。Stadiumにモードを切り替えると、先ほどとは反対にキャスターの声がかすかな音量となり、背景音だけになる。
声だけを聴きとりやすくする機能などは、従来から存在していたが、例えば周波数帯(バンド)で調整するイコライザー機能のようなものだと、あくまでも周波数帯ごとでしか調整ができないため、サッカー中継の解説の声と歓声の帯域が重なっていた場合は、両方の音が同時に調整されてしまう。
しかし「AIオーディオリミックス」では、ディープラーニングを用いることで、声と歓声、背景音などを判別して調整することができるため、非常に高精度な調整が可能だと明かした。
最後に、「AIシーン高画質」機能の進化について解説された。2022年度のレグザから搭載され始めている高画質機能のひとつであり、映像コンテンツのジャンルを自動で判別するだけでなく、映像シーンをAIで判別することで、より最適な高画質処理を施すことができる。
2024年度モデルでは、夜景/花火・星空/リング競技/ゴルフ・サッカー/映画/アニメといった映像を判別していたが、新たに「音楽ライブステージ」が判別可能となったとしている。採用の背景には、テレビの大画面化が進む中で、音楽ライブを大画面で楽しむ需要が増えてきており、より臨場感の高い音楽ライブの表現が求められてきていることを挙げた。
花火や夜景といったシーン判別では、光を強調させて輝度感を高め、色が付いた光莉は色鮮やかに表現し、夜空を漆黒に見せる調整を行うことで、コントラスト感を高めた映像にしていたが、「音楽ライブステージ」ではアーティストがより綺麗に見えることを重視している。
アーティストの衣装の煌めき感や質感の再現をはじめ、アーティストに寄った映像のときは衣装や顔の立体感を高め、ライブ会場全体を引きで撮影した映像では、アーティストの実存感を向上さえるためにくっきりとした、精細感を上げた表現にするという。実際に会場にいるような、まさにライブ感を体感できるとコメントした。
ブースでは、現在開発中の最新技術デモを中心に展示を予定。新たな技術コンセプトとして「レグザインテリジェンス」を掲げた。同社の高画質エンジン「レグザエンジンZRα」などに生成AIを盛り込み、長年培ってきたセンシング技術やユーザーのプリファレンスを組み合わせ、視聴者の嗜好や感心、などさまざまなものを加味して、新しいコンテンツとの出会いを作り出していきたいという。また、新コンセプトの機能によって、大画面の魅力を最大限に感じられる新たなユーザー体験を作り上げていきたいと明言した。
「レグザは長年ディープラーニング技術を用いてテレビ開発を行ってきた。新コンセプトの技術では、生成AIとディープラーニング、ミリ波センサー、人間工学といった技術をベースとし、そこに視聴者のプロファイルを融合させることで、新しい映像コンテンツ、新しい気付き、新しい出会いを提供していきたい」と同社の石橋氏は語る。
対話型AIを導入し、テレビが視聴者と対話を通して、使用しているユーザーの嗜好や習性をテレビ側が分析してプロファイリングを行うことで、視聴者に最適なコンテンツを推薦できるのものにしていくという。クラスタリング/協調フィルタリング/深層学習などを用いた視聴者のプロファイリング、視聴履歴データ/属性データ/生体データといった視聴者データを構築、双方の組み合わせによって実現させていくとのこと。
個々の興味関心に合わせたコンテンツ推薦ができる「パーソナライズ性」、新たなコンテンツを発見して推薦する「新規性」、ユーザーの興味・感心の幅を広げる「多様性」、状況に合わせてコンテンツを動的に推薦する「リアルタイム性」を叶えた機能の搭載を推し進めていくとした。
実際のブースでは、「レグザインテリジェンス」に順じた機能のひとつとして「生成AIボイスナビゲーター」のデモを展開。今までの映像コンテンツの出会い方は、作品のタイトル名やアーティスト名など具体的な名称を入力して検索したり、検索ワードを工夫したりすることで、検索ヒット率を上げる方法を用いることが主流だった。この具体化作業を「生成AIボイスナビゲーター」が代行するものだという。
従来までユーザーが行っていた検索時の具体化作業は、アプリの起動やリモコン操作など、検索するための発生する操作に対して煩わしさを感じさせる点があったが、「生成AIボイスナビゲーター」を用いることで、曖昧な検索ワードによっても、ユーザーが観たい映像コンテンツに最短リーチできるようになるとアピールする。
説明会では、CES2025にて展示するパブリックデモンストレーションを実際が行われた。「生成AIボイスナビゲーター」のデモでは、テレビ画面にアバターのようなものが現れ、「Move closer to the TV(テレビに近付く)」と表示。デモで使用された4Kテレビにはミリ波センサーが搭載されているため、テレビが視聴者の位置を把握しており、視聴者が近付くと「Press and hold the voice button and speak(音声ボタンを長押しして話す)」と表示テキストが変化する。
リモコンの音声ボタンを長押ししてテレビに話しかけると、チャットのようなUIへと進み、レグザと視聴者が対話できるようになっている。次に「今30分ぐらい時間あるんだけど何かおすすめのコンテンツありますか」と視聴者側からレグザに問い掛けると、「おすすめのアニメをご紹介いたしますね」と返事が表示され、「今話題の作品」「続きを視聴したい作品」など、視聴者がより観たい作品を見つけ出すお手伝いをするようなコメントが表示された。
そして「話題のやつお願い」と答えると、「GUNDAM」「LOVE LIVE! SUPERSTAR!」といった具体的な作品をレグザが提案してくれる。「GUNDAM」を選択すると、関連作品が一覧となって表れ、観たい作品を手軽に選べるようになっていた。
デモのように通常の会話のような内容で、また作品コンテンツを指定するような具体的な言葉がなくても、レグザがレコメンドしてくれる作品を視聴することができていた。レコメンドしてくれる作品も、視聴者の情報がレグザ側に構築されていくことで、ピックアップされるタイトルや提案内容が洗練されていくようだ。また、全てリアルタイムで実行され、レグザのレスポンスも速くてスムーズであり、返事を待つ時間も非常に短かいことも特長だとした。
次に生成AIを活用した音声技術「AIオーディオリミックス」技術を解説。例えばサッカー中継では、解説を行うアナウンサーの声、選手たちのプレイ中の音、スタジアムの歓声といった、さまざまな音声が混在しているが、「AIオーディオリミックス」ではレグザに内蔵されているAIエンジンを活用することによって、声と環境音を分離させ、さらに声と環境音を別々に音量コントロールすることが可能だという。
本機能を使用することで、スタジアムの歓声やプレイ中の音を中心に聴きたい、アナウンサーの解説をメインに視聴したいといった、どちらかの音を強調して、視聴者が聴きたい音へとリアルタイムでカスタマイズすることができるようになっている。
「AIオーディオリミックス」のデモでは、サッカー中継の映像とニュース番組をイメージしたコンテンツを用いて、本機能を使用した際の効果の違いを確認することができる。音声モードをNormal/Voice/Stadiumの3パターンで比較。Normalでは通常通り、アナウンサーの解説もスタジアムの歓声も混ざって聴こえるが、Voiceにすると歓声の音がわずかに聴こえる程度の音量となり、解説の声が非常に聞き取りやすくなる。
Stadiumのモードに変更すると、Voiceのときとは反対に解説の声が小さくなり、歓声やプレイ中の音がメインとなるため、スタジアムで試合を観ているような臨場感を味わうことができる。また、大画面テレビで視聴しているときに「AIオーディオリミックス」のモードをStadiumにすれば、よりいっそう没入感を体感できる印象を与える。
続いてニュース番組で「AIオーディオリミックス」の機能を使用。キャスターが屋外でレポートするシーンでは、Normalの場合はキャスターの声と現場の背景音が混ざっている状態だが、Voiceにすると背景音が小さくなりキャスターの声だけフォーカスされるようになる。Stadiumにモードを切り替えると、先ほどとは反対にキャスターの声がかすかな音量となり、背景音だけになる。
声だけを聴きとりやすくする機能などは、従来から存在していたが、例えば周波数帯(バンド)で調整するイコライザー機能のようなものだと、あくまでも周波数帯ごとでしか調整ができないため、サッカー中継の解説の声と歓声の帯域が重なっていた場合は、両方の音が同時に調整されてしまう。
しかし「AIオーディオリミックス」では、ディープラーニングを用いることで、声と歓声、背景音などを判別して調整することができるため、非常に高精度な調整が可能だと明かした。
最後に、「AIシーン高画質」機能の進化について解説された。2022年度のレグザから搭載され始めている高画質機能のひとつであり、映像コンテンツのジャンルを自動で判別するだけでなく、映像シーンをAIで判別することで、より最適な高画質処理を施すことができる。
2024年度モデルでは、夜景/花火・星空/リング競技/ゴルフ・サッカー/映画/アニメといった映像を判別していたが、新たに「音楽ライブステージ」が判別可能となったとしている。採用の背景には、テレビの大画面化が進む中で、音楽ライブを大画面で楽しむ需要が増えてきており、より臨場感の高い音楽ライブの表現が求められてきていることを挙げた。
花火や夜景といったシーン判別では、光を強調させて輝度感を高め、色が付いた光莉は色鮮やかに表現し、夜空を漆黒に見せる調整を行うことで、コントラスト感を高めた映像にしていたが、「音楽ライブステージ」ではアーティストがより綺麗に見えることを重視している。
アーティストの衣装の煌めき感や質感の再現をはじめ、アーティストに寄った映像のときは衣装や顔の立体感を高め、ライブ会場全体を引きで撮影した映像では、アーティストの実存感を向上さえるためにくっきりとした、精細感を上げた表現にするという。実際に会場にいるような、まさにライブ感を体感できるとコメントした。