HOME > ニュース > AV&ホームシアターニュース
公開日 2023/05/31 09:48
<NHK技研公開>独自の画像解析AIを活用した映像自動要約技術。SNSでの番組紹介などで活用
3DCGのカメラ位置を自動選択する技術も紹介
NHK放送技術研究所の最新の研究開発成果を一般に公開するイベント「技研公開2023」が、6月1日〜4日の期間に開催される。今回、イベントに先立ってプレス向け公開が行われた。
NHK技研が目指す「Future Vision 2030-2040」の実現に向けた、「イマーシブメディア」「ユニバーサルサービス」「フロンティアサイエンス」の3つの重点分野の研究技術が披露された。本稿では、「フロンティアサイエンス」の分野から、AIを活用した番組制作支援、撮影位置自動選択技術などについての研究技術を紹介していく。
NHK技研が「ネット配信向けショート動画」の制作支援を目的として開発した、独自の画像解析AIを活用した番組映像自動要約システムを展示している。本技術は、既に実用されている技術のひとつであり、例えばNHK金沢放送局では、Twitterで番組内容を紹介する際などに使用されている。このように、放送局発信によりSNSなどで番組を紹介するケースなどが増加しているという。
技術的内容としては、元の番組映像から画像解析AIによって、重要なシーンをAIスコアの結果に基づいて、指定した要約番組の長さに合わせて自動抽出していく。この“重要なシーン”というのは、人・物・景色などの構図、ズームやパンなどのカメラワークなど、学習済みの画像特徴のデータから、AIスコアを付けている。
今回の展示では、元の番組映像から、「作成するもの」の項目から「ダイジェスト動画」「予告動画」が選択でき、「番組ジャンル」の項目も「指定なし」「ドキュメンタリー」「ロケ番組」「Nスぺ風」から選ぶことができていた。そして「生成する要約動画尺の目安」を決定するだけで、自動で要約動画を生成できるとのこと。
また、画像解析AIに基づいて作成された要約動画で、例えば権利的に使用できないシーンが上がっていたり、別のシーンのほうが重要だった場合、そこから動画区間を差し替えることもできるほか、動画区間の順番も入れ替えていくことも可能だという。AIによる解析時間は、例えば30分番組であれば、その半分の15分程度で済むようだ。
「ニュース映像自動要約」のシステムも紹介されている。ニュース映像の場合、アナウンサー部分とVTR部分などが存在するが、映像は画像解析AIでVTR部分から映像を抽出し、さらに音声認識とキーワード解析を同時に行うことでアナウンサーのコメントと内容が合っている映像区間をVTR部分から抽出することができる。音声はアナウンサー部分を利用する。
3DCGの映像制作を支援する技術である「3次元空間の撮影位置自動選択技術」では、複数の3Dモデルで構成されているシーンにおいて、“人が良い”と感じる映像を撮影するための適切な仮想カメラの位置を、独自のアルゴリズムによって自動で算出する。
撮影位置を算出するアルゴリズムは、実際に2つの画像を比較実験して、“人が良い”と感じる主観評価データを大量に収集することで進化させてきたという。従来では、シーン内に複数の3Dモデルがある場合、手前と奥のモデルが被ってしまったりすることで、適切な撮影位置を予測することが困難であったが、アルゴリズムを導入することによって、自動選択のスコアが高い位置を選出することが可能になったとのこと。
デモブースでは、空間再現ディスプレイを用い、3DCG内で実際に家具を動かし配置し、レイアウトが終わった後、リアルタイムで計測を行い、すぐに最適な構図を提示していた。
技研公開の会期は、前述のとおり6月1日〜4日まで。入場料は無料で、事前予約の必要もない。
NHK技研が目指す「Future Vision 2030-2040」の実現に向けた、「イマーシブメディア」「ユニバーサルサービス」「フロンティアサイエンス」の3つの重点分野の研究技術が披露された。本稿では、「フロンティアサイエンス」の分野から、AIを活用した番組制作支援、撮影位置自動選択技術などについての研究技術を紹介していく。
■画像解析AIを活用した映像自動要約技術
NHK技研が「ネット配信向けショート動画」の制作支援を目的として開発した、独自の画像解析AIを活用した番組映像自動要約システムを展示している。本技術は、既に実用されている技術のひとつであり、例えばNHK金沢放送局では、Twitterで番組内容を紹介する際などに使用されている。このように、放送局発信によりSNSなどで番組を紹介するケースなどが増加しているという。
技術的内容としては、元の番組映像から画像解析AIによって、重要なシーンをAIスコアの結果に基づいて、指定した要約番組の長さに合わせて自動抽出していく。この“重要なシーン”というのは、人・物・景色などの構図、ズームやパンなどのカメラワークなど、学習済みの画像特徴のデータから、AIスコアを付けている。
今回の展示では、元の番組映像から、「作成するもの」の項目から「ダイジェスト動画」「予告動画」が選択でき、「番組ジャンル」の項目も「指定なし」「ドキュメンタリー」「ロケ番組」「Nスぺ風」から選ぶことができていた。そして「生成する要約動画尺の目安」を決定するだけで、自動で要約動画を生成できるとのこと。
また、画像解析AIに基づいて作成された要約動画で、例えば権利的に使用できないシーンが上がっていたり、別のシーンのほうが重要だった場合、そこから動画区間を差し替えることもできるほか、動画区間の順番も入れ替えていくことも可能だという。AIによる解析時間は、例えば30分番組であれば、その半分の15分程度で済むようだ。
「ニュース映像自動要約」のシステムも紹介されている。ニュース映像の場合、アナウンサー部分とVTR部分などが存在するが、映像は画像解析AIでVTR部分から映像を抽出し、さらに音声認識とキーワード解析を同時に行うことでアナウンサーのコメントと内容が合っている映像区間をVTR部分から抽出することができる。音声はアナウンサー部分を利用する。
■“人が良い”と感じる映像に基づきカメラ位置を自動選択
3DCGの映像制作を支援する技術である「3次元空間の撮影位置自動選択技術」では、複数の3Dモデルで構成されているシーンにおいて、“人が良い”と感じる映像を撮影するための適切な仮想カメラの位置を、独自のアルゴリズムによって自動で算出する。
撮影位置を算出するアルゴリズムは、実際に2つの画像を比較実験して、“人が良い”と感じる主観評価データを大量に収集することで進化させてきたという。従来では、シーン内に複数の3Dモデルがある場合、手前と奥のモデルが被ってしまったりすることで、適切な撮影位置を予測することが困難であったが、アルゴリズムを導入することによって、自動選択のスコアが高い位置を選出することが可能になったとのこと。
デモブースでは、空間再現ディスプレイを用い、3DCG内で実際に家具を動かし配置し、レイアウトが終わった後、リアルタイムで計測を行い、すぐに最適な構図を提示していた。
技研公開の会期は、前述のとおり6月1日〜4日まで。入場料は無料で、事前予約の必要もない。