ニュース
HOME > ニュース > AV&ホームシアターニュース
公開日 2024/05/29 09:34
解析技術を駆使した映像説明テキストの生成も展示
<NHK技研公開>8K撮影データからマルチカメラ番組の制作を叶える次世代の活用法も公開
編集部:長濱行太朗
NHK技研研究所は、放送技術に関する研究成果を一般公開する「技研公開2024」を、5月30日から6月2日の期間で開催する。一般公開に先立ち、メディア向けの先行体験会が開催され、4K・8K放送技術やボリュメトリック映像制作、ディフォーマブルディスプレイ、ホログラフィー撮影技術など、さまざまな技術が披露された。
本稿では、NHK技研が“メディアの直近の課題解決に貢献”をコンセプトに、メタデータを活用した番組制作支援、少人数でのマルチカメラ番組の制作など、「メディアを支える」とカテゴライズした技術についてレポートする。
「映像の説明テキスト生成技術」のブースでは、映像コンテンツの代表となる画像を摘出し、NHKが培ってきたデータベースを基にした解析技術を用いて、映像内容を説明するテキストを自動で生成する技術を展示している。
放送局が所有する膨大な映像を番組制作において再利用する際、欲しいシーンを検索するときに、映像の説明テキストが大きな役割を担っているという。その説明テキストを、従来以上に具体的にするため、解析技術を用い、固有名詞まで含めた説明テキストを付与できることが特徴とのこと。
解析技術では、横向きやマスク着用でも高精度に識別できる「顔認識」、特殊なフォントや文字列でも解析できる「文字認識」、顔が映っていなくても登場人物を判断できる「人物識別」、そして映像コンテンツを解析するのに最大限に適した画像を自動で抽出する「代表画像抽出」が含まれている。これらの技術によって、従来の説明テキスト生成技術では難しかった、人名などの固有名詞を含む説明テキストの生成が可能になったという。
また、さまざまな要素技術を共通APIで利用できるようにプログラムを作成し、要素技術が簡単に連携できる仕組みを採用したことで、人名、撮影場所、説明テキストなどのメタデータを効率的に生成できるようになっていると説明する。
「8K映像切り出し制作システム」では、通常の番組制作において複数カメラマンが必要な状況でも、少人数でマルチカメラ番組を制作できる仕組みを展示する。
1台の8Kカメラで撮影した広角映像から、いくつかの画角を2Kカメラ相当で半自動的に「切り出し」できる技術であり、マルチカメラで撮影したような番組制作が可能になる。
8Kカメラで撮影した映像を切り出して画角を決めていく際、AI技術によって被写体を識別し、自然な切り出しにも対応する。デモでは、合唱コンクールの映像が使用されていたが、8Kカメラで撮影している映像の中に、複数の2Kカメラ相当の切り出しの枠が表示され、人の顔に被らない切り出しが実際にできていた。
また、複数切り出した映像の切り出し範囲の設定、出力する映像を切り替えられるスイッチング機能を、ひとつの操作画面に集約したコントロールソフトウェアも開発。併せて映像のパン/ズームもカバーしており、切り出し範囲を跨ぐようなパン/ズームをする際、スムーズな連続的変化、緩やかな速度変化などを導入することで、人が操作したような自然なカメラワークを実現しているという。今後、本技術をイマーシブメディアにおけるコンテンツ制作への応用も進めていく予定だ。
本稿では、NHK技研が“メディアの直近の課題解決に貢献”をコンセプトに、メタデータを活用した番組制作支援、少人数でのマルチカメラ番組の制作など、「メディアを支える」とカテゴライズした技術についてレポートする。
■解析技術を連携させて固有名詞も含む映像説明テキストを生成
「映像の説明テキスト生成技術」のブースでは、映像コンテンツの代表となる画像を摘出し、NHKが培ってきたデータベースを基にした解析技術を用いて、映像内容を説明するテキストを自動で生成する技術を展示している。
放送局が所有する膨大な映像を番組制作において再利用する際、欲しいシーンを検索するときに、映像の説明テキストが大きな役割を担っているという。その説明テキストを、従来以上に具体的にするため、解析技術を用い、固有名詞まで含めた説明テキストを付与できることが特徴とのこと。
解析技術では、横向きやマスク着用でも高精度に識別できる「顔認識」、特殊なフォントや文字列でも解析できる「文字認識」、顔が映っていなくても登場人物を判断できる「人物識別」、そして映像コンテンツを解析するのに最大限に適した画像を自動で抽出する「代表画像抽出」が含まれている。これらの技術によって、従来の説明テキスト生成技術では難しかった、人名などの固有名詞を含む説明テキストの生成が可能になったという。
また、さまざまな要素技術を共通APIで利用できるようにプログラムを作成し、要素技術が簡単に連携できる仕組みを採用したことで、人名、撮影場所、説明テキストなどのメタデータを効率的に生成できるようになっていると説明する。
■8Kカメラの広角映像からマルチカメラ番組を制作
「8K映像切り出し制作システム」では、通常の番組制作において複数カメラマンが必要な状況でも、少人数でマルチカメラ番組を制作できる仕組みを展示する。
1台の8Kカメラで撮影した広角映像から、いくつかの画角を2Kカメラ相当で半自動的に「切り出し」できる技術であり、マルチカメラで撮影したような番組制作が可能になる。
8Kカメラで撮影した映像を切り出して画角を決めていく際、AI技術によって被写体を識別し、自然な切り出しにも対応する。デモでは、合唱コンクールの映像が使用されていたが、8Kカメラで撮影している映像の中に、複数の2Kカメラ相当の切り出しの枠が表示され、人の顔に被らない切り出しが実際にできていた。
また、複数切り出した映像の切り出し範囲の設定、出力する映像を切り替えられるスイッチング機能を、ひとつの操作画面に集約したコントロールソフトウェアも開発。併せて映像のパン/ズームもカバーしており、切り出し範囲を跨ぐようなパン/ズームをする際、スムーズな連続的変化、緩やかな速度変化などを導入することで、人が操作したような自然なカメラワークを実現しているという。今後、本技術をイマーシブメディアにおけるコンテンツ制作への応用も進めていく予定だ。