公開日 2021/06/23 06:40
<山本敦のAV進化論 第203回>
ソニーが時空を越えたアーティストのコラボを実現、「AI音源分離」技術とは何か
山本 敦
古い録音から特定の音を取り出し、新しいコンテンツを創り出す。ソニーが開発した音源分離技術「AI Sound Separation」を活用した画期的な音楽作品が、ソニー・ミュージックレーベルズから発売された。ソニーによる音源分離技術の特徴について、開発に携わってきたソニーグループ(株)の光藤 祐基氏にうかがった。今後どのようなコンテンツやサービスに応用ができる技術なのだろうか。
今回、筆者が注目した作品は6月2日にソニー・ミュージックレーベルズがリリースした「R.シュトラウス:イノック・アーデン」だ。ソニーの「AI Sound Separation」技術により、グレン・グールドが演奏するピアノとオリジナルの英語朗読を収録するマスター・テープからグールドのピアノ演奏部分だけを分離して、新たに石丸幹二の日本語による朗読を重ね合わせた「時空を超えたコラボレーション作品」である。
6月2日にBlue-Spec CD2のフォーマットによるパッケージ版が発売された。同時にmoraなどのオンラインのミュージックストアでダウンロード版や、spotifyなどでストリーミング版の提供も行なっている。
■他を圧倒する完成度を誇る、ソニーの音源分離技術「AI Sound Separation」とは
ソニーの光藤氏によると、様々な音が混合する録音から特定の音を分離する技術は、1990年頃から学術研究の領域で取り上げられてきたものなのだという。光藤氏はソニーグループ R&DセンターのDistinguished EngineerとしてAI Sound Separationに関わるスペシャリストだ。
光藤氏は当時、音源分離技術を難題として多くの研究者がこれに取り組んでいたと振り返る。
「1990年から2000年ごろまで、音源分離は具体的な応用に考えが向かないほどに難しい技術とされていました。それはよくリンゴとオレンジのミックスジュースからオレンジジュースだけを取り出すほどの難易度に例えられます」
やがて2010年頃から機械学習の知見を活かして音源を分離するというアプローチが採られるようになり、活路が拓かれた。2012年ごろから「AI化の波」が訪れたのだ。そしてソニーは音声認識に使われ始めていたAIの技術を、音源分離にも応用できることにいち早く着目した。
その技術の基本は、「私たち人間が日ごろからリンゴの形を経験により認識しながら見分ける仕組みに近いもの」であると光藤氏が説いている。ソニーの音源分離技術の場合、たとえばピアノ固有の音色や特徴的な周波数、時間変動をAIが学習して、複数の音が混ざっている音源からピアノのパートだけをきれいに分離するというものだ。
ソニーのR&Dセンターは、音源分離技術の国際コンペティション「Signal Separation Evaluation Campaign(SiSEC)」に参加して、世界に名だたる競合の研究所や企業のR&D部門と切磋琢磨しながら、2015年から三期連続でベストスコアを獲得してきた。
その後もソニー R&Dセンターが独自に技術研究を深めてきた成果は、今回商品化された「イノック・アーデン」のような音楽作品の制作に貢献したり、ほかの様々な用途にも使われている。
光藤氏は特に「低演算量で低遅延」な分離処理技術を確立したことが、ソニーの「AI Sound Separation」の大きな特徴なのだと話す。つまり、ストリーミング音源のリアルタイム処理にも対応できる音源分離技術なのだ。これをLINE MUSICがいち早く、2020年の8月から同社の音楽ストリーミングサービスに組み込んだ。歌詞サービスを提供する楽曲をLINE MUSICで選曲・再生すると、ボーカルのパートだけ音量レベルが下がり、ユーザーは歌詞を見ながらカラオケが楽しめる。この技術を応用すれば、ボーカルを活かしてピアノやギターの音だけを消すことも可能だ。バンドマンの楽器演奏の練習用にも人気を集めるのではないだろうか。
■1961年の録音からグールドのピアノだけを取り出す挑戦
ソニー・ミュージックレーベルズが発売した作品「イノック・アーデン」は、ナレーションと音楽伴奏によって構成される「メロドラマ=音声演劇」だ。元の作品はイギリス出身の俳優クロード・レインズを朗読に迎えて、1961年10月に録音された音源になる。当時はグールド15枚目のアルバムとしてリリースされた。
かたやソニー・ミュージックレーベルズでは俳優の石丸幹二を迎えて朗読企画作品をリリースしてきた。劇団四季を卒業した石丸幹二にとっても、数多く演じてきた朗読劇の中で特に「イノック・アーデン」は思い入れの深い作品だったという。「グールドのピアノに石丸の朗読を付けた作品を実現してみたい」という機運が、自然と各者の中で高まっていったのだと、当時の熱気をプロデューサーの小山哲史氏が振り返る。
本作の企画が立ち上がる当初、小山氏は2015年にグールドの作品としてリリースされていた「イノック・アーデン」のマスターテープを取り寄せた。小山氏はもともとピアノと朗読が別々のトラックに分離されているものと期待していたが、実際には同じスタジオ内でピアノと朗読を同時に “一発録り” した音源だった。録音に使われたすべてのマイクにピアノと朗読の音が混ざった状態で記録されているマスターだったのだ。
その後、しばらくの間作品の実現は頓挫したが、「ソニーが開発する音源分離という技術の完成度がとても高いらしい」といううわさを耳にした小山氏は、アメリカ・ペンシルヴァニア州のアイアン・マウンテン・スタジオに保管されていた3チャンネルのオリジナル・マスターから、デジタル・データに変換した音源を取り寄せ、ソニー R&Dセンター光藤氏の元へ足を運んだ。そこからいくつもの試行錯誤を繰り返しながら、ついにグールドと石丸の時空を越えた共演作品「イノック・アーデン」が6月2日に発売を迎えた。
今回、筆者が注目した作品は6月2日にソニー・ミュージックレーベルズがリリースした「R.シュトラウス:イノック・アーデン」だ。ソニーの「AI Sound Separation」技術により、グレン・グールドが演奏するピアノとオリジナルの英語朗読を収録するマスター・テープからグールドのピアノ演奏部分だけを分離して、新たに石丸幹二の日本語による朗読を重ね合わせた「時空を超えたコラボレーション作品」である。
6月2日にBlue-Spec CD2のフォーマットによるパッケージ版が発売された。同時にmoraなどのオンラインのミュージックストアでダウンロード版や、spotifyなどでストリーミング版の提供も行なっている。
■他を圧倒する完成度を誇る、ソニーの音源分離技術「AI Sound Separation」とは
ソニーの光藤氏によると、様々な音が混合する録音から特定の音を分離する技術は、1990年頃から学術研究の領域で取り上げられてきたものなのだという。光藤氏はソニーグループ R&DセンターのDistinguished EngineerとしてAI Sound Separationに関わるスペシャリストだ。
光藤氏は当時、音源分離技術を難題として多くの研究者がこれに取り組んでいたと振り返る。
「1990年から2000年ごろまで、音源分離は具体的な応用に考えが向かないほどに難しい技術とされていました。それはよくリンゴとオレンジのミックスジュースからオレンジジュースだけを取り出すほどの難易度に例えられます」
やがて2010年頃から機械学習の知見を活かして音源を分離するというアプローチが採られるようになり、活路が拓かれた。2012年ごろから「AI化の波」が訪れたのだ。そしてソニーは音声認識に使われ始めていたAIの技術を、音源分離にも応用できることにいち早く着目した。
その技術の基本は、「私たち人間が日ごろからリンゴの形を経験により認識しながら見分ける仕組みに近いもの」であると光藤氏が説いている。ソニーの音源分離技術の場合、たとえばピアノ固有の音色や特徴的な周波数、時間変動をAIが学習して、複数の音が混ざっている音源からピアノのパートだけをきれいに分離するというものだ。
ソニーのR&Dセンターは、音源分離技術の国際コンペティション「Signal Separation Evaluation Campaign(SiSEC)」に参加して、世界に名だたる競合の研究所や企業のR&D部門と切磋琢磨しながら、2015年から三期連続でベストスコアを獲得してきた。
その後もソニー R&Dセンターが独自に技術研究を深めてきた成果は、今回商品化された「イノック・アーデン」のような音楽作品の制作に貢献したり、ほかの様々な用途にも使われている。
光藤氏は特に「低演算量で低遅延」な分離処理技術を確立したことが、ソニーの「AI Sound Separation」の大きな特徴なのだと話す。つまり、ストリーミング音源のリアルタイム処理にも対応できる音源分離技術なのだ。これをLINE MUSICがいち早く、2020年の8月から同社の音楽ストリーミングサービスに組み込んだ。歌詞サービスを提供する楽曲をLINE MUSICで選曲・再生すると、ボーカルのパートだけ音量レベルが下がり、ユーザーは歌詞を見ながらカラオケが楽しめる。この技術を応用すれば、ボーカルを活かしてピアノやギターの音だけを消すことも可能だ。バンドマンの楽器演奏の練習用にも人気を集めるのではないだろうか。
■1961年の録音からグールドのピアノだけを取り出す挑戦
ソニー・ミュージックレーベルズが発売した作品「イノック・アーデン」は、ナレーションと音楽伴奏によって構成される「メロドラマ=音声演劇」だ。元の作品はイギリス出身の俳優クロード・レインズを朗読に迎えて、1961年10月に録音された音源になる。当時はグールド15枚目のアルバムとしてリリースされた。
かたやソニー・ミュージックレーベルズでは俳優の石丸幹二を迎えて朗読企画作品をリリースしてきた。劇団四季を卒業した石丸幹二にとっても、数多く演じてきた朗読劇の中で特に「イノック・アーデン」は思い入れの深い作品だったという。「グールドのピアノに石丸の朗読を付けた作品を実現してみたい」という機運が、自然と各者の中で高まっていったのだと、当時の熱気をプロデューサーの小山哲史氏が振り返る。
本作の企画が立ち上がる当初、小山氏は2015年にグールドの作品としてリリースされていた「イノック・アーデン」のマスターテープを取り寄せた。小山氏はもともとピアノと朗読が別々のトラックに分離されているものと期待していたが、実際には同じスタジオ内でピアノと朗読を同時に “一発録り” した音源だった。録音に使われたすべてのマイクにピアノと朗読の音が混ざった状態で記録されているマスターだったのだ。
その後、しばらくの間作品の実現は頓挫したが、「ソニーが開発する音源分離という技術の完成度がとても高いらしい」といううわさを耳にした小山氏は、アメリカ・ペンシルヴァニア州のアイアン・マウンテン・スタジオに保管されていた3チャンネルのオリジナル・マスターから、デジタル・データに変換した音源を取り寄せ、ソニー R&Dセンター光藤氏の元へ足を運んだ。そこからいくつもの試行錯誤を繰り返しながら、ついにグールドと石丸の時空を越えた共演作品「イノック・アーデン」が6月2日に発売を迎えた。