公開日 2023/07/18 12:29
先日開催されたポタフェスのトップウイングサイバーサウンドグループのブースにおいて、音楽再生ソフト「Volumio」の最新ベータ版を見ることができた。これは先日のVolumioの発表会でもアナウンスされていたが、検索にAIを採用した点が新しい。具体的には最近話題の生成AIのような自然言語に近いプロンプト(指示文)を検索欄で使用して検索が可能という機能のことだ。
この機能に興味を持って、その後Volumio開発者であるミケランジェロ氏とメールしてこの機能の詳細について聞くことができた。その結果、オーディオと今話題のChatGPTとの興味深い関係がわかってきた。
このVolumioの新しいAI機能は「Volumio AI」と呼ばれるもので、この6月からベータ版がリリースされている。「Volumio AI」は先に述べたAI検索機能である「Supersearch」の他にも、アーティスト名やアルバム名をAIで関連づける「Related Artists and Albums」、曲が終了した時に似たような曲を続けて再生する(ラジオ機能とも呼ばれる)「Infinity Playback」の3つのAI支援機能から構成されている。これらの機能は「Related Artists and Albums」以外はVolumio Premiumユーザーのみに提供されるが、ChatGPT使用料などの追加料金はない。
これらの機能の中でも注目すべきはAI検索機能である「Supersearch」だ。このAI検索機能は最近話題のOpenAIであるChatGPTのAPIをVolumioに組み込んだものである。この機能は通常の検索と切り替えて使用することができる。これは検索バーの先頭にトグルスイッチが新設されたので、この切り替えによって「Supersearch」機能を使用することができる。
従来の検索では曲名の一部やジャンル名などの文字列をキーワードとして入力し、その文字列がデータベース中のメタデータの文字と一致するかどうかで検索していた。このChatGPTを応用した「Supersearch」モードにするとChatGPTで会話する時のように自然言語のプロンプト(指示文)で検索指示ができるようになる。
これは例を書いたほうが早いだろう。例えば“a long piece of music with dramatic and quiet parts alternating with dynamic parts”(静かなパートと動的なパートが繰り返される、ドラマティックな長い楽曲)という指示をした。これはプログレッシブロックを念頭においた指示だが、あえてジャンル名を使用せずに特徴を記述してみたわけだ。その結果が下記のスクリーン画像の通りだ。
まさに思った通りの検索結果が得られている。ちょっと驚くほどだ。プログレッシブロックの代表曲が並び、特に検索順位一番のクリムゾンの「エピタフ」はこの記述のイメージにぴったりの曲だ。ちなみに試しにApple Musicの検索欄に同じプロンプトを入力してみると単に「見つかりません。もう一度お試しください。」との表示がなされてしまう。
この技術の背景についてミケランジェロ氏から詳しく話を聞いた。まずVolumioはクラウドベースのメタデータのデータベースをこの二年ほど採用しているそうだ。これはVolumio開発者の間では“metavolumio”と呼称されているとのこと。この“metavolumio”クラウドデータベースはアーティスト名やアルバム情報、バイオグラフィーなどが登録されている。メタデータに強いオーディオ向けのソフトウェアとしては日本ではRoonがつとに知られているが、実のところVolumioもその点では相当な実力がありそうだ。
そしてChatGPTが巷で話題になった時に、彼らはこの“metavolumio”クラウドデータベースにChatGPTを融合できないかと考えたという。しかしながら実装を試みるといくつかの問題が持ち上がったそうだ。それは他のAI応用システムでも耳にすることだが、まず“hallucinate(幻覚)”と呼ばれる、AIが明らかな誤答をするという問題がある。これは最近生成AIの話題でもよく取り上げられる問題の一つだ。またChatGPTのAPIの反応がとても遅いという問題もあったという。
これらの問題に対して、Volumioの開発者たちはChatGPTだけに頼らずに他のネット上のメタデータソースを対照させて正確性を上げるという手法を考案したという。いわばハイブリッドAI検索と言えるこうした工夫により、正確性だけではなく反応速度も向上させることができたそうだ。また面白いことにユーザーが入力するプロンプト自体を学習させることでさらに精度と反応速度を高めているという。これらの手法を主にクラウド側に適用することで、ユーザー側はファームウエアの更新が必要ないという利点も生まれた。
そしてこのAI機能はユーザーのライブラリの全てを対象として、SpotifyやQobuzなどのストリーミングサービスにおいても機能するように実装ができたということだ。
単に話題のAIを応用したというだけではなく、正確さを上げるために大変な努力をしたということがうかがえる話だ。Volumioユーザーはこの機能の公開を楽しみに待っていてほしいと思う。また今後オーディオの分野でもAIの応用が進んでゆく際に、その試金石ともなりうる試みとして注目すべき機能であると言えるだろう。
Volumioのベータ版で使用可能
「ChatGPT」を活用した新しい音楽レコメンド機能。自然な会話で楽曲検索が可能に
佐々木喜洋楽曲検索に「AI」を活用、Volumioのベータ版が公開
先日開催されたポタフェスのトップウイングサイバーサウンドグループのブースにおいて、音楽再生ソフト「Volumio」の最新ベータ版を見ることができた。これは先日のVolumioの発表会でもアナウンスされていたが、検索にAIを採用した点が新しい。具体的には最近話題の生成AIのような自然言語に近いプロンプト(指示文)を検索欄で使用して検索が可能という機能のことだ。
この機能に興味を持って、その後Volumio開発者であるミケランジェロ氏とメールしてこの機能の詳細について聞くことができた。その結果、オーディオと今話題のChatGPTとの興味深い関係がわかってきた。
このVolumioの新しいAI機能は「Volumio AI」と呼ばれるもので、この6月からベータ版がリリースされている。「Volumio AI」は先に述べたAI検索機能である「Supersearch」の他にも、アーティスト名やアルバム名をAIで関連づける「Related Artists and Albums」、曲が終了した時に似たような曲を続けて再生する(ラジオ機能とも呼ばれる)「Infinity Playback」の3つのAI支援機能から構成されている。これらの機能は「Related Artists and Albums」以外はVolumio Premiumユーザーのみに提供されるが、ChatGPT使用料などの追加料金はない。
これらの機能の中でも注目すべきはAI検索機能である「Supersearch」だ。このAI検索機能は最近話題のOpenAIであるChatGPTのAPIをVolumioに組み込んだものである。この機能は通常の検索と切り替えて使用することができる。これは検索バーの先頭にトグルスイッチが新設されたので、この切り替えによって「Supersearch」機能を使用することができる。
従来の検索では曲名の一部やジャンル名などの文字列をキーワードとして入力し、その文字列がデータベース中のメタデータの文字と一致するかどうかで検索していた。このChatGPTを応用した「Supersearch」モードにするとChatGPTで会話する時のように自然言語のプロンプト(指示文)で検索指示ができるようになる。
これは例を書いたほうが早いだろう。例えば“a long piece of music with dramatic and quiet parts alternating with dynamic parts”(静かなパートと動的なパートが繰り返される、ドラマティックな長い楽曲)という指示をした。これはプログレッシブロックを念頭においた指示だが、あえてジャンル名を使用せずに特徴を記述してみたわけだ。その結果が下記のスクリーン画像の通りだ。
まさに思った通りの検索結果が得られている。ちょっと驚くほどだ。プログレッシブロックの代表曲が並び、特に検索順位一番のクリムゾンの「エピタフ」はこの記述のイメージにぴったりの曲だ。ちなみに試しにApple Musicの検索欄に同じプロンプトを入力してみると単に「見つかりません。もう一度お試しください。」との表示がなされてしまう。
ChatGPT以外にも他のメタデータソースをハイブリッドさせて正確性を向上
この技術の背景についてミケランジェロ氏から詳しく話を聞いた。まずVolumioはクラウドベースのメタデータのデータベースをこの二年ほど採用しているそうだ。これはVolumio開発者の間では“metavolumio”と呼称されているとのこと。この“metavolumio”クラウドデータベースはアーティスト名やアルバム情報、バイオグラフィーなどが登録されている。メタデータに強いオーディオ向けのソフトウェアとしては日本ではRoonがつとに知られているが、実のところVolumioもその点では相当な実力がありそうだ。
そしてChatGPTが巷で話題になった時に、彼らはこの“metavolumio”クラウドデータベースにChatGPTを融合できないかと考えたという。しかしながら実装を試みるといくつかの問題が持ち上がったそうだ。それは他のAI応用システムでも耳にすることだが、まず“hallucinate(幻覚)”と呼ばれる、AIが明らかな誤答をするという問題がある。これは最近生成AIの話題でもよく取り上げられる問題の一つだ。またChatGPTのAPIの反応がとても遅いという問題もあったという。
これらの問題に対して、Volumioの開発者たちはChatGPTだけに頼らずに他のネット上のメタデータソースを対照させて正確性を上げるという手法を考案したという。いわばハイブリッドAI検索と言えるこうした工夫により、正確性だけではなく反応速度も向上させることができたそうだ。また面白いことにユーザーが入力するプロンプト自体を学習させることでさらに精度と反応速度を高めているという。これらの手法を主にクラウド側に適用することで、ユーザー側はファームウエアの更新が必要ないという利点も生まれた。
そしてこのAI機能はユーザーのライブラリの全てを対象として、SpotifyやQobuzなどのストリーミングサービスにおいても機能するように実装ができたということだ。
単に話題のAIを応用したというだけではなく、正確さを上げるために大変な努力をしたということがうかがえる話だ。Volumioユーザーはこの機能の公開を楽しみに待っていてほしいと思う。また今後オーディオの分野でもAIの応用が進んでゆく際に、その試金石ともなりうる試みとして注目すべき機能であると言えるだろう。
- トピック
- ネットワークオーディオプレーヤー
- ネットオーディオ