トップページへ戻る

ニュース

HOME > ニュース > Gadgetニュース

公開日 2022/12/19 16:41
音を絵で表すスペクトログラムを学習

入力テキストを音楽にするAI「Riffusion」公開。文字を画像化し音に変換

Munenori Taniguchi
音楽を生成するAIというのはすでに何種類か存在するが、Seth Forsgren氏とHayk Martiros氏が趣味のプロジェクトとして開発した「Riffusion」は、テキストの構文をもとに音の視覚的な表現であるスペクトログラムを作成し、それをオーディオとして再生するという、一風変わったAIモデルだ。

テキスト入力で画像を生成するAIとしては、拡散モデルを使った「DALL・E 2」が少し前に話題になった。そのDALL・E 2と同じ種類の「Stable Diffusion 1.5」が、この音楽生成AIのベースとなっている。

音を画像で表現するスペクトログラムは、X 軸で時間、Y 軸で音の周波数を表し、色で音の振幅を表現する。ForsgrenとMartirosは、サウンドを表現するスペクトログラムのサンプルを大量に作成し、その画像にblues guitar、jazz piano、afrobeatなどといった、関連する音楽を示すワードを紐付けた。

そして、これを使ってAIモデルをトレーニングすることで、ある音が「どのようなものか」「どのように再現したり組み合わせられるか」などといったことが次第にわかり、スペクトログラムと拡散モデルによって、音色を他の音色に変えるようなことも可能になったという。

Riffusionのウェブページでは、画面の左側に、入力されたテキストによって生成されたスペクトログラムが連続して表示され、それをもとにしたオーディオをリアルタイムで再生するようになっている。音楽スタイルを組み合わせてこれまでにない音楽ジャンルを生み出すことも可能だ。

ただ、自分で入力したテキストでは思ったような音楽が出力されないこともある。そのときは、テキスト入力窓の左にあるサイコロのアイコンをクリックすれば、プリセットされた構文が表示されるのでこれを実行してみると良いだろう。きっと、ああなるほどな、と思える音楽が再生できるはずだ。

Forsgren氏は「Haykと私は単に音楽が好きなもの同士というだけだったので、Stable DiffusionというAIがオーディオに変換できるほど、ちゃんとしたスペクトログラムを生成できるのかもわからなかった」とTechCrunchに述べ「ひとつのアイデアが次のアイデアへと次々につながっていった」結果、Riffusionができあがったとしている。

音楽生成AIモデルはRiffusionが初めてというわけではない。少し前にはロンドンのAIスタートアップHarmonaiが、やはりStable Diffusionをベースに拡散モデルを使った「Dance Diffusion」なる音楽生成AIを公開している。また仕組みは違うが、2020年にはOpenAIが、ニューラルネットワークで音楽を生成する「Jukebox」を発表していた。さらにノンストップで音楽を生成するSoundrawのようなサービスもすでに存在する。

RiffusionはこれらのAIに比べると、もっとホビーの領域にあるものであり、生成される音楽もまだまだリスニング用途に耐えるものではない。それでも潜在拡散モデルの応用例としては、注目を集めそうだ。

Source: Riffusion
via: Ars Technica

新着クローズアップ

クローズアップ

アクセスランキング RANKING
1 楽天ブラックフライデーでJBLの超人気サウンドバー「BAR 1000/800」が激安!プロも驚く革新的モデルはどんな音を鳴らす?
2 評論家が厳選!マランツ「MODEL M1」でPolk Audio/KEF/TAD/Harbethのスピーカーを鳴らす
3 ビクター新ワイヤレスヘッドホン「HA-S99N」速攻レビュー! 評論家が「もう驚きでしかない」と高評価した魅力とは?
4 ボーズ、McIntosh Groupを買収。マッキントッシュ、ソナス・ファベールが傘下に
5 レグザが100型クラス大画面4Kテレビを拡充する理由とは? 目黒蓮の特別コメントも
6 パナソニック「2023年度 優秀ご販売店様謝恩会」を開催。21店が栄誉に輝く
7 山之内 正氏によるエソテリック×アキュフェーズ×マランツ比較試聴会、「ハイエンドオーディオ&アクセサリーショウ2024」で開催
8 オーディオファイル待望の物量投入型プリメインアンプ!デノン「PMA-3000NE」をクオリティチェック
9 B&Wの音は “信頼に値する重要な指標”。音元出版の新試聴室に「802 D4」が導入されたワケ
10 新開発ユニットを巧みに操る懐深いサウンド。ELAC「Debut 3.0」フロア型/ブックシェルフ型を聴く
11/22 10:41 更新

WEB