人間の認識能力を活用
手持ちのイヤホンでも空間オーディオが楽しめる!?「錯聴」を活用したAudiiSionの立体音響技術がすごい!
■人間の認識能力を利用した立体音響への新しいアプローチ
Cear社「パヴェ」や鹿島建設「OPSODIS 1」のような立体音響技術が最近話題だ。両者ともクラウドファンディングで独自の立体音響スピーカーを販売して好調な結果を残している。
そして立体音響技術にまた別のアプローチをしているメーカーもある。それが本稿で取り上げるオーディージョンサウンドラボ(AudiiSion Sound Lab.)だ。
まずそのアプローチがユニークだ。一般的な立体音響技術は、HRTF(頭部伝達関数:Head Related Transfer Function)と呼ばれている音が耳に届く物理的な過程を数値化して複雑な処理するものだ。
これはいわば直球勝負だが、オーディージョンサウンドラボのアプローチは変化球ともいうべき異なる方法だ。HRTFは個々人に最適化が必要であり、処理が重いという難点がある。そこでHRTFを精密に計算・再現するのではなく、人間の持つ認識能力を利用して、より簡易に処理できるのではないかという発想からスタートしている。それにより誰が聞いても差が少なく、処理が軽いという利点を得ることができるという。
オーディージョンサウンドラボは製品開発をする会社ではなく、自らの技術・ライセンスをメーカーに提供することを目的とした会社である。2024年7月に行われたフジヤエービック主催の「ヘッドホン祭mini」にデモ出展を行っていた。
筆者はそこでAudiiSion SP技術のデモをスマホで聴いたのだが、スマホのスピーカーでも広がりのある立体的な音を感じることができた。そこで興味を持ち、直接オーディージョンサウンドラボに伺って開発者でありCEOの落合浩一郎氏およびCTOの岩村 宏氏にインタビューを行い、より詳しくデモを体験させてもらうことにした。
■インタビュー編 -脳が音を認識するメカニズムを研究
ーーまず会社としてのオーディージョンサウンドラボについて教えてください
オーディージョンサウンドラボは、立体音響関係のデジタル信号処理のアルゴリズムを製作している会社です。基本的には製品を自ら作るのではなく、知的資産を他の会社に提供するB2Bの会社です。その技術はオーディオメーカーの製品のファームウェアやPC・スマホのアプリ、ゲームソフトなどに組み込むことでユーザーに届けられます。
立体音響技術は通常、音が耳に届く物理的な特性であるHRTFを使用しますが、それを使用せずに立体音響を再現しようというところからスタートしました。
ーーHRTFを使わないとはどういう意味ですか?
HRTFを真面目に再現しようとすると演算に多大な手間がかかり、さらに個々人の測定が必要となります。HRTFを使用することで個人に最適化はできますが、他の人には合わないという問題が生じます。また耳の形は人によって異なりますし、左右も非対称です。さらにイヤホンの装着の仕方によっても音の聞こえ方が変わってしまいます。そこで別のアプローチをすることにしたわけです。
ーーそのアプローチとは具体的にはどのようなものでしょうか?
私たちのアプローチは、人間の認識の研究から始まりました。HRTFの測定は無響室で行いますが、実際の環境は無響室とは異なります。例えば部屋でTVを見ていると音は自然に前方定位します。役者が話すとその声が口元から聞こるように感じますが、これはHRTFとは無関係です。
人は耳で音を聞いているのではなく脳で音を認識しています。しかし入ってくる情報量は膨大で、脳はその処理量を減らそうとします。人間は複数の情報から取捨選択を行い。精緻な部分と粗い部分を使い分けて処理しているのです。
我々はそれは何かのヒントから来ているのではないかと考えました。音の様々な情報が立体的な認識のヒントになり得るからです。例えばエコーロケーションはイルカだけでのものではなく、盲目の人の中には口から「チッ、チッ」という音を発し、その反響音の変化で壁との距離がわかる人が実際にいます。近くの音は大きく、遠くの音は小さく聞こえます。ならば音を小さくしたら遠くに聞こえるのではないかということもヒントの一つです。こうしたヒントは数多くあります。
例えば人間は、音の大きさの相対比較は比較的得意ですが、絶対値な音圧レベルを判断するのは得意ではありません。では相対比較の変数を与えるというのもまた別のヒントになり得ます。
実際はこうした変数を200個程度(例えば周波数や時間など)用いています。その組み合わせは2の200乗通り近くあり膨大な数となりますが、それを絞り込むのが我々の作業です。
つまり着眼点はシンプルですが、実際の作業は困難です。我々はそのノウハウをたくさん有しているわけです。
■foobar2000へのプラグインにもなる処理の軽さが特徴
ーーそのオーディージョンサウンドラボの独自技術の利点はどういうものでしょうか?
まず、処理が軽いということです。HRTFを厳密に計算処理すると大変な負荷がかかります。通常、HRTF処理には100MIPSほどの演算コストが必要ですが、我々の方式ではイヤホン用は10MIPS程度、スピーカー用はわずか5MIPS程度ですみます(注:MIPSは1秒間に100万回の命令を実行する計算の単位)。
完全ワイヤレスイヤホンではBluetoothコーデックの計算処理がかなりの負荷を占めており、最近の高音質コーデックの普及によりこの傾向は加速しています。しかし、我々の方式なら、その限られた処理能力の隙間に立体音響処理を組み込むことができるわけです。実際にとあるメーカーの技術者と実装の話をしていて、「もっと重くても構わない」と言われたことさえあります。
リアルタイム処理が可能で、処理が少ないため遅延も最小です。専用チップでなくてもSoCに内蔵するDSPの上で十分に実現可能です。これは小型のコンシューマー機器に向いた利点です。複雑な処理を行っていないため音質に与える影響も最小限で済みます。
また我々の方式はハードウェアへの依存度が低いのも特徴です。立体音響のためにスピーカーを特殊な形に設計する必要はほとんどありません。実際、PCの内蔵スピーカーや低価格のワイヤレススピーカーでも十分な効果が得られます。
元となるアルゴリムの開発は数値計算に向いたMATLABを用いて行いましたが、同時に広く使われているC言語も用意しているため、さまざまなDSPのファームウェアに簡単に移植できます。移植作業は、すでに動作しているプログラムに付加する形であれば一週間もかからないと思います。実際に各プラグイン等を開発済みですが、いずれもAudiiSion EP/SPの部分は2、3日で動作させることができました。
現状は評価用にWindows上で動作するVSTプラグイン(スタンドアローン版)とiOS用のAUv3プラグインを用意しています。またfoobar2000のプラグインでも実現は可能でしょう。
■ヘッドホン向けのEPとスピーカー向けのSPを用意
ーーオーディージョンサウンドラボの技術の音響効果とはどのようなものですか?
まずイヤホンやヘッドホンでは、頭の中にこもるような頭内定位ではなく、左右の頭から離れた位置で聞こえる頭外定位が可能です。ただし1メートル以上、頭の前に聞こえるような前方定位は対応していません。これは個人差が大きいからです。
スピーカーの場合の利点は、HRTFを使用する方法に比べてベストポジションが自由になり、スイートスポットが広がります。HRTFではベストポジションが非常に限定され、移動したり顔の向きを変えたりすると効果が薄くなります。しかし、私たちの方式では部屋の中を自由に移動でき、比較的広い範囲でベストポジションやスイートスポットを確保することが可能です。これは音自体にヒントが含まれているからです。
また処理が軽いために遅延が少なく、音質に影響が少ないということも特筆できるでしょう。
ーーオーディージョンサウンドラボの技術にはAudiiSion EPとAudiiSion SPがありますが、違いを教えてください
AudiiSion EPはイヤホン・ヘッドホン向けの技術で、AudiiSion SPはスピーカー向けの技術です。それぞれのベースの考えは同じです。イヤホン・ヘッドホンでは左右の音が混じることがないのでバイノーラル・立体音響に向いています。そこでEPから技術開発をはじめました。そのうちにスピーカーにも応用できるのではないかと考えてSPに拡張をしました。
当たり前ですが、スピーカーは左右の音が混じるクロストークという現象があります。これは立体音響の実現には向いていません。AudiiSion SPとはAudiiSion EPにクロストークキャンセルを追加して立体音響を可能にする技術です。クロストークキャンセルは70年代から知られている技術ですが、普通キャンセルのためにはHRTFの演算処理が必要となります。つまり、我々はそこでHRTFを正面から処理する代わりに先ほど説明した相対差などのヒントを使うことにしました。
つまりすべて真面目にクロストークキャンセルをしないと言うことは、その分を人間の認識能力に任せているということです。
ーーオーディージョンサウンドラボの技術の今後の展開について教えてください
過去に実際に搭載された例としてはKONAMIのゲームである「Amazing Bomberman」があります。こうした7-8年に渡る研究開発の過程で、私たち開発者2人が同じように聞こえる音は、他の人々が聞いても個人差が小さいことが何百人もの試聴・デモで確認されています。そのため、2人の間でフィードバックを行うだけで評価が完了するため開発効率が極めて高くなるのです。これはおそらく、2人のHRTFが標準とは異なり、さらにお互い別方向に異なっていることが影響していると考えられます。これは全くの偶然ですが、私たちにとって大きなメリットとなっています。
また、何年にも渡って毎週のようにパラメータを更新してきた結果、最近では精度がさらに向上してきました。このため、今後はこの技術を積極的に展開していきたいと考えています。「ヘッドフォン祭」に出たのもその一つです。これからぜひ我々の技術に注目してください。
■音質チェック1 -ワイヤレススピーカーで聞くAudiiSion SP
続いてオーディージョンサウンドラボにおいて試聴を行った。まずスピーカー版のAudiiSion SPのデモを試聴した。環境としては普通のマンションの部屋で特別な音響処理はされていない。
スピーカーは特別なものではなく、2万円ほどのソニーのワイヤレススピーカーだ。左右スピーカー間は約14cmで普通に正面を向いている。もちろん立体音響向けではなく普通のスピーカーだ。これに接続されたPCにAudiiSion SP評価用のソフトウエアと音楽再生ソフトウェア(foobar2000)がインストールされていている。
foobar2000で再生した曲をAudiiSion SP評価用のソフトウェアで処理してBluetoothワイヤレスでスピーカーに出力する。AudiiSion技術の効果は、非可逆圧縮のBluetoothでも効果に差はないということだ。
まず雷鳴のデモを聞いてみた。はじめにAudiiSion SPの効果をオフにしてから聞くと、単にスピーカーの位置から聞こえてくる。普通のスピーカーの音だ。次にAudiiSion SPの効果をオンにすると、音場が大きく左右に広がり、さらに上下にも広がる。周囲に雷鳴が鳴り響いている感覚がよくわかる。ただし奥行き方向には変化は少ないようだ。
音楽ソースを聞いてみても音の立体感は同様に広がりがある。ただし今度は楽器音の音質の変化が少ないということに気がつく。普通は立体にすると音が拡散されて薄まるように感じることもあるが、AudiiSion SPでは楽器音自体の音質変化が少ない。これは興味深いと感じた。
しかし、もっと興味深いのは席を立って歩き回ってもその空間の広がり方が変わらないということだ。つまりスイートスポットがとても広いのだ。この点はこれまで試してきた立体音響デバイスとは異なる特徴だと感じた。
さらに面白いのはスピーカーをスタンドから取り外して机に無造作に転がしてもあまり立体感が変わらないということだ。これは立体音響に慣れている人ほど違和感を感じるかもしれないが、聞いてみると音自体にヒントが乗っているからだということだ。
つまりAudiiSion SPの特徴の一つはスピーカーに特別な要求は少ないということだ。一方でより安価で左右幅が少ない小型スピーカーに変えて試してみると立体効果は少なくなるので、まったくスピーカーに依存しないということではないようだ。
■音質チェック2 -イヤホンで聞くAudiiSion EP
次にイヤホン・ヘッドホン版のAudiiSion EPの試聴を行ってみた。PC環境は先ほどと同じで、1万円ほどの安価なUSB-DACをPCに接続した。試聴には自分のfinal「A8000」を有線接続で使用した。A8000はかなり優秀なハイエンドイヤホンだ。
音楽を聞いて試してみると、これもさきほどと似て音場が左右に広く聞こえ、さらに空間オーディオのように上下方向にも広がる。奥行方向の変化は少ない。
ここでもやはり興味深いのはAudiiSion EPの効果では音場が広がるが、楽器音の解像感・リアル感がほとんど変化しないということだ。楽器の音が広く拡散するのではなく、楽器の位置が移動する感じというのか、少し不思議な感覚すら覚えた。final A8000のような高性能イヤホンでも音質変化があまり感じられないということは興味深い。
まとめるとオーディージョンサウンドラボの技術は汎用性があり安価なスピーカーでも実装できるのが強みである。手軽に立体効果が得られる。しかし実のところ真価を発揮するのは高性能のオーディオ装置に応用するときなのかもしれないとも思った。
いずれにしても本格始動するというオーディージョンサウンドラボの今後の製品への展開が楽しみだ。