<山本敦のAV進化論 第137回>
日本に「音声操作」は根付くか? 多くの音声認識デバイスを開発、Cerevo 岩佐氏に聞く未来像
■「Lumigent」や「1/8 タチコマ」に搭載される技術
これまでCerevoが発売・発表してきた製品のうち約半分は、岩佐氏がアイデアを起こしたもの。残りの1/4が社内スタッフの発案、1/4が社外パートナーからの提携オファーをベースにかたちにしたものだという。年内に発売を予定している“ロボットデスクライト”「Lumigent」も岩佐氏が企画した製品だ。
音声認識技術を搭載するLumigentは、ユーザーが「Hi,Lumi(ハイ、ルミ)」と話しかけることで起動する。ランプを点灯して明るさを調節したり、アームの角度変更も声でコントロールできるのが特徴だ。
発売に向けて開発が進むLumigentには、アマゾンの音声認識技術である「Alexa Voice Service(AVS)」の搭載も予定している。また「Cerevoの製品を愛用いただいている方々は、作り手が思いもつかないようなユニークな活用を行っているケースもあるため、スタンドアローンでも幅広い用途に対応できるよう、独自に音声認識エンジンも積んでいます」と岩佐氏が説く。
これに加えて、Alexaによるネットワーク経由の音声コントロールも使えるようになる予定。LumigentはAlexa搭載のスマートスピーカーなどに連携しながら動かせるよう「Alexa Skill Kit(ASK)」も対応予定としている。Alexa搭載デバイスの日本上陸はまだスケジュールの見込みが立っていないため、その利便性はイメージしづらいところもあるが、先行導入されているアメリカでは既に大きなブームになっている。
「当社のLumigentも2017年1月のCESで発表するため、昨年の夏から仕込んできた製品です。音声認識技術自体は、多くの業界関係者が2017年にブレイクすると予想していました。そのブームが日本に『どう来るのか』というところにも注目です。実際に使ってみると、Alexaの音声認識はとても精度が高いことがわかります。自然な言葉で話しかけて、コマンドを正しく認識するAlexaに馴染んでくると、手を使わずに家電機器を操作できることがとても便利に感じられてきます。音声コマンドを認識できて、モーターやサーボを内蔵して物理的に動く家電と組み合わせれば、今までにないものが作れるのではというアイデアからLumigentが生まれました」(岩佐氏)。
Cerevoには話題の音声認識技術を搭載する製品がもう1つある。アニメ『攻殻機動隊 STAND ALONE COMPLEX』に登場するAI搭載の思考戦車“タチコマ”を1/8サイズで実現した「うごく、しゃべる、並列化する。1/8タチコマ」(以下:1/8 タチコマ)だ。
本製品はアニメやゲーム、映画などの劇中に登場するキャラクターやアイテムに、家電の先端テクノロジーを注入して実物化するCerevoの「S2R(From screen to the real world)」プロジェクトの第2弾となるスマート・トイだ。ちなみにプロジェクトの第1弾として先行発売されたアイテムは、アニメ『PSYCHO-PASS サイコパス』に登場するアイテム「ドミネーター」である。
1/8 タチコマ最大のハイライトは、タチコマと会話ができること。攻殻機動隊 S.A.C.でタチコマの声を演じた声優の玉川砂記子氏が吹き込んだ600以上の音声パターンを収録。ユーザーがタチコマに話しかけた言葉を認識して、自然な日常会話を返せるという。
その音声認識は、様々な言語認識の技術をうまく組み合わせることによって実現されている。その仕組みをひも解くと、まずユーザーが発生した音声をGoogleの音声認識エンジンでテキスト化し、次にJetrunテクノロジーが開発する語彙認識エンジン「TrueTALK」で意味のある言葉に変換する。
その言葉をコマンドとして認識すると、タチコマが手を動かしながら「おはようございます!」「いってらっしゃーい」と応えてくれたり、AI(エーアイ)社の音声合成技術によって玉川氏の声をつなぎ、「今日の天気は曇りのち晴れ」ともう少し複雑な内容の答えも返してくれる。
攻殻機動隊の劇中に登場するタチコマたちは互いの体験や知識を「並列化」する機能を持っているが、これも1/8 タチコマで再現されているという。例えばタチコマに「りんご」を見せると、他のタチコマのユーザーが覚えさせたりんごに関する「甘い」「美味しい」などの情報を“並列化”されているデータベースから引き出して、「りんごでしょ?」「りんごは甘いですよ」などと答えてくれるのだ。
その仕組みは、本体に搭載するカメラがキャプチャーした“りんご”の画像をマイクロソフトのコグニティブ・サービスが認識。クラウド上の情報と照らし合わせ、その物体が何であるかを解析し、帰ってきた結果のデータを合成された玉川氏の声で発話するという流れだ。