公開日 2023/09/24 07:00
Fire TVのコンテンツ検索もより高度に
現地で体験したAmazon「本気の挑戦」。Alexaと“人間レベル”のフリートークも、日本上陸に期待
山本 敦
Amazon デバイス&サービス事業部門は、毎年秋にAIアシスタントのAlexaを搭載する新製品と、Alexaに関連するサービスの発表会を開催してきた。
今年は5月に稼働を開始したばかりの、米国バージニア州アーリントンに構えるAmazonの第2本社「Metropolitan Park」でイベントを実施。ユーザーとの会話能力が向上するAlexaの新サービスなどを多数発表した。
日本に導入が決まっているディスプレイ付きスマートデバイスの「Echo Hub」や「Fire TV Stick 4K」シリーズの新製品については既報の通りだが、本稿では現地でイベントを取材した筆者が見た、米国から先行導入されるAlexaの最新技術と、日本導入が決まっていないEchoシリーズの面白いデバイスを中心に紹介したい。
Alexaの音声操作に対応するスマートディスプレイ「Amazon Echo Show 8」が第3世代の新製品にアップデートされる。価格は149.99ドル(約2.2万円)。
デザインが大きく変わり、スピーカーユニットを搭載する本体の背面側が丸みを帯びた。内部には2インチのフルレンジスピーカーが2基とパッシブラジエーターを内蔵する。発表会の会場でゆっくりとサウンドを視聴する機会は持てなかったが、本機は単体で空間オーディオが再生できるスピーカーだ。Echoシリーズの中ではフラグシップのEcho Studio以来となる。設置した場所のアコースティック環境にサウンドを自動で最適化する「ルームアダプテーション」も搭載する。
8インチのHDタッチディスプレイは周囲のベゼルを狭く設計。トップ中央に13MPのカメラを内蔵する。ビデオ通話時には被写体の人物を自動でセンタリングする「オートフレーミング」機能がある。
さらにフロント側に内蔵する赤外線近接センサーとコンピュータ視覚解析のアルゴリズムにより、端末が部屋の中にいるユーザーを認識して距離を把握。ユーザーが遠くにいる場合、近くにいる場合で画面に表示するコンテンツを出し分ける「Adaptive Content」が、AmazonのEchoシリーズに初めて搭載される。
2023年は年初から「ChatGPT」や「ジェネレーティブ(生成)AI」の話題が席巻している。AmazonのAlexaにも、まるで人と会話を交わしているような音声による賢いチャット機能が載る。名称は「Alexa, let's chat」。Alexaに「チャットしよう」と話しかけると、スキルが起ち上がるように生成AIによるチャットモードになる。2024年以降米国のユーザーには無料で機能を解放する。試験導入的な位置づけからスタートする機能だ。なお2014年に発売された最初のEchoシリーズ以降、AmazonのすべてのAlexa搭載スマートスピーカー/スマートディスプレイで使えるという。
発表会の壇上で、デバイス&サービス事業部 シニア・バイスプレジデントのデイブ・リンプ氏が「Alexa, let's chat」を実演した。その様子はAmazon NewsのYouTubeチャンネルにも動画で公開されている。
筆者も現場でリンプ氏による「やらせなし」のステージを見た。Alexaに対する音声入力が数回失敗することもあったが、それ以外はリンプ氏が話しかけたことにAlexaが素速く、そして正確な応答を返していた。筆者はネイティブ英語の発音がどうあるべきかよくわからないが、会話のやり取りがとても滑らかで、Amazonによる「Alexaの会話力が人間と話しているレベルまで向上する」ような体験という主張は、そんなに大げさな表現ではないと感じた。
この日のデモに登場したAlexaはリンプ氏の「好きなNFLのチーム」を事前に学習しており、リンプ氏が興味を持ちそうなフットボールチームの情報をセレクトしてリンプ氏に伝えた。
会話の合間に都度「アレクサ」「エコー」など、Alexaを呼び出すためのウェイクワードをリンプ氏が発声してないことにも注目したい。Alexaがユーザーと会話を交わすタイミングやテンポを、マイクやデバイスによってはカメラなど複数のセンサーから集めた情報を解析。円滑な会話を実現する新しいアルゴリズムにより、ウェイクワードを必要とせず、コマンド入力の待機状態を維持するようだ。リンプ氏が実演の際に「言いよどむ」ことがなかったので、Alexaはスムーズに会話のキャッチボールをつないでいた。これがもし、ユーザーが質問に迷ったり、ゆっくりと話す人だった場合にどうなるのか興味深い。
チャットの実演は、最後に「リンプ氏が同じチームを応援する友人たちに、次の試合の日に自宅で開催を予定するバーベキュー大会への招待状のメールを、Alexaに書いてもらう」というシナリオで締めくくった。
リンプ氏が「招待状のメールをつくって」とAlexaに伝えると、わずか数秒前後で完成したテキストをAlexaが音声で読み上げた。内容を確認して、リンプ氏のメールアドレスに下書きを送るところまでAlexaがやり遂げると会場に大きな拍手が沸いた。
リンプ氏は「最近、モバイルやPCブラウザにユーザーとの自由会話を実現したチャットAIを組み込んだり、クリエイターのために画像コンテンツを生成するジェネレーティブAIが話題を集めている。Amazonは家庭のスマートホーム端末で、ユーザーの皆様が快適に使えるAIを目指してきた。プライバシーと安全性も追求しながら、長く研究開発に取り組んできた」として、Alexaがスマートホームに最適化された最先端のAIであることを壇上で強調した。
Alexaが英語による自然会話に対応することは、実はAmazonが毎年秋に開催する発表会で数年前に伝えられている。生成AIブームが巻き起こった「今年こそは」と、注目する記者も大勢参加する舞台で、Amazonが実演を交えて堂々とした発表を行ったことは評価に値する。あとは2024年、まずは米国からローンチに注目するだけだ。
当然ながら「日本に導入される時期」も気になる。だが、案外それは遠くないのかもしれない。
発表会の日に、日本からイベントに参加した記者を集めてAmazonが開催したラウンドテーブルには、Amazonデバイス インターナショナル バイス・プレジデントのエリック・サーニオ氏が出席。Alexaの先端サービスなどの「日本への導入時期」についてコメントした。
「Amazonはひとつの言語で実現したAlexaサービスのスキルをベースに、他の言語にも速やかに対応させるための機械学習モデルをAlexa Teacher Modelとして確立している。新しいチャットサービスを含むAlexaの体験を日本語など、英語以外の言語に最適化することについて私はとても楽観的で前向きな展望を持っている」(サーニオ氏)
ホームロボットのASTROや、Ringブランドのホームセキュリティ向けドローンに比べると、入れ物がないぶんだけAlexaのローカライゼーションの方がよりハードルは低いのではないかと推察される。Amazonの積極的な展開を期待したい。
残念ながら日本発売についてのアナウンスがなかったデバイスがいくつかある。その中で筆者が注目した製品がAmazonのスマートアイウェア「Echo Frames」だ。Amazon Day 1 Editionプロダクトとして試験的に導入された初代機から数えると第3世代のEcho Framesになる。
外観がとても洗練された。いわゆる普通のレンズを装着するので、何かコンテンツを「見る」ための機能は有していない。オーディオ再生と音声コミュニケーション、Alexaの活用に用途を絞った比較的シンプルなデバイスだ。軽くてスタイリッシュなので、日ごろからメガネを愛用する筆者も抵抗感なく身に着けることができた。
価格は269.99ドル(約3.9万円)と、Echoシリーズのプロダクトとしては値が張るように思えるが、米国では眼科医による処方箋を取得すれば、度付きの交換レンズが購入できるようになるという。本格的にふだん使いのメガネにもなるスマートグラスならば、むしろお買い得だと思う。
発表会後のタッチ&トライ会場で実機のサウンドを試聴することもできた。シンプルなステレオ再生対応で、空間オーディオ再生の機能はないが、力強く切れ味があり、音場の広がりも豊かに感じられた。デモ会場が賑やかな場所だったが、「音漏れ」もユーザーに近寄らなければあまり気にならなかった。街を歩きながら音楽やポッドキャストの音声を楽しむ用途には十分使えると思う。本体にはマイクあり。マルチポイントにも対応しているので、ハンズフリー通話にも便利だ。内蔵バッテリーによる連続再生は約14時間とした。
モバイルのAlexaアプリには「Map View」という新機能が追加される。米国では今年の年末頃から導入する。
Map Viewは自宅にたくさんのAlexaに対応するスマートホーム機器を設置しているユーザーのため、Amazonが開発したサービスだ。Map Viewで部屋の立体スキャンを撮ってマップをつくり、スマートデバイスを配置する。マップからデバイスをタッチしてオン・オフを切り換えたり、ステータスが見られるようになる。
筆者も自宅に複数のEchoデバイスを置いているが、都度思いつきで付けた名前がわからなくなって、音声操作で使いたい時にAlexaアプリでまず名前を確認するといった不器用な使い方をしている。筆者が付けたデバイスの名前を知らない家族からも長らく不評を買っている。Map Viewがあれば、家族もスマートデバイスをもっと積極的に使ってくれそうだ。
Map ViewはAlexaアプリに追加して無料で楽しめるサービスだが、LiDARスキャナを搭載するiPhone 12 Pro以降のProシリーズにしか対応していない。そのため、恩恵にあずかれるユーザーのレンジが狭いのが難点だ。Amazonによる実験的な試みとして、今後はどのように使いやすくなるのか、米国以外の地域への対応も含めて機転を利かせたい。
Fire TV 4K Stickについては、発表会場でAlexa&Fire TV部門のバイスプレジデントであるダニエル・ラウシュ氏が実演を行った。新機能の「アンビエント・エクスペリエンス」のインプレッションに絞って報告しよう。
新しいFire TV 4K Stickシリーズは日本でも近く発売される。残念ながら「アンビエント・エクスペリエンス」は今年の年末に、米国からソフトウェアアップデートを通じてFire TVシリーズに投入される新機能なので、日本語ではすぐに使えない。
目玉の機能はふたつある。ひとつはジェネレーティブAIによる検索機能の強化。動画配信サービスから面白そうな作品を検索する時に、作品名やジャンル、俳優に監督など、ある程度の「目星」が付けられていれば現状のAlexaによる音声検索も含めて、Fire TVには機能が十分に揃っている。
ところがまったく当てもなく「何か面白そうなコンテンツ」を探す時には、手がかりがないため意外に時間がかかったり、本当に魅力的なタイトルに出会えないことも多い。
Fire TVのジェネレーティブAIを使った検索は、海外のエンターテインメント系オンラインデータベースであるIMDbの情報と連携して、例えば「Breaking Badで弁護士の役をやっていた俳優が出ている映画」「Better Call Saulに似た雰囲気の映画」のように、「映画オタク」の友だちにレコメンドしてもらうような感覚でFire TVを活用できる。
さらにある検索条件にヒットした作品リストに、追加の検索条件を音声で入力しながら絞り込むこともできる。例えば「プライムビデオで無料で観られるアクション映画。俺がまだ見ていない作品で、子どもや家族と一緒に見ても気まずいシーンがないやつ」といった、アドリブを効かせた検索にも対応する。
ラウシュ氏はジェネレーティブAIによる画像生成の新機能も壇上で披露した。こちらはユーザーがAmazonのクラウドフォトストレージに保存した静止画に、水彩画風、サイバーパンク風などのエフェクトを音声でAlexaに指示するだけで簡単に付けて楽しめるというものだ。AIによる画像生成というより、フォトショのフィルターをあてがうような感覚に近いと思う。
Amazonが2023年のイベントで発表したデバイスは、もちろんそれぞれにハードウェアだけでも魅力的な製品と言えるのだが、米国から先行導入される最先端のAI技術を投入したサービスと組み合わせることにより、一段と輝きを増す。
それぞれに「切っても切れない関係」であることは言うまでもなく、デモンストレーションやタッチ&トライの場所で見せたハードとサービスの連携が多くの記者を魅了した。筆者も「Alexaによる流ちょうな日本語のコミュニケーション」がどんな体験になるのか、1日も早く触れてみたい。シアトルの本社に続いて、第2本社にも会社の規模を拡張したAmazonによる「本気の挑戦」が生む結果がとても楽しみだ。
今年は5月に稼働を開始したばかりの、米国バージニア州アーリントンに構えるAmazonの第2本社「Metropolitan Park」でイベントを実施。ユーザーとの会話能力が向上するAlexaの新サービスなどを多数発表した。
日本に導入が決まっているディスプレイ付きスマートデバイスの「Echo Hub」や「Fire TV Stick 4K」シリーズの新製品については既報の通りだが、本稿では現地でイベントを取材した筆者が見た、米国から先行導入されるAlexaの最新技術と、日本導入が決まっていないEchoシリーズの面白いデバイスを中心に紹介したい。
■「Echo Show 8」は空間オーディオスピーカー
Alexaの音声操作に対応するスマートディスプレイ「Amazon Echo Show 8」が第3世代の新製品にアップデートされる。価格は149.99ドル(約2.2万円)。
デザインが大きく変わり、スピーカーユニットを搭載する本体の背面側が丸みを帯びた。内部には2インチのフルレンジスピーカーが2基とパッシブラジエーターを内蔵する。発表会の会場でゆっくりとサウンドを視聴する機会は持てなかったが、本機は単体で空間オーディオが再生できるスピーカーだ。Echoシリーズの中ではフラグシップのEcho Studio以来となる。設置した場所のアコースティック環境にサウンドを自動で最適化する「ルームアダプテーション」も搭載する。
8インチのHDタッチディスプレイは周囲のベゼルを狭く設計。トップ中央に13MPのカメラを内蔵する。ビデオ通話時には被写体の人物を自動でセンタリングする「オートフレーミング」機能がある。
さらにフロント側に内蔵する赤外線近接センサーとコンピュータ視覚解析のアルゴリズムにより、端末が部屋の中にいるユーザーを認識して距離を把握。ユーザーが遠くにいる場合、近くにいる場合で画面に表示するコンテンツを出し分ける「Adaptive Content」が、AmazonのEchoシリーズに初めて搭載される。
■Alexaとの会話がより自然になる最先端AI技術
2023年は年初から「ChatGPT」や「ジェネレーティブ(生成)AI」の話題が席巻している。AmazonのAlexaにも、まるで人と会話を交わしているような音声による賢いチャット機能が載る。名称は「Alexa, let's chat」。Alexaに「チャットしよう」と話しかけると、スキルが起ち上がるように生成AIによるチャットモードになる。2024年以降米国のユーザーには無料で機能を解放する。試験導入的な位置づけからスタートする機能だ。なお2014年に発売された最初のEchoシリーズ以降、AmazonのすべてのAlexa搭載スマートスピーカー/スマートディスプレイで使えるという。
発表会の壇上で、デバイス&サービス事業部 シニア・バイスプレジデントのデイブ・リンプ氏が「Alexa, let's chat」を実演した。その様子はAmazon NewsのYouTubeチャンネルにも動画で公開されている。
筆者も現場でリンプ氏による「やらせなし」のステージを見た。Alexaに対する音声入力が数回失敗することもあったが、それ以外はリンプ氏が話しかけたことにAlexaが素速く、そして正確な応答を返していた。筆者はネイティブ英語の発音がどうあるべきかよくわからないが、会話のやり取りがとても滑らかで、Amazonによる「Alexaの会話力が人間と話しているレベルまで向上する」ような体験という主張は、そんなに大げさな表現ではないと感じた。
■メールの下書きもAlexaがこなす
この日のデモに登場したAlexaはリンプ氏の「好きなNFLのチーム」を事前に学習しており、リンプ氏が興味を持ちそうなフットボールチームの情報をセレクトしてリンプ氏に伝えた。
会話の合間に都度「アレクサ」「エコー」など、Alexaを呼び出すためのウェイクワードをリンプ氏が発声してないことにも注目したい。Alexaがユーザーと会話を交わすタイミングやテンポを、マイクやデバイスによってはカメラなど複数のセンサーから集めた情報を解析。円滑な会話を実現する新しいアルゴリズムにより、ウェイクワードを必要とせず、コマンド入力の待機状態を維持するようだ。リンプ氏が実演の際に「言いよどむ」ことがなかったので、Alexaはスムーズに会話のキャッチボールをつないでいた。これがもし、ユーザーが質問に迷ったり、ゆっくりと話す人だった場合にどうなるのか興味深い。
チャットの実演は、最後に「リンプ氏が同じチームを応援する友人たちに、次の試合の日に自宅で開催を予定するバーベキュー大会への招待状のメールを、Alexaに書いてもらう」というシナリオで締めくくった。
リンプ氏が「招待状のメールをつくって」とAlexaに伝えると、わずか数秒前後で完成したテキストをAlexaが音声で読み上げた。内容を確認して、リンプ氏のメールアドレスに下書きを送るところまでAlexaがやり遂げると会場に大きな拍手が沸いた。
■スマートホームに最適化したAmazonの生成AI
リンプ氏は「最近、モバイルやPCブラウザにユーザーとの自由会話を実現したチャットAIを組み込んだり、クリエイターのために画像コンテンツを生成するジェネレーティブAIが話題を集めている。Amazonは家庭のスマートホーム端末で、ユーザーの皆様が快適に使えるAIを目指してきた。プライバシーと安全性も追求しながら、長く研究開発に取り組んできた」として、Alexaがスマートホームに最適化された最先端のAIであることを壇上で強調した。
Alexaが英語による自然会話に対応することは、実はAmazonが毎年秋に開催する発表会で数年前に伝えられている。生成AIブームが巻き起こった「今年こそは」と、注目する記者も大勢参加する舞台で、Amazonが実演を交えて堂々とした発表を行ったことは評価に値する。あとは2024年、まずは米国からローンチに注目するだけだ。
当然ながら「日本に導入される時期」も気になる。だが、案外それは遠くないのかもしれない。
発表会の日に、日本からイベントに参加した記者を集めてAmazonが開催したラウンドテーブルには、Amazonデバイス インターナショナル バイス・プレジデントのエリック・サーニオ氏が出席。Alexaの先端サービスなどの「日本への導入時期」についてコメントした。
「Amazonはひとつの言語で実現したAlexaサービスのスキルをベースに、他の言語にも速やかに対応させるための機械学習モデルをAlexa Teacher Modelとして確立している。新しいチャットサービスを含むAlexaの体験を日本語など、英語以外の言語に最適化することについて私はとても楽観的で前向きな展望を持っている」(サーニオ氏)
ホームロボットのASTROや、Ringブランドのホームセキュリティ向けドローンに比べると、入れ物がないぶんだけAlexaのローカライゼーションの方がよりハードルは低いのではないかと推察される。Amazonの積極的な展開を期待したい。
■思わず欲しくなったスマートグラス「Echo Frames」
残念ながら日本発売についてのアナウンスがなかったデバイスがいくつかある。その中で筆者が注目した製品がAmazonのスマートアイウェア「Echo Frames」だ。Amazon Day 1 Editionプロダクトとして試験的に導入された初代機から数えると第3世代のEcho Framesになる。
外観がとても洗練された。いわゆる普通のレンズを装着するので、何かコンテンツを「見る」ための機能は有していない。オーディオ再生と音声コミュニケーション、Alexaの活用に用途を絞った比較的シンプルなデバイスだ。軽くてスタイリッシュなので、日ごろからメガネを愛用する筆者も抵抗感なく身に着けることができた。
価格は269.99ドル(約3.9万円)と、Echoシリーズのプロダクトとしては値が張るように思えるが、米国では眼科医による処方箋を取得すれば、度付きの交換レンズが購入できるようになるという。本格的にふだん使いのメガネにもなるスマートグラスならば、むしろお買い得だと思う。
発表会後のタッチ&トライ会場で実機のサウンドを試聴することもできた。シンプルなステレオ再生対応で、空間オーディオ再生の機能はないが、力強く切れ味があり、音場の広がりも豊かに感じられた。デモ会場が賑やかな場所だったが、「音漏れ」もユーザーに近寄らなければあまり気にならなかった。街を歩きながら音楽やポッドキャストの音声を楽しむ用途には十分使えると思う。本体にはマイクあり。マルチポイントにも対応しているので、ハンズフリー通話にも便利だ。内蔵バッテリーによる連続再生は約14時間とした。
■複数のスマートデバイスを使うユーザーの福音「Map View」
モバイルのAlexaアプリには「Map View」という新機能が追加される。米国では今年の年末頃から導入する。
Map Viewは自宅にたくさんのAlexaに対応するスマートホーム機器を設置しているユーザーのため、Amazonが開発したサービスだ。Map Viewで部屋の立体スキャンを撮ってマップをつくり、スマートデバイスを配置する。マップからデバイスをタッチしてオン・オフを切り換えたり、ステータスが見られるようになる。
筆者も自宅に複数のEchoデバイスを置いているが、都度思いつきで付けた名前がわからなくなって、音声操作で使いたい時にAlexaアプリでまず名前を確認するといった不器用な使い方をしている。筆者が付けたデバイスの名前を知らない家族からも長らく不評を買っている。Map Viewがあれば、家族もスマートデバイスをもっと積極的に使ってくれそうだ。
Map ViewはAlexaアプリに追加して無料で楽しめるサービスだが、LiDARスキャナを搭載するiPhone 12 Pro以降のProシリーズにしか対応していない。そのため、恩恵にあずかれるユーザーのレンジが狭いのが難点だ。Amazonによる実験的な試みとして、今後はどのように使いやすくなるのか、米国以外の地域への対応も含めて機転を利かせたい。
■Fire TVが複雑な検索に対応。見たくなるコンテンツが探しやすくなる
Fire TV 4K Stickについては、発表会場でAlexa&Fire TV部門のバイスプレジデントであるダニエル・ラウシュ氏が実演を行った。新機能の「アンビエント・エクスペリエンス」のインプレッションに絞って報告しよう。
新しいFire TV 4K Stickシリーズは日本でも近く発売される。残念ながら「アンビエント・エクスペリエンス」は今年の年末に、米国からソフトウェアアップデートを通じてFire TVシリーズに投入される新機能なので、日本語ではすぐに使えない。
目玉の機能はふたつある。ひとつはジェネレーティブAIによる検索機能の強化。動画配信サービスから面白そうな作品を検索する時に、作品名やジャンル、俳優に監督など、ある程度の「目星」が付けられていれば現状のAlexaによる音声検索も含めて、Fire TVには機能が十分に揃っている。
ところがまったく当てもなく「何か面白そうなコンテンツ」を探す時には、手がかりがないため意外に時間がかかったり、本当に魅力的なタイトルに出会えないことも多い。
Fire TVのジェネレーティブAIを使った検索は、海外のエンターテインメント系オンラインデータベースであるIMDbの情報と連携して、例えば「Breaking Badで弁護士の役をやっていた俳優が出ている映画」「Better Call Saulに似た雰囲気の映画」のように、「映画オタク」の友だちにレコメンドしてもらうような感覚でFire TVを活用できる。
さらにある検索条件にヒットした作品リストに、追加の検索条件を音声で入力しながら絞り込むこともできる。例えば「プライムビデオで無料で観られるアクション映画。俺がまだ見ていない作品で、子どもや家族と一緒に見ても気まずいシーンがないやつ」といった、アドリブを効かせた検索にも対応する。
ラウシュ氏はジェネレーティブAIによる画像生成の新機能も壇上で披露した。こちらはユーザーがAmazonのクラウドフォトストレージに保存した静止画に、水彩画風、サイバーパンク風などのエフェクトを音声でAlexaに指示するだけで簡単に付けて楽しめるというものだ。AIによる画像生成というより、フォトショのフィルターをあてがうような感覚に近いと思う。
Amazonが2023年のイベントで発表したデバイスは、もちろんそれぞれにハードウェアだけでも魅力的な製品と言えるのだが、米国から先行導入される最先端のAI技術を投入したサービスと組み合わせることにより、一段と輝きを増す。
それぞれに「切っても切れない関係」であることは言うまでもなく、デモンストレーションやタッチ&トライの場所で見せたハードとサービスの連携が多くの記者を魅了した。筆者も「Alexaによる流ちょうな日本語のコミュニケーション」がどんな体験になるのか、1日も早く触れてみたい。シアトルの本社に続いて、第2本社にも会社の規模を拡張したAmazonによる「本気の挑戦」が生む結果がとても楽しみだ。
- トピック
- Amazon