グーグルの音声アシスタント「Gemini ライブチャット」で何ができる? 「Google アシスタント」との違いとは

グーグルは人と同じように流暢な会話ができる音声アシスタントの「Gemini ライブチャット」をこのほど発表した。今後展開が予定されている拡張機能や、前からある音声アシスタントの「Google アシスタント」との違いについて紹介する。
Rick Osterloh senior vice president of devices and services at Alphabet Inc. during the Made By Google launch event in...
グーグルの新製品発表イベント「Made by Google」。8月13日、米カリフォルニア州マウンテンビューで。Photograph: David Paul Morris/Bloomberg; Getty Images

グーグルは8月中旬、スマートフォン「Google Pixel 9」から新しいワイヤレスイヤフォンまで、数多くの新製品を発表した。最新デバイスの機能を支えているのは、グーグルの人工知能アシスタント「Gemini」である。このチャットボットは今年初めに公開され、現在ではPixel 9シリーズのデフォルトのアシスタントとなり、現在世界中の何百万台ものAndroid搭載スマートフォンで利用できる。そして今回グーグルは「Gemini ライブチャット」(Gemini Live)と呼ばれる、チャットボットを新しい方法で使える製品を発表した。

Gemini ライブチャットはOpenAIの「GPT-4o」の競合製品である。GPT-4oでは人と話をするのと同じように、AIアシスタントと自然な会話ができる(少なくとも、そうなることを目指している)。Gemini ライブチャットは月額プラン「Gemini Advanced」(月額20ドル。日本では2,900円)の加入者が利用でき、言語は英語に対応している。この機能を使うには、アプリ版「Gemini」の右下にある小さな「Live」ボタンをタップする。数週間以内にiOSアプリにも機能を展開し、ほかの言語でも利用可能になる予定だ。

Gemini ライブチャットは「Google アシスタント」に少し手を加えただけのものではないと、グーグルでGeminiのエクスペリエンス担当のバイスプレジデントを務めるシシー・シャオは『WIRED』に語る。Gemini ライブチャットは生成AIを使用してゼロから構築し直したインターフェースなのだという。

「Google アシスタントを長年開発してきたなかで、ユーザーから多く寄せられていた要望がふたつあります」とシャオは話す。「ひとつ目は、もっと流暢で自然に話せるアシスタントがほしいという要望です。ユーザーはいつもの話し方を変えることなく普通に会話ができるアシスタントを求めていました。ふたつ目は、より高度な機能です。単純なタスクではなく、日常生活のなかで直面する問題を解決できるようなアシスタントが求められています」

リアルタイムでの受け答え

Geminiを起動すると、画面下に幻想的な光が浮かぶ空白の画面が表示される。スマートフォンがロック状態で画面が付いていない状態でも、AIアシスタントと話すことができる。また、グーグルの新しいワイヤレスイヤフォン「Google Pixel Buds Pro 2」を通じて話すことも可能だ。スマートフォンをバッグから取り出さずとも、ハンズフリーで会話できるというわけだ。音声は、声色や訛り、話し方が異なる10種類から好きなものを選べる。会話を終了すると、すべての内容が書き起こされ、Geminiのアプリからいつでも確認できる。

従来の音声アシスタントとは異なり、Gemini ライブチャットでは全体の体験を損なうことなく、AIの話を遮ることができる(Geminiの話は長くなる傾向にあるので便利な機能だ)。また、このアシスタントは、拡張機能を通じてほかのアプリと連携することを目指しているが、その多くはまだ提供されていない。

拡張機能を使うと、例えば、Gmailに届いたパーティーの招待状に書かれている時間と場所を自ら確認しなくとも、Gemini ライブチャットに質問して調べてもらえる。あるいはレシピを探し、Google Keepに必要な食材を買い物リストに追加するよう指示することもできる。グーグルは数週間内に、Google Keep、Google ToDo リスト、Utilities、Google カレンダー、YouTube Musicなどのアプリへの拡張機能を展開する予定だと伝えている。

また、グーグルは今後、5月の開発者会議で予告していたコンピュータビジョン技術「Project Astra」をGemini ライブチャットに搭載する予定だ。これが搭載されれば、スマートフォンのカメラを使用して、ユーザーが現実世界で目にしている物に対し、Geminiがリアルタイムで対応できるようになる。例えば、街でコンサートのポスターを見かけたら、Geminiにコンサートの日程をカレンダーに登録し、チケットの購入をリマインダーに入れるよう指示できるのだ。

双方向の会話に進化

これまでの音声アシスタントとの会話は、一方的に指示を出すだけのことが多かった。だからわたしは、Gemini ライブチャットとのやりとりに少し違和感があった。Google アシスタントやAlexaに天気予報を尋ねたり、ブラインドを開けてと指示したり、犬はセロリを食べられるかのどうかといった質問をしたりする体験から大きく進化している。これまでの音声アシスタントでは追加の指示を出すことはあっても、Gemini ライブチャットのように会話の流れを意識することはなかったのだ。

シャオは、仕事から帰宅するクルマの中でGemini ライブチャットとの会話を楽しんでいるそうだ。そして、Gemini ライブチャットにパリオリンピックとセリーヌ・ディオンが開会式で歌ったことについて尋ねたときのことを語った。「セリーヌ・ディオンが歌った曲について少し教えてくれる?」と質問すると、AIは曲の起源や作曲者、曲の意味について答えた。やりとりを通じてシャオは、セリーヌ・ディオンが中国語で歌えることを知ったという。

「とても驚きました」とシャオは話す。「これは、ユーザーがどのように新しい情報に触れられるか示すひとつの例です。従来の音声アシスタントでは難しかった会話を通じての探求や発見が、Gemini ライブチャットとのやりとりでなら可能になります。これはGeminiアシスタントで目指していることのほんの一端に過ぎません」

Gemini ライブチャットを試そうと、「夕食は何にしたらいいと思う?」と話しかけた。するとGeminiは、軽くてさっぱりしたものがいいか、それともボリュームのある食事がいいかと質問してきた。会話を続けるとGeminiがエビを使った料理を提案したので、わたしはエビアレルギーだと嘘をついた。すると今度はサーモンを使った料理を勧めてきた。サーモンは買っていないと言うと、「それなら、鶏胸肉に火を通してサラダに加え、ビネグレットドレッシングで軽く和えるのもいいかもしれません」と言われた。レシピを尋ねると、調理方法の説明が始まった。途中でGeminiの話を遮ったが、後でGeminiアプリに戻るとレシピを確認できた。

今後も何かについて学びたいときは同じように、Geminiが最初の質問に答えてからも会話を続ければいいということがわかった。とはいえ、それでもいくつか懸念点が残る。なぜ提示された情報に直接的な引用や出典元の表記がないのか? Geminiが提示するすべての情報を正しいものとして受け取っていいのか?この点についてシャオは、 Gemini ライブチャットでの会話を終了した後、書き起こされたテキストの下にある「G」の小さなアイコンをクリックして内容を確認し、「Google 検索」で正確な情報かどうかを調べられると説明している。

とはいえ、わたしは次第にこれが未来の検索のあり方だと思うようになった。質問をし、答えを得てからも、やりとりを続けるなかで知らなかったことを学べる。問題は、Geminiの話が長くなる傾向にあることだ。回答が冗長で、追加の質問をするまでにしばらく待たされることが多い。もちろん話を遮って話を進めることもできるが、それは気まずい。失礼じゃないか!

Google アシスタントはどうなった

GeminiとGemini ライブチャットに注目が集まっているが、「Google アシスタントはどうなったのか」と思っている人もいるかもしれない。「Gemini」のアプリでプロフィールのアイコンをタップすると、「Google アシスタント」に切り替えて以前の体験に戻す選択肢が表示されるが、この機能がいつまで提供され続けるかはわからない。現在、Google アシスタントにはできるが、Geminiにはできないことがいくつかあるので、特定のタスクをこなすにはアシスタントを切り替える必要がある。ただし、「これからますます、Geminiがそうしたタスクも単独でこなせるようになります」とシャオは話している。

また、今月初め、グーグルは新しいNest製品を発表した。その際、Google アシスタントはより自然な音声機能を備え、Geminiの大規模言語モデル(LLM)でいくつかの機能を強化することも発表していた。例えば、FedExの配達員が玄関に来たかどうかと質問すると、玄関の監視カメラの映像を解析して質問に答えられるようになる。また、動きの通知についても「人物を検知した」だけでなく、より詳細な状況説明ができるようになる。

つまり、ユーザーはふたつのアシスタントを利用できるということだが、グーグルはこの点に問題を感じていないようだ。Geminiは個人のアシスタントとして、ユーザー個人のデータにひもづいているカレンダーの予定やメールの招待に関する質問に回答すると、シャオは説明する。これに対し自宅では、より家庭向けのデバイスに対応しているGoogle アシスタントが家族全員の「共同アシスタント」となる。「リビングにあるホームスピーカーから、音声で個人のメールについて質問できることを人々は望んでいません。来客が『グーグル、ジュリアンに届いたメールについて教えて』と質問できてしまうのですから」

しかし、これはブランディング面で混乱を招きかねない。すでにGeminiのバリエーションは多く、すべてを把握するのが難しくなっているのだ(昨年プレビュー版が公開されたときの名称は「Bard」だったことも忘れないでほしい)。

これはまた、来客によるメールの盗み見を防ぐために、使用しているデバイスによって特定の機能が制限される可能性も示している。しかし、その場合、スマートフォンを部屋に置き忘れ、いつもスマートフォンのGeminiに指示しているタスクを、Nestのアシスタントに代わりにやってもらおうと思っても、アシスタントに拒否される可能性がある。それは不便ではないだろうか。

「ブランディングについてはまだ模索中で、開発についてもまだ初期段階にあります」とシャオは話す。「ブランディングはさておき、個人のスマートフォンでも家庭で使っているデバイスでも、ユーザーが優れたアシスタントに期待していることに応え、ユースケースにあった使い方を提供できるようにする必要があると考えています」

(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)

※『WIRED』による人工知能(AI)の関連記事はこちらグーグルの関連記事はこちら


Related Article
Demis Hassabis, chief executive officer of DeepMind Technologies Ltd.
グーグルが次世代AIアシスタント「Project Astra」を開発者会議「Google I/O」で発表した。人間と自然に対話し、テキストや音声、画像、動画にも対応するマルチモーダルなAIは、OpenAIの「GPT-4o」を用いたChatGPTに対するグーグルの“回答”でもある。
A foldable mobile phone and the backside of a flat mobile phone, showing the camera
グーグルのスマートフォン「Pixel 9」シリーズは、AIを活用した多くの撮影機能が搭載されている。「一緒に写る」や「イマジネーション」「オートフレーム」「ズームエンハンス」など、現実を“再構築”したともいえる新機能をさっそく試してみた。
A rendered image of a red Friend AI pendant
常に周囲の音に聞き耳を立てているペンダント型AIウェアラブルデバイスの「Friend」が登場した。仕事に役立つような機能はなく、いつも一緒にいて、友だちのように親しげなメッセージを送ってくれる端末だ。開発者のアヴィ・シフマンに話を訊いた。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」 好評発売中!

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る! 詳細はこちら