公開日: 2024 年 5 月 14 日、最終更新日: 2024 年 10 月 16 日
ウェブで AI モデルを使用して特徴を構築する場合、大規模なモデルにはサーバーサイド ソリューションを使用することがよくあります。これは生成 AI に特に当てはまります。生成 AI では、小規模なモデルでも、ウェブページのサイズの中央値の約 1, 000 倍の大きさになります。これは、モデルが数十から数百メガバイトになる他の AI ユースケースにも当てはまります。これらのモデルはウェブサイト間で共有されないため、各サイトはページの読み込み時にモデルをダウンロードする必要があります。デベロッパーとユーザーにとって実用的ではありません。
Google は、大規模言語モデル(LLM)などの AI モデルをブラウザに直接統合するように設計されたウェブ プラットフォーム API とブラウザ機能を開発しています。これには、Gemini ファミリーの LLM の最も効率的なバージョンである Gemini Nano が含まれます。これは、ほとんどの最新のデスクトップ パソコンとノートパソコンでローカルに実行するように設計されています。AI が組み込まれているため、ウェブサイトやウェブ アプリケーションは、独自の AI モデルをデプロイまたは管理しなくても、AI を活用したタスクを実行できます。
組み込み AI のメリット、Google の実装計画、このテクノロジーを活用する方法について説明します。
早期プレビュー版を入手
Google は、API の設計、ユースケースの実現、標準化に関する他のブラウザ ベンダーとの協議に役立てるために、皆様のご意見を必要としています。
早期プレビュー プログラムに参加して、初期段階の組み込み AI のアイデアについてフィードバックを提供し、ローカル プロトタイピングを通じて開発中の API をテストする機会を見つけましょう。
新しい API が利用可能になったときに通知を受け取るには、Chrome AI デベロッパー向け公開お知らせグループに参加してください。
ウェブ デベロッパー向けの組み込み AI のメリット
AI が組み込まれたブラウザは、基盤とエキスパート モデルを提供し、管理します。
独自のクライアントサイド AI の構築と比較して、組み込み AI には次の利点があります。
- デプロイの容易さ: ブラウザはモデルを配信する際に、デバイスの機能を考慮し、モデルの更新を管理します。つまり、ネットワーク経由で大規模なモデルをダウンロードまたは更新する責任はありません。ストレージの強制排除、ランタイム メモリ バジェット、サービング コストなどの課題を解決する必要はありません。
- ハードウェア アクセラレーションへのアクセス: ブラウザの AI ランタイムは、GPU、NPU、CPU にフォールバックするなど、利用可能なハードウェアを最大限に活用するように最適化されています。そのため、アプリは各デバイスで最高のパフォーマンスを発揮できます。
クライアントサイドで実行するメリット
AI を組み込んだアプローチでは、クライアントサイドで AI タスクを実行するのが簡単になります。これにより、次のようなメリットがもたらされます。
- 機密データのローカル処理: クライアントサイド AI により、プライバシー保護を強化できます。たとえば、機密データを扱う場合は、エンドツーエンドの暗号化を使用してユーザーに AI 機能を提供できます。
- 高速なユーザー エクスペリエンス: サーバーへのラウンドトリップを回避することで、ほぼ即時の結果を提供できる場合があります。クライアントサイドの AI は、実行可能な機能と最適でないユーザー エクスペリエンスの分かれ目となる可能性があります。
- AI へのアクセスの拡大: ユーザーのデバイスは、処理負荷の一部を肩代わりすることで、より多くの機能にアクセスできます。たとえば、プレミアム AI 機能を提供している場合は、クライアントサイド AI でこれらの機能をプレビューして、追加費用なしで潜在顧客にプロダクトのメリットをアピールできます。このハイブリッド アプローチは、特に頻繁に使用されるユーザーフローでの推論コストの管理にも役立ちます。
- オフライン AI の使用: ユーザーは、インターネットに接続していなくても AI 機能にアクセスできます。つまり、サイトとウェブアプリは、オフラインでも、接続が不安定な場合でも、想定どおりに動作します。
ハイブリッド AI: クライアントサイドとサーバーサイド
クライアントサイド AI はさまざまなユースケースに対応できますが、サーバーサイドのサポートが必要なユースケースもあります。
サーバーサイド AI は、大規模なモデルに適しており、幅広いプラットフォームとデバイスをサポートできます。
次に応じて、ハイブリッド アプローチを検討できます。
- 複雑さ: 具体的で取り組みやすいユースケースは、オンデバイス AI でサポートしやすいです。複雑なユースケースの場合は、サーバーサイドの実装を検討してください。
- 復元力: デフォルトでサーバーサイドを使用し、デバイスがオフラインの場合や接続が不安定な場合はデバイス上を使用します。
- 適切なフォールバック: AI が組み込まれたブラウザの導入には時間がかかり、一部のモデルが利用できない可能性があります。また、古いデバイスや性能の低いデバイスは、すべてのモデルを最適に実行するためのハードウェア要件を満たしていない可能性があります。そのようなユーザーにサーバーサイド AI を提供します。
Gemini モデルの場合は、バックエンド統合(Python、Go、Node.js、REST を使用)を使用するか、新しい Google AI client SDK for Web を使用してウェブ アプリケーションに実装できます。
ブラウザのアーキテクチャと API
Google は、Chrome の組み込み AI をサポートするために、基盤モデルとエキスパート モデルにアクセスしてデバイス上で実行するためのインフラストラクチャを作成しました。このインフラストラクチャは、文書作成サポートなどの革新的なブラウザ機能にすでに活用されています。
組み込みの AI 機能には、Translator API や Summarizer API などのタスク API を使用してアクセスできます。タスク API は、割り当てに最適なモデルに対して推論を実行するように設計されています。
Chrome では、これらの API は、ファインチューニングまたはエキスパート モデルを使用して Gemini Nano に対して推論を実行するように構築されています。ほとんどの最新デバイスでローカルに実行するように設計された Gemini Nano は、要約、言い換え、分類など、言語関連のユースケースに最適です。
また、Prompt API などの探索 API も提供されているため、ローカルでテストして、追加のユースケースを共有できます。
今後、モデルの重みを調整して組み込みモデルのパフォーマンスを向上させる探索ツールの LoRA API が提供される可能性があります。
組み込み AI を使用する場合
組み込み AI がデベロッパーやユーザーにもたらすメリットをいくつかご紹介します。
- AI を活用したコンテンツの利用: 要約、翻訳、分類、特性評価、ナレッジ プロバイダとして。
- AI を活用したコンテンツ作成: 文章作成の補助、校正、文法の修正、言い換えなど。
次のステップ
早期プレビュー プログラムに参加して、組み込み AI API を試してみましょう。
Language Detector API がオリジン トライアルで利用可能になり、さらにテストできるようになりました。
ウェブサイトやウェブアプリで Google のサーバーで Gemini Pro を使用する方法については、Google AI JavaScript SDK のクイックスタートをご覧ください。