Débit provisionné

Le débit provisionné est un service sur abonnement mensuel à coût fixe qui réserve du débit pour les modèles d'IA générative compatibles sur Vertex AI. Pour réserver votre débit, vous devez spécifier le modèle et les emplacements disponibles dans lesquels il est exécuté.

Cette page explique quand utiliser le débit provisionné, comment il fonctionne et comment s'abonner.

Modèles compatibles

Les tableaux suivants présentent les modèles compatibles avec le débit provisionné, le débit pour chaque unité d'échelle d'IA générative (GSU) et les taux d'utilisation pour chaque modèle.

Modèles Google

Ce tableau indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles Google compatibles avec le débit provisionné. Les modèles Google sont mesurés en caractères par seconde, c'est-à-dire la somme des caractères d'entrée de votre requête et des caractères de sortie du texte généré pour toutes les requêtes, par seconde.

Modèle	Débit par GSU (caractères/seconde)	Incrément d'achat GSU minimal	Taux d'utilisation
`gemini-1.5-flash`	Fenêtre de contexte inférieure ou égale à 128 000 : 54 000 Fenêtre de contexte supérieure ou égale à 128 000 : 27 000	5	Fenêtre de contexte inférieure ou égale à 128 000 : 1 caractère d'entrée = 1 caractère 1 caractère de sortie = 4 caractères 1 image = 1 067 caractères 1 vidéo par seconde = 1 067 caractères 1 audio par seconde = 107 caractères	Fenêtre de contexte supérieure à 128 000 : 1 caractère d'entrée = 2 caractères 1 caractère de sortie = 8 caractères 1 image = 2 134 caractères 1 vidéo par seconde = 2 134 caractères 1 audio par seconde = 214 caractères
`gemini-1.5-pro`	800	5	Fenêtre de contexte inférieure ou égale à 128 000 : 1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères 1 image = 1 052 caractères 1 vidéo par seconde = 1 052 caractères 1 audio par seconde = 100 caractères	Fenêtre de contexte supérieure à 128 000 : 1 caractère d'entrée = 2 caractères 1 caractère de sortie = 6 caractères 1 image = 2 104 caractères 1 vidéo par seconde = 2 104 caractères 1 audio par seconde = 200 caractères
`gemini-1.0-pro`	8 000	5	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères 1 image = 20 000 caractères 1 vidéo par seconde = 16 000 caractères
`MedLM-medium`	2 000	5	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 2 caractères
`MedLM-large`	200	5	1 caractère d'entrée = 1 caractère 1 caractère de sortie = 3 caractères

Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.

Vous pouvez passer à de nouveaux modèles dès qu'ils sont disponibles. Pour en savoir plus sur la disponibilité et les dates d'abandon, consultez la section Modèles Google.

Anciens modèles Google

Consultez la section Anciens modèles compatibles avec le débit provisionné.

Modèles partenaires

Ce tableau indique le débit, les incréments d'achat et les taux d'utilisation pour les modèles partenaires compatibles avec le débit provisionné. Les modèles Claude sont mesurés en jetons par seconde, c'est-à-dire le nombre total de jetons d'entrée et de sortie pour l'ensemble des requêtes, par seconde.

Modèle	Débit par GSU (jetons/seconde)	Incrément d'achat GSU minimal	Taux d'utilisation
`Anthropic Claude 3.5 Sonnet`	350	25	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons
`Anthropic Claude 3 Opus`	70	35	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons
`Anthropic Claude 3 Haiku`	4 200	5	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons
`Anthropic Claude 3 Sonnet`	350	25	1 jeton d'entrée = 1 jeton 1 jeton de sortie = 5 jetons

Pour en savoir plus sur les emplacements compatibles, consultez la section Emplacements disponibles.

Quand utiliser le débit provisionné ?

Si l'un des critères suivants s'applique à votre cas d'utilisation, envisagez d'utiliser le débit provisionné :

Vos charges de travail critiques nécessitent systématiquement un débit élevé. La mesure du débit dépend du modèle.
Vous créez des applications de production d'IA générative en temps réel, telles que des chatbots et des agents.
Votre débit doit être supérieur à 20 000 caractères par seconde.
Vous souhaitez offrir une expérience cohérente et prévisible aux utilisateurs de vos applications.
Vous souhaitez avoir des coûts d'IA générative déterministes, en payant un prix mensuel fixe avec un contrôle des dépassements.

Le débit provisionné est l'une des deux méthodes de consommation de vos modèles d'IA générative. La seconde méthode est le paiement à l'usage, également appelé paiement à la demande.

Comment le débit provisionné est-il mesuré ?

Cette section explique les concepts d'unité d'échelle d'IA générative (GSU) et de taux d'utilisation. Le débit provisionné est calculé et facturé en fonction des GSU et des taux d'utilisation.

Une unité de scaling d'IA générative (GSU) est une mesure du débit de vos requêtes et de vos réponses. Ce montant spécifie le débit à provisionner pour un modèle.

Pour produire une unité standard pour tous les modèles, toutes les entrées et sorties sont converties en caractères d'entrée par seconde (débit) à l'aide de ratios spécifiques au modèle appelés taux d'utilisation.

Les différents modèles utilisent des quantités de débit différentes. Pour en savoir plus sur le montant minimal d'achat de GSU et les incréments pour chaque modèle, consultez la section Modèles compatibles et taux de consommation du présent document.

Cette équation montre comment le débit est calculé :

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Le débit calculé par seconde détermine le nombre de GSU dont vous avez besoin pour votre cas d'utilisation.

Exemple d'estimation de vos besoins de débit provisionné

Pour estimer vos besoins de débit provisionné, utilisez l'outil d'estimation de la console Google Cloud. L'exemple suivant illustre le processus d'estimation du débit provisionné pour votre modèle. La région n'est pas prise en compte dans les calculs d'estimation.

Consignez vos exigences.
1. Dans cet exemple, vous devez vous assurer que vous pouvez envoyer 2 000 caractères avec deux images et recevoir 300 caractères de sortie pour 10 requêtes par seconde en utilisant gemini-1.5-flash.
  
  Cette étape implique que vous comprenez votre cas d'utilisation, car vous avez identifié la taille de vos entrées et sorties, le nombre de requêtes par seconde (RPS) et le modèle que vous souhaitez utiliser.
2. Pour estimer votre débit, spécifiez votre modèle. Dans cet exemple, votre modèle est gemini-1.5-flash.
3. Spécifiez le type d'entrée et identifiez le taux d'utilisation. Utilisez le tableau des taux d'utilisation pour identifier le taux d'utilisation correspondant à votre type d'entrée.
  
  Le taux d'utilisation d'une image pour le modèle gemini-1.5-flash est de 1 067 caractères.
Calculez votre débit.
1. Multipliez le nombre d'images par le taux d'utilisation pour le type d'entrée de votre modèle spécifique.
  
  2 images * 1 067 caractères d'entrée par image = 2 134 caractères d'entrée
2. Le nombre total de caractères de sortie est de 300. Revenez au tableau des taux d'utilisation et recherchez le taux d'utilisation des caractères de sortie (quatre caractères par caractère de sortie) correspondant à votre modèle spécifique (gemini-1.5-flash).
  
  300 caractères de sortie x 4 caractères par caractère de sortie = 1 200 caractères d'entrée convertis
3. Additionnez vos totaux.
  
  2 000 caractères d'entrée + 2 134 caractères d'entrée convertis pour les images + 1 200 caractères d'entrée convertis pour la sortie = 5 334 caractères d'entrée convertis par requête
4. Multipliez les caractères par requête par le nombre de requêtes attendues par seconde afin d'obtenir le débit total par seconde.
  
  5 334 caractères d'entrée convertis par requête x 10 RPS = 53 340 caractères d'entrée convertis au total par seconde
Calculez vos GSU.
1. Les GSU correspondent au débit total par seconde divisé par le débit par GSU de la table des taux d'utilisation.
  
  53 340 caractères d'entrée convertis au total par seconde ÷ 54 000 caractères de débit par GSU = 0,988 GSU
2. L'incrément minimal d'achat de GSU pour gemini-1.5-flash est de 5, ce qui répond à votre exigence.

Éléments à prendre en compte avant de s'abonner

Pour vous aider à décider si vous souhaitez vous abonner au débit provisionné, consultez cette liste d'informations sur l'abonnement :

Vous ne pouvez pas annuler votre commande.

Votre achat de débit provisionné est un engagement, ce qui signifie que vous ne pouvez pas annuler la commande. Toutefois, vous pouvez augmenter le nombre de GSU achetés. Si vous souscrivez un engagement par accident ou si votre configuration pose problème, contactez votre responsable de compte Google Cloud pour obtenir de l'aide.
Vous pouvez renouveler automatiquement votre abonnement.

Lorsque vous envoyez votre commande, vous pouvez choisir de renouveler automatiquement votre abonnement une fois arrivé à échéance ou de le laisser expirer. Vous pouvez annuler le processus de renouvellement automatique. Pour annuler votre abonnement avant son renouvellement automatique, annulez le renouvellement automatique 30 jours avant le début de la période suivante.

Si vous avez besoin d'aide pour effectuer cette procédure, contactez votre représentant de compte Google Cloud.
Vous pouvez modifier la version ou la région de votre modèle avec préavis.

Le débit provisionné est activé après avoir choisi votre projet, votre région, votre modèle et votre version. Vous pouvez modifier la version de votre modèle dans la même région ou auprès du même diffuseur de modèle en envoyant un préavis de 10 jours ouvrés à votre responsable de compte Google Cloud. Par exemple, vous pouvez basculer entre les modèles Google. Vous pouvez basculer entre les modèles du partenaire A. Vous pouvez basculer entre les modèles du partenaire B. Vous ne pouvez pas basculer entre les modèles de Google, du partenaire A et du partenaire B.
Il n'y a pas de temps d'arrêt lorsque vous passez du paiement à l'usage au débit provisionné.

Il n'y a pas de temps d'arrêt lorsque vous passez d'un modèle à un autre pour une commande de débit provisionné. Toutefois, le délai de livraison du débit reste nécessaire.
Par défaut, le dépassement est facturé au tarif de paiement à l'usage.

Si votre débit dépasse le montant de votre commande de débit provisionné, les dépassements sont traités et facturés sous forme de paiement à l'usage. Vous pouvez contrôler les dépassements par requête. Pour en savoir plus, consultez la page Utiliser l'API REST.
Les requêtes ont la priorité.

Les requêtes des clients de débit provisionné ont la priorité et sont traitées avant les requêtes à la demande.
Vous devez vous engager pour une utilisation minimum et un paiement.

L'utilisation minimum dépend du modèle d'IA générative que vous sélectionnez. Toute utilisation excédant le taux de débit souscrit n'est pas garantie et sera prise en charge sur la base d'efforts raisonnables.
Le débit ne s'accumule pas.

Les débits inutilisés ne sont pas cumulatifs ni reportés sur le mois suivant.
Le débit provisionné est mesuré sur le nombre de caractères ou de jetons par seconde.

Le débit provisionné est mesuré en caractères ou en jetons par seconde, et non en requêtes par minute (RPM). Par conséquent, la mesure du débit provisionné dépend de la taille des requêtes et du nombre de requêtes par minute de votre cas d'utilisation.

Acheter du débit provisionné

Cette section fournit les autorisations dont vous devez disposer pour passer ou afficher une commande de débit provisionné, ainsi que les instructions pour passer et afficher vos commandes.

Autorisations

Pour vous abonner au débit provisionné, vous devez disposer de l'une des autorisations suivantes pour votre projet afin de pouvoir afficher et passer de nouvelles commandes.

aiplatform.googleapis.com/provisionedThroughputAdmin : spécifique au débit provisionné.
aiplatform.googleapis.com/admin : accorde des droits d'administrateur sur chaque ressource Vertex AI.

Ce rôle vous permet uniquement d'afficher vos commandes :

aiplatform.googleapis.com/viewer

Passer une commande de débit provisionné

Pour souscrire un abonnement au débit provisionné, procédez comme suit :

Console

Dans la console Google Cloud, accédez à la page du débit provisionné.
Accéder à la page "Débit provisionné"
Pour créer une commande, cliquez sur Créer.
Indiquez un nom de commande.
Sélectionnez le modèle.
Sélectionnez la Région.
Saisissez le nombre d'unités d'échelle d'IA générative (GSU) que vous devez acheter. Si vous devez estimer le nombre de GSU, cliquez sur l'outil d'estimation.
1. Sélectionnez votre modèle.
2. Saisissez le nombre de requêtes par seconde.
3. Saisissez le nombre de caractères d'entrée par requête.
4. Saisissez le nombre d'images d'entrée par requête.
5. Saisissez le nombre de secondes de vidéo par requête.
6. Saisissez le nombre de secondes d'audio par requête.
7. Saisissez le nombre de caractères de sortie par requête.
8. Si vous souhaitez utiliser les valeurs que vous avez saisies dans l'outil d'estimation, cliquez sur Utiliser les valeurs calculées.
Sélectionnez la durée.
Sélectionnez l'option de renouvellement.
Cliquez sur Continuer.
Dans la section Résumé, vérifiez les estimations de prix et de débit de votre commande. Lisez les conditions indiquées et accessibles dans les liens du formulaire.
Pour finaliser votre commande, cliquez sur Confirmer.

Suivi de la commande

Une fois que vous avez envoyé votre commande de débit provisionné, l'état de la commande peut apparaître comme suit :

En attente d'examen : vous avez passé votre commande. L'approbation dépend de la capacité disponible pour provisionner votre commande. Votre commande est donc en attente d'examen et d'approbation. Pour en savoir plus sur l'état de votre commande en attente, contactez votre responsable de compte Google Cloud.
Actif : Google a approuvé et provisionné votre commande, et la facturation commence.
Expiré : votre commande a expiré.

Afficher les commandes de débit provisionné

Pour afficher vos commandes de débit provisionné, procédez comme suit :

Console

Dans la console Google Cloud, accédez à la page du débit provisionné.
Accéder à la page "Débit provisionné"
Sélectionnez la Région. Votre liste de commandes s'affiche.

Utiliser le débit provisionné

Cette section explique comment contrôler les dépassements ou contourner le débit provisionné, et comment surveiller l'utilisation du débit provisionné.

Contrôler les dépassements ou contourner le débit provisionné

Utilisez l'API REST pour contrôler les dépassements lorsque vous dépassez le débit souscrit ou pour contourner le débit provisionné pour des requêtes spécifiques.

Lisez chacune des options pour déterminer ce que vous devez faire pour répondre à votre cas d'utilisation.

Comportement par défaut

Si vous dépassez le débit acheté, les dépassements sont facturés à la demande, au tarif de paiement à l'usage. Une fois que votre commande de débit provisionné est active, le comportement par défaut est automatiquement appliqué. Vous n'avez pas besoin de modifier votre code pour commencer à utiliser votre commande.

Cet exemple curl illustre le comportement par défaut.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utiliser uniquement le débit provisionné

Si vous gérez les coûts de manière à éviter la facturation à la demande, n'utilisez que le débit provisionné. Les requêtes qui dépassent le montant de la commande de débit provisionné renverront une erreur 429.

Cet exemple curl montre comment utiliser l'API REST pour utiliser uniquement votre abonnement de débit provisionné, auquel cas les dépassements renverront une erreur 429.

Définissez l'en-tête X-Vertex-AI-LLM-Request-Type sur dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utiliser uniquement le paiement à l'usage

On parle également d'utilisation à la demande. Les requêtes contournent la commande de débit provisionné et sont envoyées directement au paiement à l'usage. Cela peut être utile pour les tests ou les applications en cours de développement.

Cet exemple curl montre comment utiliser l'API REST pour contourner le débit provisionné et n'utiliser que le paiement à l'usage.

définir l'en-tête X-Vertex-AI-LLM-Request-Type sur shared ;

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Surveiller le débit provisionné

Vous pouvez surveiller l'utilisation de votre débit provisionné à l'aide des métriques de surveillance et par requête.

En-têtes de réponse

Si une requête a été traitée à l'aide du débit provisionné, l'en-tête HTTP suivant est présent dans la réponse. Cette ligne de code ne s'applique qu'à l'appel d'API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Métriques

Le débit provisionné peut être surveillé à l'aide d'un ensemble de métriques mesurées sur le type de ressource aiplatform.googleapis.com/PublisherModel. Chaque métrique peut être filtrée selon les dimensions suivantes :

type : input, output
request_type : dedicated, shared

Pour filtrer une métrique afin d'afficher l'utilisation du débit provisionné, utilisez le type de requête dedicated. Le préfixe de chemin d'accès d'une métrique est aiplatform.googleapis.com/publisher/online_serving. Par exemple, le chemin d'accès complet de la métrique /consumed_throughput est aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Les métriques Cloud Monitoring suivantes sont disponibles sur la ressource aiplatform.googleapis.com/PublisherModel :

Métrique	Description	Filtrer l'utilisation du débit provisionné
`/characters`	Distribution du nombre de caractères d'entrée et de sortie	Oui
`/character_count`	Nombre cumulé de caractères d'entrée et de sortie	Oui
`/consumed_throughput`	Débit consommé (tenez compte du taux d'utilisation) en caractères	Oui
`/model_invocation_count`	Nombre d'appels du modèle (requêtes de prédiction)
`/model_invocation_latencies`	Latences d'appel du modèle (latences de prédiction)
`/first_token_latencies`	Durée entre la réception de la requête et le premier jeton renvoyé
`/tokens`	Distribution du nombre de jetons d'entrée et de sortie
`/token_count`	Nombre cumulé de jetons d'entrée et de sortie

Étape suivante

Contactez votre responsable de compte Google Cloud pour passer une commande de débit provisionné ou pour augmenter le nombre de GSU sur une commande existante.
Pour en savoir plus sur la résolution de l'erreur 429 lorsque vous utilisez un quota partagé dynamique ou un débit provisionné, consultez Code d'erreur 429.
En savoir plus sur le quota partagé dynamique.