O Gemini 1.5 Flash-8B já está pronto para produção

OUT 03, 2024

Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio

Shrestha Basu Mallick Group Product Manager Gemini API

Hoje, o Gemini 1.5 Flash-8B, nossa mais recente variante do Flash, está pronto para produção e oferece:

Preço 50% mais baixo (em comparação com o 1.5 Flash)

Limites de utilização 2 vezes mais altos (em comparação com o 1.5 Flash)

Menor latência em prompts pequenos (em comparação com o 1.5 Flash)

Os desenvolvedores podem acessar o gemini-1.5-flash-8b gratuitamente via Google AI Studio e API Gemini.

Nosso modelo leve, menor e mais rápido

No Google I/O, anunciamos o Gemini 1.5 Flash, nosso modelo leve, otimizado para velocidade e eficiência. Nos últimos meses, o Google DeepMind fez progressos consideráveis, tornando o 1.5 Flash ainda melhor com base no feedback dos desenvolvedores e testando os limites do possível.

No mês passado, lançamos uma versão experimental do Gemini 1.5 Flash-8B, uma variante menor e mais rápida do 1.5 Flash. Agora, temos o prazer de disponibilizá-la para uso em produção. O Flash-8B tem desempenho quase igual ao do modelo 1.5 Flash lançado em maio em muitos comparativos de mercado. Seu desempenho é especialmente bom em tarefas como chat, transcrição e tradução de idiomas em contexto longo.

Nosso lançamento dos melhores modelos pequenos da categoria continua a ser informado pelo feedback dos desenvolvedores e por nossos próprios testes de possibilidades com esses modelos. Vemos o maior potencial para o modelo em tarefas que variam de casos de uso multimodais de alto volume a tarefas de resumo em contexto longo.

Performance chart of the 1.5 Flash model launched in May across many benchmark

O menor custo por inteligência de qualquer modelo Gemini

Com a versão estável do Gemini 1.5 Flash-8B, anunciamos o menor custo por inteligência de qualquer modelo Gemini:

US$ 0,0375 por 1 milhão de tokens de entrada em prompts <128K

US$ 0,15 por 1 milhão de tokens de saída em prompts <128K

US$ 0,01 por 1 milhão de tokens em prompts em cache <128K

Para os desenvolvedores no nível pago, o faturamento começa na segunda-feira, dia 14 de outubro.

Esse novo preço, juntamente com o trabalho que já fizemos para reduzir os custos para desenvolvedores com o 1.5 Flash e o 1.5 Pro, destaca nosso compromisso de garantir que os desenvolvedores tenham a liberdade de criar produtos e serviços para melhorar o mundo.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Limites de utilização 2 vezes mais altos para o Flash-8B

O Gemini 1.5 Flash-8B é mais adequado para tarefas simples e de maior volume. Para tornar esse modelo o mais útil possível, estamos dobrando os limites de utilização do 1.5 Flash-8B, o que significa que os desenvolvedores podem enviar até 4 mil solicitações por minuto (RPM).

Agora é só partir para a diversão e começar a programar! Acompanhe o blog para ficar por dentro de outras atualizações.

postado em: