Gemini 1.5 Flash-8B sekarang sudah siap produksi

OKT 03, 2024
Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio
Shrestha Basu Mallick Group Product Manager Gemini API

Hari ini, Gemini 1.5 Flash-8B, varian Flash terbaru kami, sudah siap produksi dan hadir dengan:

  • Harga 50% lebih rendah (dibandingkan dengan 1.5 Flash)

  • Batas kecepatan 2x lebih tinggi (dibandingkan dengan 1.5 Flash)

  • Latensi yang lebih rendah pada prompt kecil (dibandingkan dengan 1.5 Flash)


Developer bisa mengakses gemini-1.5-flash-8b secara gratis melalui Google AI Studio dan Gemini API.


Model kami yang ringan, lebih kecil dan lebih cepat

Kami mengumumkan Gemini 1.5 Flash di I/O, model ringan kami yang dioptimalkan untuk kecepatan dan efisiensi. Selama beberapa bulan terakhir, Google DeepMind telah membuat kemajuan yang cukup besar dalam menjadikan 1.5 Flash semakin baik berdasarkan masukan developer dan menguji batasan kemampuannya.

Bulan lalu, kami merilis versi eksperimental Gemini 1.5 Flash-8B, varian 1.5 Flash yang lebih kecil dan lebih cepat. Sekarang, kami sangat antusias bisa menyediakannya secara umum untuk penggunaan produksi. Flash-8B nyaris menyamai performa model 1.5 Flash yang diluncurkan pada bulan Mei di berbagai tolok ukur. Performanya sangat baik pada tugas, seperti chat, transkripsi, dan terjemahan bahasa berkonteks panjang.

Rilis model kecil terbaik kami terus diinformasikan oleh masukan developer dan pengujian kami sendiri tentang hal-hal yang dapat dilakukan dengan model ini. Kami melihat potensi paling besar untuk model ini dalam tugas, mulai dari kasus penggunaan multimodal bervolume tinggi hingga tugas peringkasan berkonteks panjang.

Performance chart of the 1.5 Flash model launched in May across many benchmark

Biaya per kecerdasan terendah dibandingkan model Gemini lainnya

Dengan rilis stabil Gemini 1.5 Flash-8B, kami mengumumkan biaya per kecerdasan terendah dibandingkan model Gemini lainnya:

  • $0,0375 per 1 juta token input pada prompt <128K

  • $0,15 per 1 juta token output pada prompt <128K

  • $0,01 per 1 juta token pada prompt yang di-cache <128K


Untuk developer yang berada di level berbayar, penagihan akan dimulai pada hari Senin, 14 Oktober.

Harga baru ini, bersama dengan upaya yang telah kami lakukan untuk menekan biaya developer dengan 1.5 Flash dan 1.5 Pro, menyorot komitmen kami dalam memastikan developer memiliki kebebasan untuk membangun produk dan layanan yang mendorong dunia ke arah yang lebih baik.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Batas kecepatan 2x lebih tinggi untuk Flash-8B

Gemini 1.5 Flash-8B paling cocok untuk tugas-tugas sederhana dengan volume tinggi. Agar model ini bermanfaat semaksimal mungkin, kami menggandakan batas kecepatan 1.5 Flash-8B, yang berarti developer bisa mengirim hingga 4.000 permintaan per menit (RPM).

Selamat membangun dan nantikan update selanjutnya!