La semana pasada, lanzamos una versión actualizada experimental de Gemini 1.5 Pro (0801) que ocupó el primer lugar en la tabla de clasificación de LMSYS, tanto para consultas de texto como multimodales. Nos entusiasmó tanto la respuesta inmediata a este modelo que elevamos los límites de prueba. Pronto tendremos más novedades.
Hoy, anunciamos una serie de mejoras en AI Studio y la API de Gemini:
1.5 Flash es nuestro modelo de Gemini más popular entre los desarrolladores que desean crear casos de uso de alto volumen y baja latencia, como resúmenes, categorización, comprensión multimodal y más. Para hacer que este modelo sea aún más económico, a partir del 12 de agosto, reduciremos el precio de entrada en un 78%, a USD 0.075/1 millón de tokens, y el precio de salida en un 71%, a USD 0.3/1 millones de tokens para solicitudes por debajo de 128,000 tokens (con descuentos en cascada en el nivel de >128,000 tokens, así como en el almacenamiento en caché). Con estos precios y herramientas, como el almacenamiento en caché de contexto, los desarrolladores deberían tener grandes ahorros de costos para compilar con las capacidades de contexto largo y multimodal de Gemini 1.5 Flash.
Estamos ampliando la comprensión de idiomas en los modelos Gemini 1.5 Pro y Flash para cubrir más de 100 idiomas, por lo que los desarrolladores de todo el mundo podrán solicitar y recibir resultados en el idioma que elijan. De esta manera, se deberían eliminar los motivos por el cual el modelo deja de generar tokens en el “language” a través de la API de Gemini.
Los usuarios de Google Workspace ahora pueden acceder a Google AI Studio sin tener que habilitar ninguna configuración adicional de forma predeterminada, lo que desbloquea el acceso sin fricciones para millones de usuarios. Los administradores de la cuenta seguirán teniendo el control para administrar el acceso a AI Studio.
Completamos la implementación del ajuste de texto en Gemini 1.5 Flash para todos los desarrolladores a través de la API de Gemini y Google AI Studio. El ajuste permite a los desarrolladores personalizar los modelos base y mejorar el rendimiento de las tareas proporcionando al modelo datos adicionales. De esta manera, se reduce el tamaño del contexto de las indicaciones, la latencia y, en algunos casos, el costo, al tiempo que aumenta la precisión del modelo en las tareas.
Nuestra documentación para desarrolladores es fundamental para la experiencia de compilación con la API de Gemini. Hace muy poco, publicamos una serie de mejoras, actualizamos el contenido, la navegación y la apariencia, y publicamos una referencia de la API renovada.
Pronto tendremos muchas más mejoras en la documentación, así que sigue enviándonos tus comentarios.
La API de Gemini y AI Studio ahora admiten la comprensión de PDF tanto a través del texto como de la visión. Si el PDF incluye gráficos, imágenes u otro contenido visual no textual, el modelo utiliza las capacidades multimodales nativas para procesar el PDF. Puedes probarlo a través de Google AI Studio o en la API de Gemini.
En las últimas semanas, lanzamos muchas mejoras en AI Studio, incluida la revisión de las combinaciones de teclas, de modo que ahora es posible arrastrar y soltar imágenes en la IU, reducir el tiempo de carga ~50%, agregar sugerencias rápidas y mucho más.
Los desarrolladores son nuestra prioridad en relación con el trabajo en la API de Gemini y Google AI Studio, así que sigue creando y compartiendo tus comentarios con nosotros a través del foro de desarrolladores de la API de Gemini.