Перейти до вмісту

Gemini (мовна модель)

Очікує на перевірку
Матеріал з Вікіпедії — вільної енциклопедії.
Gemini
Типfamily of large-language modelsd
РозробникGoogle DeepMind
Ліцензіяпропрієтарна ліцензія[d]
Вебсайтdeepmind.google/technologies/gemini/

Gemini — мультимодальна велика мовна модель, розроблена Google DeepMind, яка є наступником PaLM[en]. Про це було оголошено 6 грудня 2023 року.

Історія

[ред. | ред. код]

Розвиток

[ред. | ред. код]

На основній конференції Google I/O 10 травня 2023 року Google представила Gemini — передову велику мовну модель (LLM), створену її дочірньою компанією Google DeepMind. Ця нова модель представлена як більш просунута версія моделі PaLM 2, ще однієї розробки, яку було висвітлено на тому ж заході[1]. Сундар Пічаї, генеральний директор Google, зазначив, що Gemini все ще перебуває на ранніх стадіях розробки. Що відрізняє Gemini від інших LLM, так це її унікальний дизайн, який не є виключно текстовим, а є мультимодальним, що дає змогу обробляти різні типи даних[2]. Цей проєкт є результатом співпраці між DeepMind і Google Brain, які нещодавно об'єдналися під назвою «Google DeepMind».

В інтерв'ю Wired Деміс Хассабіс, генеральний директор DeepMind, наголосив на вражаючих можливостях Gemini. Хассабіс висловив переконання, що Gemini може перевершити ChatGPT OpenAI, який працює на GPT-4, у контексті, коли Google інтенсивно конкурує з такими розробками, як LaMDA та Bard. Він також підкреслив успіх програми DeepMind AlphaGo, відомої перемогою над чемпіоном ґо Лі Седолом у 2016 році. Хассабіс зазначив, що Gemini об'єднує потужність AlphaGo з іншими технологіями LLM від Google і DeepMind[3].

У серпні 2023 року видання «The Information» опублікувало звіт, у якому викладено дорожню карту Google для Gemini та вказано, що компанія планує випустити готовий продукт в кінці 2023 року. Згідно зі звітом, Google сподівалась перевершити OpenAI та інших конкурентів, поєднавши можливості розмовного тексту, наявні в більшості LLM, із генерацією зображень за допомогою ШІ, що дає змогу створювати контекстні зображення та адаптуватися до ширшого діапазону випадків використання. Як і у випадку з Bard, співзасновник Google Сергій Брін був викликаний після напіввиходу на пенсію, щоб допомогти розробити Gemini разом із сотнями інших інженерів Google Brain і DeepMind. Оскільки Gemini проходила навчання щодо транскрипції відео на YouTube, також були найняті юристи, щоб відфільтрувати будь-які потенційно захищені авторським правом матеріали. Ділан Пател і Деніел Нішбол з дослідницької фірми SemiAnalysis написали допис у блозі, у якому заявили, що запуск Gemini «поглине світ» і перевершить GPT-4, що спонукало генерального директора OpenAI Сема Альтмана висміяти дует на X (колишній Twitter). Ілон Маск, співзасновник OpenAI, підключився та запитав: «Цифри неправильні?».

З появою новин про неминучий випуск Gemini OpenAI прискорив свою роботу з інтеграції GPT-4 із мультимодальними функціями, подібними до Gemini. У вересні The Information повідомлялося, що кільком компаніям було надано ранній доступ до «ранньої версії» LLM, яку Google мав намір зробити доступною для клієнтів через службу Google Cloud Vertex AI. Видання також стверджувало, що Google озброює Gemini, щоб конкурувати як з GPT-4, так і з GitHub Copilot від Microsoft.

Запуск

[ред. | ред. код]

6 грудня 2023 року Пічаї та Хассабіс анонсували Gemini[4][5].

Початкова версія Gemini почала розгортатися того ж дня в чат-боті Google Bard для англійських налаштувань. Вона буде доступна у понад 170 країнах і територіях. Google заявила, що Gemini стане доступною для розробників через Google Cloud API з 13 грудня 2023 року. Більш компактна версія моделі підвищить пропоновані відповіді на повідомлення з клавіатури смартфонів Pixel 8. За словами компанії, Gemini буде розгорнуто в інших продуктах Google, таких як генеративний пошук, реклама та Google Chrome, у «найближчі місяці». Найпотужніша з усіх версій Gemini дебютує у 2024 році, очікуючи «вичерпної перевірки довіри та безпеки», кажуть у Google[6].

Вважається, що Gemini Ultra перевершує GPT-4, Claude 2 від Anthropic, Inflection-2 від Inflection AI, LLaMA 2 від Meta та Grok 1 від xAI у різноманітних галузевих порівняльних тестах[7], у той час, як кажуть, що Gemini Pro перевершила GPT-3.5. Gemini Ultra також була першою мовною моделлю, яка перевершила експертів-людей у 57-темовому тесті на розуміння багатозадачної мови (MMLU), набравши 90 %[8]. Gemini Pro стане доступною для клієнтів Google Cloud в AI Studio та Vertex AI 13 грудня 2023 року, тоді як Gemini Nano також буде доступною для розробників Android.

Відповідно до Указу 14110, підписаного президентом Джо Байденом у жовтні 2023 року, Google заявила, що поділиться результатами тесту Gemini Ultra з федеральним урядом Сполучених Штатів[9]. Подібним чином компанія вела переговори з урядом Великої Британії щодо дотримання принципів, викладених на саміті з безпеки ШІ в Блетчлі-парку в листопаді 2023 року.

Користувачі з ЄС та Сполученого Королівства не зможуть використовувати Gemini під час запуску через міркування захисту даних[10].

Оновлення версій

[ред. | ред. код]

Gemini 1.0

[ред. | ред. код]

Gemini 1.0 — стала першою флагманською моделлю попереднього покоління. Gemini 1.0 Ultra може обробляти до однієї години відео, 11 годин аудіо, кодові бази з більш ніж 30 тисячами рядків або більше 700 тисяч слів. У дослідженні Google ШІ успішно обробляв до 10 млн токенів[11].

Gemini 1.5

[ред. | ред. код]

Наприкінці лютого 2024 року Google представила сімейство моделей Gemini 1.5, а вже 22 березня 2024 року — надала доступ до моделі Gemini 1.5 Pro, яка може обробляти до 1 млн токенів[11].

Gemini 2.0

[ред. | ред. код]

У грудні 2024 року Google представила оновлену модель штучного інтелекту Gemini 2.0, яка обіцяє значні поліпшення порівняно з попередньою версією 1.5. Заявлено, що в новій моделі основна увага приділяється ефективності та продуктивності, зокрема можливості відтворення природного звуку і зображення, а також нових багаторежимних можливостей. Ці функції дадуть змогу створити ботів на базі ШІ, які зможуть виконувати завдання від імені користувача[12].

Примітки

[ред. | ред. код]
  1. Every major AI feature announced at Google I/O 2023 // ZDNET. — Дата звернення: 06.12.2023.
  2. What is Google Gemini: The next-gen language model that can do it all // Android Authority. — 2023. — 5 June. — Дата звернення: 06.12.2023.
  3. Google DeepMind CEO Demis Hassabis Says Its Next Algorithm Will Eclipse ChatGPT / Will Knight // Wired. — Дата звернення: 06.12.2023. — ISSN 1059-1028.
  4. Google Announces AI System Gemini After Turmoil at Rival OpenAI / Miles Kruppa // WSJ. — Дата звернення: 06.12.2023.
  5. Google lanza Gemini, un modelo de inteligencia artificial capaz de superar a los humanos en comprensión del lenguaje multitarea : [ісп.] / Raúl Limón // El País. — 2023. — 6 diciembre. — Дата звернення: 06.12.2023.
  6. Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT / Will Knight // Wired. — Дата звернення: 06.12.2023. — ISSN 1059-1028.
  7. Google DeepMind Unveils Its Most Powerful AI Offering Yet // TIME. — 2023. — 6 December. — Дата звернення: 07.12.2023.
  8. Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT / Will Knight // Wired. — Дата звернення: 07.12.2023. — ISSN 1059-1028.
  9. Байден дозволив вводити більше обмежень для тих, хто допомагає Росії ухилятися від санкцій. www.ukrinform.ua (укр.). 22 грудня 2023. Процитовано 15 лютого 2024.
  10. Google says new AI model Gemini outperforms ChatGPT in most tests / Dan Milmo // The Guardian. — 2023. — 6 December. — Дата звернення: 07.12.2023. — Цитата: «However, the Bard upgrade will not be released in the UK and Europe as Google seeks clearance from regulators». — ISSN 0261-3077.
  11. а б Google відкрила безкоштовний доступ до Gemini 1.5 Pro. (рос.) 25.03.2024, 12:07
  12. Google представила оновлену модель штучного інтелекту Gemini 2.0. // Автор: Лужна Софія. 11.12.2024

Посилання

[ред. | ред. код]