13.12.2023
22426

Gemini от Google – новый вид искусственного интеллекта

Юлия Заблоцька
автор ApiX-Drive
Время прочтения: ~38 мин

Пока эксперты разных рангов ломают копья в горячих дискуссиях о необходимости продолжения экспериментов с искусственным интеллектом, ускорения его развития и об уровне угрозы, нависшей над человечеством из-за него, корпорация Google решила не терять время впустую и не дожидаться обгона конкурентами. В декабре 2023 года она сообщила о запуске новой модели ИИ – Gemini. Кстати, первые упоминания о ней прозвучали еще в мае, на презентации I/O 2023.

Содержание:
1. Gemini – революционная инновация в ИИ
2. В чем уникальность нового ИИ
3. Обучение модели
4. Сферы применения Gemini
5. Версии Google Gemini
6. Gemini VS GPT-4
7. Интеграции
8. Проблемы и недостатки
9. Подведем итоги
***

В прошлом году Google уступала своему основному конкуренту OpenAI в сфере ИИ, зато теперь у нее есть хорошие шансы доказать, что ее продукт не только лучший в своей категории, но и способен кардинально изменить наше взаимодействие с искусственным интеллектом. Разработчики планируют охватить возможностями новинки практически весь бизнес поискового гиганта и утверждают, что она превзошла популярную модель GPT-4 от OpenAI и даже экспертов-людей по результатам ряда тестов уровня интеллекта. Из нашей статьи вы узнаете, что представляет собой Gemini, для чего и где используется, в чем заключается его уникальность и многое другое.

Gemini – революционная инновация в ИИ

Модель ИИ Gemini – инновационный продукт, обладающий уникальной способностью обрабатывать информацию разных типов: текст, видео, аудио и программный код. При этом с аудио и видео она справляется так же хорошо, как и с текстом.

Эра Gemini


Основные умения:

  • делает выводы на базе изученных данных, выполняет перевод текстов, ведет диалог;
  • решает задачи, пользуясь математическим мышлением;
  • генерирует программный код и создает документацию;
  • распознает и понимает изображения, видео и аудио.

Этот искусственный интеллект выдает более сложные размышления, отвечает на непростые вопросы и понимает гораздо больше нюансов информации, чем его предшественник Bard. Работая в режиме многозадачности, он может извлекать самые ценные и важные данные из сотен тысяч документов. Кроме того, Gemini 1.0 оснащен обновленным инструментом AlphaCode 2, благодаря которому модель понимает, объясняет и генерирует программный код высокого качества на самых распространенных языках – Java, C++, Python и Go. Она демонстрирует отличные результаты в решении задач по программированию, выходящих за рамки простого кодинга и включающих элементы теоретической информатики и высшей математики. Все это дает Google веские основания полагать, что их модель поможет совершить прорывы во множестве сфер, от науки до экономики и финансов.

По словам представителей компании, Gemini изначально обучался работе с разными форматами информации, а не осваивал дополнительный функционал после запуска основного, как другие модели. В качестве примера работы новинки они представили видеоролик, где чат-бот Bard на базе Gemini помогает студенту выполнить домашнее задание по физике. В качестве вводных данных учащийся загружает в него фото вопросов, написанных на листе бумаги. Изучив их, ИИ дает пошаговые ответы с уравнениями.

Одно из конкурентных преимуществ искусственного интеллекта Gemini – высокая адаптивность к любым устройствам. Его можно будет использовать практически везде, начиная от простого смартфона и заканчивая крупными центрами обработки данных.

В чем уникальность нового ИИ

Представители Google утверждают, что Gemini – новаторская модель ИИ, потенциал которой, как мы уже упоминали, позволит опередить GPT-4 от OpenAI и живых экспертов. Весь спектр ее возможностей базируется на двух основных чертах – мультимодальности и человечности.

Создать действительно эффективный и привлекательный для пользователей мультимодальный ИИ можно только путем слияния разных моделей искусственного интеллекта. Языковая модель, компьютерное зрение, обработка графов и звука, программирование и кодирование – все это нужно интегрировать между собой и грамотно согласовать, чтобы достичь полной синергии. Так, если сильно упростить, выглядит разработка мультимодального ИИ. Это очень сложная, монументальная задача, и Google удалось ее решить, создав Gemini. Более того, корпорация собирается пойти еще дальше и вывести эту концепцию на беспрецедентный уровень.

С мультимодальностью разобрались, теперь – о человечности. Причина сногсшибательного успеха практически любого генеративного ИИ заключается в имитации машиной того, что делает человек. О чем именно идет речь? Люди не фрагментируют свою деятельность на задачи, не зависящие друг от друга: коммуникацию, кодинг, написание отчетов, графическое творчество. Они могут заниматься всем этим одновременно. Например, в процессе создания рисунка вы звоните коллеге и уточняете некоторые детали изображения, после чего пишете в мессенджер своему руководителю и отправляете ему отчет о проделанной работе за месяц. Человеческий мозг способен одномоментно воспринимать, интерпретировать и понимать данные разных форматов: текст, речь, звуки и изображения. Благодаря этому, мы осознаем окружающую нас среду, реагируем на раздражители и стимулы, а также находим инновационные и нестандартные способы решения задач. Gemini от Google получил ту же способность, приблизившись таким образом еще на шаг к человеку.

Обучение модели

Для обучения Gemini корпорация Google задействовала рекордные вычислительные мощности, использовав самые прогрессивные обучающие чипы TPUv5. Ее система тензорных процессоров TPUv5p – единственная технология в мире, которая обеспечивает одновременную работу 16 384 чипов. Этот сверхмощный ускоритель ИИ предназначен для центров обработки данных, где обучаются и запускаются крупномасштабные генеративные модели. Именно он дал Google возможность наделить такой массивный продукт, как Gemini, максимумом знаний и умений.

В основе обучения любой модели ИИ лежат не только мощность чипов и их количество, но и данные. Без них ничего не выйдет. А вот в этой сфере Google практически нет равных. По данным консалтинговой компании SemiAnalysis, коллекция данных этой корпорации, содержащих только код, оценивается приблизительно в 40 триллионов токенов. Это количество эквивалентно сотням петабайт (для наглядности можете представить себе текст миллионов книг). Один такой комплект Google в 4 раза превышает объем всех данных (кодовых и некодовых), которые были использованы для обучения ChatGPT-4.

Главный исполнительный директор Alphabet Inc. и Google Сундар Пичаи и генеральный директор дочерней компании Google DeepMind Демис Гассабис считают появление Gemini огромным скачком в развитии ИИ, который затронет почти все продукты корпорации.

Сферы применения Gemini

Искусственный интеллект сегодня активно внедряется во многих сферах: промышленности, технологиях, образовании, науке, бизнесе. Gemini найдет применение в таких областях:

  • Компьютерное зрение (выявление объектов и аномалий, обработка и понимание 3D-сцены).
  • Наука о геопространственных данных (круглосуточный мониторинг, объединение информации, полученной из нескольких источников, ее анализ и структурирование).
  • Охрана здоровья (профилактическая медицина, персонализация системы здравоохранения, биосенсоры).
  • Компьютерно-интегрированные и интеллектуальные технологии (LLM, синтез данных, передача системам предметных знаний, расширение диапазона возможностей принятия решений на основе данных).

Версии Google Gemini

Версии Gemini


Мы уже отмечали, что Gemini – гибкая модель, обладающая способностью работать на любом устройстве: от огромного центра обработки данных до обычного смартфона. Для достижения такой масштабируемости Google выпустила ее в 3 версиях, отличающихся размерами и функционалом:

  • Nano;
  • Pro;
  • Ultra.

Nano

Gemini Nano – самая маленькая модель. Лучше всего она подходит для решения задач, требующих помощи ИИ, непосредственно на устройстве, без подключения к внешнему серверу. Примеры таких задач: подведение итогов текста, предложение ответа в приложении чата. Кроме удобства, эта модель ИИ гарантирует пользователям сохранение конфиденциальности их данных.

Свяжите сервисы между собой без программистов за 5 минут!

Nano разработана для смартфонов и представлена в 2 версиях. Одна располагает 1,8 миллиарда параметров и предназначена для более медленных устройств. Вторая обладает 3,25 миллиарда параметров, поэтому ею можно пользоваться на телефонах помощнее.

Pro

Gemini Pro – модель-универсал среднего размера (100 миллиардов параметров), справляющаяся с широким спектром задач. Она понимает сложные запросы и быстро дает ответы. Ее основное предназначение – ядро последней версии чат-бота Bard. Кроме того, ее уже используют в корпоративных центрах обработки данных Google. Представители корпорации утверждают, что она превзошла ряд других генеративных моделей ИИ и даже широко известную GPT-3.5 от OpenAI.

Разработчики и корпоративные пользователи могут получить доступ к Gemini Pro посредством API через сервисы Google AI Studio и Google Cloud Vertex AI.

Ultra

Gemini Ultra – самая крупная и мощная модель, предназначенная для решения сверхсложных задач. Количество ее параметров превышает 1 триллион. На данный момент Ultra превосходит возможности всех существующих моделей искусственного интеллекта в мире. Ей первой удалось обогнать человека в стандартном тесте MMLU, получив 90%. Подробнее об этом вы сможете узнать в следующем разделе.

Доступ к Ultra пока имеют лишь избранные эксперты по безопасности, тестировщики и ключевые бизнес-партнеры корпорации. В начале 2024 года Google собирается открыть его для всех ее разработчиков и корпоративных пользователей. На это время также запланирован запуск ИИ-ассистента Bard Advanced, который обретет все возможности этой версии Gemini.

Gemini VS GPT-4

Тесты, проведенные Google, продемонстрировали, что Gemini оказалась лучше любого продукта OpenAI. Корпорация поделилась двумя таблицами со сравнением собственной разработки с моделью GPT-4. Согласно представленным в них данным, по абсолютному большинству показателей лидирует Gemini. Например, в тестах MMLU правильными были 90% ее ответов. Результат ChatCPT – 86,4 процента. Интересно, что ей удалось обойти даже человека с уровнем эксперта, который в этих тестах обычно набирает 89,8%.

Gemini удалось обойти человека в тесте MMLU


Для справки:
MMLU (Massive Multitask Language Understanding) – стандартный тест, с помощью которого измеряют способности искусственного интеллекта. Он состоит из набора задач по 57 тематическим кластерам, которые включают математику, физику, географию, историю, право, экономику, медицину, этику, а также сложные вопросы, посвященные логическим ошибкам, моральным проблемам в повседневности и так далее.

В 30 тестах из 32, проведенных в рамках исследования LLM Gemini, она обошла GPT-4. По результатам трех тестов на способность осмысливать информацию и делать правильные выводы эта модель одержала уверенную победу в двух из них. Также она была первой в обоих тестах по созданию программного кода и математике.

Gemini обошла GPT-4 в академических тестах


В работе с изображениями, видео и аудио Gemini снова показала себя лучше GPT-4, обойдя конкурента абсолютно во всех тестах.

Gemini лучше GPT-4 в работе с изображениями, видео и аудио

Интеграции

Google разрабатывала Gemini не только для модернизации своего чат-бота Bard и встраивания искусственного интеллекта в смартфоны. В корпорации подчеркнули, что новинка будет интегрирована во все самые важные ее продукты, в частности в одноименную поисковую систему, браузер Chrome, сервис контекстной рекламы Google Ads, ИИ-ассистент Duet AI.

Gemini будет интегрирована во все самые важные продукты Google


Когда именно это произойдет, информации пока нет. В Google ограничились расплывчатой формулировкой «в ближайшие месяцы».  

Bard

Gemini Pro уже внедрена в чат-бот Bard. Разработчики убеждены, что такое ядро выведет его на новый уровень, и надеются, что оно позволит ему обойти ChatGPT. До этой интеграции Bard показывал более низкие результаты в сравнении с продуктом OpenAI.

Gemini Pro уже внедрена в Bard


Несмотря на мультиязычность текущей версии чат-бота Bard, на данный момент модель Gemini в его составе исключительно англоязычна. В будущем планируется поддержка и других языков.

Тем, кто захочет пользоваться самой мощной версией Gemini Ultra, придется платить. Платная версия будет называться Bard Advanced и появится в начале 2024 года, однако ее стоимость пока неизвестна. Кстати, первыми такой подход применили в OpenAI, предлагая ChatGPT–3.5 бесплатно, а подписку на ChatGPT–4 за $20.

Смартфоны Pixel

Смартфоны Pixel получили встроенную поддержку модели Gemini Nano вместе с декабрьской обновкой Pixel 8 Pro. Правда, ее возможности пока ограничены. На данный момент она осуществляет управление функцией Summarize в приложении Android Recorder. Кроме того, этот ИИ может брать на себя функцию Android Smart Reply, но только при условии использования клавиатуры Google и исключительно в мессенджере WhatsApp. В 2024 году Gemini будет внедрен и в другие мессенджеры, а также в другие части операционной системы устройств Pixel.

Проблемы и недостатки

Модель искусственного интеллекта Gemini действительно представляет собой серьезный скачок в развитии его возможностей. И все же она не лишена недостатков, характерных для любой LLM. Среди основных минусов называют:

  • риск генерации неправдивой информации;
  • доступ к обучающим материалам низкого качества;
  • некоторая ограниченность понимания реального мира.

В Google не отрицают, что их революционная новинка может ошибаться и даже выдавать за факты информацию, противоречащую здравому смыслу, то есть «галлюцинировать». Представители корпорации считают, что она нуждается в проведении дополнительного тестирования, особенно версия Ultra, располагающая еще не до конца изученными возможностями. На данный момент разработчики очень придирчиво изучают и оценивают работу Gemini с целью сведения к минимуму риска нанесения ею вреда пользователю.

Подведем итоги

Если 2023 год считается датой, когда ИИ обрел широкую известность и пошел в массовое использование, то 2024-й вполне может стать звездным часом для Google Gemini. Эту модель ИИ станут применять для написания программного кода, улучшения и автоматизации операций (как облачных, так и периферийных), повышения продаж, а также для интеграции в чат-ботов и ИИ-ассистентов в приложениях, смартфонах и не только.

Лучшая производительность Gemini, в сравнении с другими моделями искусственного интеллекта и человеком, позволяет нам сделать очень оптимистический, даже на грани с фантастическим, прогноз о возможностях ИИ в будущем. И все же не стоит забывать о необходимости проведения дополнительных исследований, чтобы окончательно побороть недостатки. Что касается конкретно Gemini, ожидается, что эта модель в будущем наделит практически все продукты Google более полезными и интеллектуальными функциями.

***

Сегодня время — самый ценный ресурс для бизнеса. Почти половина его уходит на рутину. Ваши сотрудники постоянно вынуждены выполнять монотонные задачи, которые сложно отнести к важным и профильным. Вы можете оставить всё как есть, наняв дополнительных работников, а можете автоматизировать большую часть бизнес-процессов с помощью онлайн-коннектора ApiX-Drive, чтобы раз и навсегда избавиться от лишних расходов времени и средств. Выбор за вами!