5 лучших LLM с открытым кодом

автор ApiX-Drive

Время прочтения: ~31 мин

Появление общедоступных LLM – один из ключевых этапов развития современного ИИ. Именно они дали мощный толчок к созданию бесплатных умных чат-ботов вроде Code Llama, а также многих других не менее полезных решений. Наша статья ознакомит вас с особенностями и возможностями этой передовой технологии, а также с топ-5 актуальных LLM с открытым исходным кодом. Обзор, который мы подготовили, поможет вам быть в курсе последних трендов и подобрать для себя оптимальный вариант.

Содержание:

1. Что такое большая языковая модель

2. Преимущества LLM с открытым кодом

3. Llama 2

4. BLOOM

5. GPT-NeoX

6. Falcon

7. BERT

8. Подведем итоги

***

Что такое большая языковая модель

Large Language Model (LLM) — одна из разновидностей моделей искусственного интеллекта, построенная на базе технологий машинного и глубокого обучения. Учится она на обширных массивах текстовых данных (книги, статьи, веб-сайты). Надлежащим образом подготовленная модель обретает способность выполнять ряд операций с текстом. Современные LLM понимают и анализируют его, выполняют изложение и переводят на разные языки. Кроме того, они умеют генерировать тексты разных стилей, тем и объема по запросам пользователей.

Все большие языковые модели делятся на два типа: проприетарные (принадлежащие частным компаниям, защищенные лицензией) и модели с открытым исходным кодом. К первой категории относится нейросеть GPT от OpenAI, лежащая в основе популярного чат-бота ChatGPT. ИИ-модели второго типа находятся в открытом доступе и могут использоваться, изменяться и модифицироваться всеми желающими без ограничений.

Преимущества LLM с открытым кодом

LLM с открытым кодом располагают рядом важных преимуществ. К ним относятся:

Экономия. Отсутствие лицензионных сборов делает такое ПО выгодным для малого бизнеса и стартапов с ограниченным бюджетом, а также для частных лиц.
Кастомизация. Открытый исходный код дает возможность гибко настроить и адаптировать модель под специфику и требования конкретной отрасли, компании или проекта.
Прозрачность. Открытость делает LLM более понятными, надежными и безопасными. Любой желающий может исследовать исходный код модели, чтобы оценить ее реальные параметры и функции.
Конфиденциальность. Возможность развертывания модели во внутренней инфраструктуре обеспечивает пользователям максимальный контроль над своими данными.
Независимость. LLM с открытым исходным кодом помогают бизнесу устранить зависимость от поставщика ПО и делают его использование более гибким.
Инновационность. Возможность свободного изменения и доработки таких языковых моделей способствует развитию инноваций. Компании, стартапы и частные лица могут не только улучшать их, но также брать за основу при разработке новых приложений.

Открытые модели хорошо зарекомендовали себя при выполнении разных задач. Их активно используют в процессе создания умных чат-ботов, генерации контента, текстовых переводов, исследований, анализа настроений и так далее.

Llama 2

Нейросеть Llama 2, представленная компанией Meta летом 2023 года, уверенно удерживает позиции среди лучших LLM с открытым исходным кодом. Сегодня это одна из немногих полностью бесплатных открытых языковых моделей, созданных крупной корпорацией. Большинство нейросетей подобного уровня (OpenAI GPT, Anthropic Claude, Google PaLM) проприетарные. На основе Llama 2 был разработан ряд других продуктов Meta. Наиболее известные среди них – ИИ-модель для генерации программного кода Code Llama и чат-бот Llama Chat.

Ключевые особенности:

Система проверяет, дополняет и генерирует код с нуля, создает пояснения к нему и выполняет дебаггинг. Помимо кода, она эффективно генерирует и обрабатывает текст, понимает запросы как в виде кода, так и в формате естественного языка.
ИИ-модель поддерживает большинство популярных языков программирования, в том числе Python, C++, Java, PHP, TypeScript (JavaScript), C# и Bash.
Для обучения Llama 2 были задействованы миллиарды веб-страниц, статьи из «Википедии» и книги из Project Gutenberg, а также миллион пользовательских запросов.
LLM имеет три разновидности: с 7 миллиардами (7B), 13 миллиардами (13B) и 70 миллиардами (70B) параметров.
Открытый исходный код и небольшие требования к ресурсам этой языковой модели делают ее доступной для стартапов, некоммерческих организаций, научных сообществ и индивидуальных пользователей.
Meta разработала эту ИИ-модель при помощи Research Super Cluster и нескольких внутренних кластеров с графическими процессорами NVIDIA A100. Срок ее обучения составил от 184K GPU-часов для 7B-модели до 1.7M GPU-часов для 70B-модели.
Llama 2 (разновидность 70B) превосходит по своим характеристикам многие LLM с открытым исходным кодом. Результаты ее тестов свидетельствуют о том, что она соответствует GPT-3.5 и PaLM по большинству критериев. Вместе с тем от GPT-4 и PaLM 2 она отстает.
ПО находится в свободном доступе и может быть использовано для частных, коммерческих или исследовательских целей. У каждого желающего есть возможность скачать эту ИИ-модель с официального сайта проекта (минимальная по объему версия 7В весит примерно 13 Гб). После этого ее можно запустить на компьютере и изучить техническую документацию.

BLOOM

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) – известная LLM с открытым кодом, выпущенная летом 2022 года. Над этим проектом работала многочисленная команда с более чем 1200 участниками из 39 стран мира. Как и другие подобные ИИ-модели, BLOOM имеет архитектуру «трансформер» и содержит 176 миллиардов параметров. В ходе тренировки она обработала 1.5 терабайта текста и 350 миллиардов уникальных токенов.

Свяжите сервисы между собой без программистов за 5 минут!

Подключение Squarespace

Как настроить выгрузку сделок из Битрикс24 в другие системы?

Разработку этой нейросети координировала организация BigScience в сотрудничестве с Hugging Face и национальным центром научных исследований Франции. Ее обучение проводилось на суперкомпьютере, работающем на ядерной энергии.

Ключевые особенности:

Обучающим материалом для языковой модели стал датасет ROOTS с обширным набором данных из 100+ источников на 59 языках: 46 разговорных и 13 языках программирования.
BLOOM – масштабируемая модель. Она поддерживает общедоступные инструменты и базы данных.
Нейросеть находится в открытом доступе на сайте Hugging Face. Пользователи могут выбрать интересующие их языки, а затем отправить запросы для выполнения тех или иных задач.
Модель эффективна в написании текстов разного объема и содержания, переводе и резюмировании существующих текстов, генерации программного кода и других NLP-процессах.
Большая языковая модель с открытым кодом BLOOM имеет больше параметров, чем GPT-3 от OpenAI (176B против 175B). По мнению ее создателей, это первая полномасштабная ИИ-модель для работы с текстом на испанском и арабском языках.
ПО легко автоматизирует задачи в сфере программирования, включая генерацию и отладку кода. Следовательно, это полезный инструмент как для начинающих, так и для опытных разработчиков.
BLOOM получила признание в научном сообществе благодаря широким возможностям для лингвистического анализа и проведения ИИ-исследований.

GPT-NeoX

LLM с открытым кодом GPT-NeoX – не менее достойная участница нашей подборки. Исследовательская группа EleutherAI выпустила ее в начале 2022 года. Примечательно, что разработчики взаимодействовали между собой только через Discord и GitHub. Однако это не помешало им представить аудитории полноценную бесплатную альтернативу GPT-3 от OpenAI с открытым исходным кодом.

Ключевые особенности:

GPT-NeoX-20B с 20 миллиардами параметров обучена на графических процессорах CoreWeave при помощи The Pile. В ее основе лежит архитектура «трансформер».
По результатам проведенных EleutherAI тестов эта LLM на несколько процентных пунктов превзошла версию Curie модели GPT-3 и на столько же уступила версии GPT-3 DaVinci, имеющей порядка 150 миллиардов параметров.
GPT-NeoX – одна из крупнейших LLM с открытым кодом. Она была обучена на датасете объемом в 850 Гб общедоступных текстов.
ИИ-модель эффективно выполняет множество задач в области NLP, включая генерацию, анализ, обобщение, редактирование и перевод текста. Кроме того, она способна создавать, дополнять и комментировать программный код.
LLM демонстрирует высокую точность результата в ряде процессов по обработке естественного языка. Это позволяет использовать ее для разных целей: чат-боты, классификация текста, анализ настроений, извлечение ключевых слов, генерация кода и так далее.
GPT-NeoX представляет собой экспериментальную технологию. Разработчики не советуют развертывать ее в производственной среде без предварительного тестирования. Для запуска модели требуется не менее 42 ГБ VRAM и 40 ГБ дискового пространства.
Модель построена на Megatron и DeepSpeed и реализована в PyTorch. В ходе обучения команда использовала параллелизм данных.
В процессе разработки ПО участвовали 12 серверов Supermicro AS-4124GO-NART. Каждый был оснащен 8 графическими процессорами NVIDIA A100-SXM4-40GB и 2 процессорами AMD EPYC 7532.

Falcon

Falcon – относительно новый член семейства LLM с открытым исходным кодом. Первая ее версия была выпущена в июне 2023 года. Сегодня пользователям доступны 4 разновидности этой модели: Falcon 180B, 40B, 7.5B и 1.3B. Различаются они габаритами и мощностью, имея от 1.3 до 180 миллиарда параметров соответственно.

Ключевые особенности:

Разработкой языковой модели занимался Technology Innovation Institute (TII), входящий в состав Abu Dhabi Government’s Advanced Technology Research Council.
Falcon обучали в облаке AWS в течение двух месяцев с использованием до 4096 графических процессоров одновременно. Общий срок обучения составил 7 000 000 GPU-часов.
Версия модели 180B была выпущена в сентябре 2023 года. На сегодня это крупнейшая LLM с открытым исходным кодом. Материалом для ее обучения был набор из 3.5 триллиона токенов из датасета RefinedWeb от TII.
Нейросеть доступна для коммерческих и исследовательских целей. По производительности она находится на вершине рейтинга открытых LLM и считается одной из лучших больших языковых моделей с открытым кодом.
Пользователи могут ознакомиться с моделью в Hugging Face Hub (как с базовой версией, так и с версией для чата). Ее возможности можно протестировать в Falcon Chat Demo Space.
Falcon 180B в 2.5 раза больше модели Llama 2 от Meta. Для ее обучения было задействовано в 4 раза больше ресурсов. Кроме того, по своей мощности она превосходит GPT-3.5 от OpenAI и сравнима с Google PaLM 2, хотя и содержит вдвое меньше данных.
Нейросеть качественно справляется с разными задачами по генерации и обработке текста, а также программного кода. Это подтверждено многочисленными тестами.

BERT

Завершает нашу подборку BERT – одна из первых и наиболее значимых среди современных больших языковых моделей с открытым исходным кодом. Она была выпущена в 2018 году командой исследователей из Google и вскоре стала базой для ряда последующих проектов по разработке технологий NLP. Как и другие подобные LLM, она имеет архитектуру «трансформер». Ее название-аббревиатура расшифровывается как Bidirectional Encoder Representations from Transformers. По состоянию на сегодня вышло уже более 150 публикаций, посвященных анализу и апгрейду этой нейросети.

Ключевые особенности:

Изначально модель имела две версии — со 110 и 340 миллионами параметров. Обе поддерживали только английский язык. Они были обучены на датасете Toronto BookCorpus (800 миллионов слов) и англоязычной «Википедии» (2500 миллионов слов).
BERT стала первой LLM с экспериментальной на тот момент нейронной архитектурой «трансформер», созданной командой Google в 2017 году.
ИИ-модель успешно справляется со множеством NLP-задач. Она способна генерировать и резюмировать текст, переводить его на разные языки, отвечать на вопросы, анализировать настроения и автоматически решать задачи.
В 2020 году Google интегрировала BERT в модуль Google Search на 70+ языках. Используя нейросеть для ранжирования контента и отображения сниппетов, поисковая система учитывает контекст пользовательских запросов и выдает более релевантные результаты.
Языковая модель имеет немало вариаций, созданных на ее базе. Наиболее известны среди них RoBERTa, DistilBERT и ALBERT.

Подведем итоги

Надеемся, нам удалось доходчиво объяснить, что такое большая языковая модель с открытым кодом, и рассказать об особенностях наиболее известных нейросетей такого типа. Появление бесплатных и общедоступных LLM стало поистине знаковым событием в истории современного ИИ. Благодаря им каждый желающий может использовать нейросети для любых целей без каких-либо затрат и ограничений. Более того, открытый исходный код открывает возможности для совершенствования и кастомизации, а также для разработки новых ИИ-проектов на базе готовых решений.

***

Apix-Drive — универсальный инструмент, который быстро упорядочит любой рабочий процесс, освободив вас от рутины и возможных денежных потерь. Опробуйте ApiX-Drive в действии и убедитесь, насколько он полезен лично для вас. А пока настраиваете связи между системами, подумайте, куда инвестируете свободное время, ведь теперь его у вас будет гораздо больше.