5 найкращих LLM з відкритим кодом

автор ApiX-Drive

Час прочитання: ~30 хв

Поява загальнодоступних LLM – один із ключових етапів розвитку сучасного ШІ. Саме вони дали потужний поштовх до створення безплатних розумних чат-ботів на кшталт Code Llama, а також багатьох інших не менш корисних рішень. Наша стаття ознайомить вас з особливостями та можливостями цієї передової технології, а також із 5 найкращими актуальними LLM з відкритим вихідним кодом. Огляд, який ми підготували, допоможе вам бути в курсі останніх трендів і підібрати для себе оптимальний варіант.

Зміст:

1. Що таке велика мовна модель

2. Переваги LLM з відкритим кодом

3. Llama 2

4. BLOOM

5. GPT-NeoX

6. Falcon

7. BERT

8. Підсумуємо

***

Що таке велика мовна модель

Large Language Model (LLM) — один із різновидів моделей штучного інтелекту, побудований на базі технологій машинного навчання та глибокого навчання. Навчається вона на великих масивах текстових даних (книги, статті, сайти). Належно підготовлена модель отримує здатність виконувати ряд операцій з текстом. Сучасні LLM розуміють та аналізують його, виконують переказ і перекладають різними мовами. Крім того, вони вміють генерувати тексти різних стилів, тем і об'єму за запитами користувачів.

Усі великі мовні моделі поділяються на два типи: пропрієтарні (є власністю приватних компаній, захищені ліцензією) та моделі з відкритим вихідним кодом. До першої категорії належить нейромережа GPT від OpenAI, яку було покладено в основу популярного чат-бота ChatGPT. ШІ-моделі другого типу знаходяться у відкритому доступі та можуть використовуватися, змінюватися та модифікуватися всіма охочими без обмежень.

Переваги LLM з відкритим кодом

LLM з відкритим кодом мають ряд важливих переваг. До них належать:

Економія. Відсутність ліцензійних зборів робить таке програмне забезпечення вигідним для малого бізнесу та стартапів з обмеженим бюджетом, а також для приватних осіб.
Кастомізація. Відкритий вихідний код дає можливість гнучко налаштувати та адаптувати модель під специфіку та вимоги конкретної галузі, компанії чи проєкту.
Прозорість. Відкритість робить LLM зрозумілішими, надійнішими та безпечнішими. Будь-хто охочий може дослідити вихідний код моделі, щоб оцінити її реальні параметри та функції.
Конфіденційність. Можливість розгортання моделі у внутрішній інфраструктурі забезпечує користувачам максимальний контроль своїх даних.
Незалежність. LLM з відкритим вихідним кодом допомагають бізнесу усунути залежність від постачальника цього програмного забезпечення та роблять його використання гнучкішим.
Інноваційність. Можливість вільної зміни та доопрацювання таких мовних моделей сприяє розвитку інновацій. Компанії, стартапи та приватні особи можуть не лише покращувати їх, а й брати за основу при розробці нових рішень.

Відкриті моделі добре зарекомендували себе під час виконання різних завдань. Їх активно використовують у процесі створення розумних чат-ботів, генерації контенту, текстових перекладів, досліджень, аналізу настроїв тощо.

Llama 2

Нейромережа Llama 2, представлена компанією Meta влітку 2023 року, впевнено утримує позиції серед найкращих LLM з відкритим кодом. Сьогодні це одна з небагатьох повністю безплатних відкритих мовних моделей, створених великою корпорацією. Більшість нейромереж такого рівня (OpenAI GPT, Anthropic Claude, Google PaLM) пропрієтарні. На основі Llama 2 було розроблено низку інших продуктів Meta. Найвідоміші серед них – ШІ-модель для генерації програмного коду Code Llama та чат-бот Llama Chat.

Ключові особливості:

Система перевіряє, доповнює та генерує код з нуля, створює пояснення до нього та виконує дебаггінг. Крім коду, вона ефективно генерує та обробляє текст, розуміє запити як у вигляді коду, так і у форматі природної мови.
ШІ-модель підтримує більшість популярних мов програмування, зокрема Python, C++, Java, PHP, TypeScript (JavaScript), C# і Bash.
Для навчання Llama 2 були задіяні мільярди вебсторінок, статті з «Вікіпедії» та книги з Project Gutenberg, а також мільйон запитів користувачів.
LLM має три різновиди: з 7 мільярдами (7B), 13 мільярдами (13B) та 70 мільярдами (70B) параметрів.
Відкритий вихідний код та незначні вимоги до ресурсів цієї великої мовної моделі роблять її доступною для стартапів, некомерційних організацій, наукових спільнот та індивідуальних користувачів.
Meta розробила цю ШІ-модель за допомогою Research Super Cluster та кількох внутрішніх кластерів із графічними процесорами NVIDIA A100. Термін її навчання склав від 184K GPU-годин для 7B-моделі до 1.7M GPU-годин для 70B-моделі.
Llama 2 (різновид 70B) перевершує за своїми характеристиками інші LLM з відкритим вихідним кодом. Результати її тестів свідчать про те, що вона відповідає GPT-3.5 та PaLM за більшістю критеріїв. Водночас від GPT-4 та PaLM 2 вона відстає.
Програмне забезпечення перебуває у вільному доступі і може бути використане для приватних, комерційних чи дослідницьких цілей. Кожен охочий має можливість завантажити цю ШІ-модель з офіційного сайту проєкту (мінімальна за обсягом версія 7В важить приблизно 13 Гб). Після цього її можна запустити на комп'ютері та вивчити технічну документацію.

BLOOM

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) – відома LLM з відкритим кодом, випущена влітку 2022 року. Над цим проєктом працювала численна команда із 1200+ учасниками з 39 країн світу. Як і інші подібні ШІ-моделі, BLOOM має архітектуру «трансформер» і містить 176 мільярдів параметрів. У ході тренування вона опрацювала 1.5 терабайта тексту та 350 мільярдів унікальних токенів.

Зв'яжіть сервіси та додатки між собою без програмістів за 5 хвилин!

Інтеграція Facebook і Google Sheets: автоматичне завантаження лідів

Інтеграція Google Таблиць і ClickSend: автоматичне завантаження контактів

Розробку цієї нейромережі координувала організація BigScience у співпраці з Hugging Face та національним центром наукових досліджень Франції. Її навчання проводилося на суперкомп'ютері, що працює на ядерній енергії.

Ключові особливості:

Навчальним матеріалом для мовної моделі став датасет ROOTS з великим набором даних із 100+ джерел 59 мовами: 46 розмовними та 13 мовами програмування.
BLOOM – модель, що може масштабуватися. Вона підтримує загальнодоступні інструменти та бази даних.
Нейромережа знаходиться у відкритому доступі на сайті Hugging Face. Користувачі можуть обрати мови, які їх цікавлять, а потім надіслати запити для виконання тих чи інших завдань.
Модель ефективна у написанні текстів різного обсягу та змісту, перекладі та резюмуванні наявних текстів, генерації програмного коду та інших NLP-процесах.
Велика мовна модель з відкритим кодом BLOOM має більше параметрів, ніж GPT-3 від OpenAI (176B проти 175B). На думку її творців, це перша повномасштабна ШІ-модель для роботи з текстом іспанською та арабською мовами.
Програмне забезпечення легко автоматизує завдання у сфері програмування, включаючи генерацію та відлагодження коду. Отже, це корисний інструмент як для початківців, так і для досвідчених розробників.
BLOOM отримала визнання у науковій спільноті завдяки широким можливостям для лінгвістичного аналізу та проведення ШІ-досліджень.

GPT-NeoX

LLM з відкритим кодом GPT-NeoX – не менш гідна учасниця нашої підбірки. Дослідницька група EleutherAI випустила її на початку 2022 року. Примітно, що розробники взаємодіяли між собою лише через Discord та GitHub. Однак це не завадило їм презентувати аудиторії повноцінну безплатну альтернативу GPT-3 з відкритим вихідним кодом.

Ключові особливості:

GPT-NeoX-20B з 20 мільярдами параметрів навчена на графічних процесорах CoreWeave за допомогою The Pile. У її основі лежить архітектура «трансформер».
За результатами проведених EleutherAI тестів ця LLM на кілька процентних пунктів перевершила версію Curie моделі GPT-3 і на стільки ж поступилася версії GPT-3 DaVinci, що має близько 150 мільярдів параметрів.
GPT-NeoX – одна з найбільших LLM з відкритим кодом. Вона була навчена на датасеті обсягом 850 Гб загальнодоступних текстів.
ШІ-модель ефективно виконує безліч завдань, включаючи генерацію, аналіз, узагальнення, редагування та переклад тексту. Крім того, вона здатна створювати, доповнювати та коментувати програмний код.
LLM демонструє високу точність результату в ряді процесів обробки природної мови. Це дозволяє використовувати її для різних цілей: чат-боти, класифікація тексту, аналіз настроїв, вилучення ключових слів, генерація коду тощо.
GPT-NeoX є експериментальною технологією. Розробники не радять розгортати її у виробничому середовищі без попереднього тестування. Для запуску моделі потрібно не менше 42 ГБ VRAM та 40 ГБ дискового простору.
Модель побудована на Megatron і DeepSpeed і реалізована в PyTorch. У ході навчання команда використовувала паралелізм даних.
У процесі розробки програмного забезпечення брали участь 12 серверів Supermicro AS-4124GO-NART. Кожен був оснащений 8 графічними процесорами NVIDIA A100-SXM4-40GB та 2 процесорами AMD EPYC 7532.

Falcon

Falcon – відносно новий член сімейства LLM з відкритим вихідним кодом. Перша її версія була випущена у червні 2023 року. Сьогодні користувачам доступні 4 різновиди цієї моделі: Falcon 180B, 40B, 7.5B та 1.3B. Відрізняються вони габаритами та потужністю, маючи від 1.3 до 180 мільярда параметрів відповідно.

Ключові особливості:

Розробкою мовної моделі займався Technology Innovation Institute (TII), що входить до складу Abu Dhabi Government's Advanced Technology Research Council.
Falcon навчали у хмарі AWS протягом двох місяців з використанням до 4096 графічних процесорів одночасно. Загальний термін навчання склав 7 000 000 GPU-годин.
Версія моделі 180B була випущена у вересні 2023 року. На сьогодні це найбільша LLM із відкритим вихідним кодом. Матеріалом для її навчання був набір з 3.5 трильйонів токенів з датасету RefinedWeb від TII.
Нейромережа доступна для комерційних та дослідницьких цілей. За продуктивністю вона знаходиться на вершині рейтингу відкритих LLM і вважається однією з кращих великих мовних моделей з відкритим кодом.
Користувачі можуть ознайомитися з моделлю у Hugging Face Hub (як з базовою версією, так і з версією для чату). Її можливості можна протестувати у Falcon Chat Demo Space.
Falcon 180B у 2.5 рази більший за модель Llama 2 від Meta. Для її навчання було залучено вчетверо більше ресурсів. Крім того, за своєю потужністю вона перевершує GPT-3.5 від OpenAI й зрівнюється з Google PaLM 2, хоча й містить вдвічі менше даних.
Нейромережа якісно виконує різні завдання з генерації та обробки тексту, а також програмного коду. Це підтверджено численними тестами.

BERT

Завершує нашу добірку BERT – одна з перших та найбільш значущих серед сучасних великих мовних моделей з відкритим кодом. Вона була випущена в 2018 році командою дослідників з Google і стала базою для низки наступних проєктів з розробки технологій NLP. Як і інші подібні LLM, вона має архітектуру «трансформер». Її назва-абревіатура розшифровується як Bidirectional Encoder Representations from Transformers. Станом на сьогодні вийшло вже понад 150 публікацій, присвячених аналізу та апгрейду цієї нейромережі.

Ключові особливості:

Спочатку модель мала дві версії – зі 110 та 340 мільйонами параметрів. Обидві підтримували лише англійську мову. Вони були навчені на датасеті Toronto BookCorpus (800 мільйонів слів) та англомовній «Вікіпедії» (2500 мільйонів слів).
BERT стала першою LLM з експериментальною на той момент нейронною архітектурою «трансформер», створеною командою Google у 2017 році.
ШІ-модель успішно виконує безліч NLP-завдань. Вона здатна генерувати та резюмувати текст, перекладати його різними мовами, відповідати на запитання, аналізувати настрої та автоматично вирішувати задачі.
У 2020 році Google інтегрувала BERT у модуль Google Search 70+ мовами. Використовуючи нейромережу для ранжування контенту та відображення сніпетів, пошукова система враховує контекст запитів користувача і видає більш релевантні результати.
Мовна модель має багато варіацій, створених на її основі. Найвідоміші серед них RoBERTa, DistilBERT та ALBERT.

Підсумуємо

Сподіваємося, нам вдалося зрозуміло пояснити, що таке велика мовна модель з відкритим кодом, і розповісти про особливості найвідоміших нейромереж такого типу. Поява безплатних та загальнодоступних LLM стала знаковою подією в історії сучасного ШІ. Завдяки їм тепер кожен охочий може використовувати нейромережі для будь-яких цілей без витрат та обмежень. Відкритий вихідний код уможливлює кастомізацію та вдосконалення, а також розробку нових ШІ-проєктів.

***

Apix-Drive – простий та ефективний конектор систем, який допоможе вам автоматизувати рутинні завдання та оптимізувати бізнес-процеси. Ви зможете заощаджувати час та кошти, спрямувати ці ресурси на найважливіші цілі. Протестуйте ApiX-Drive і переконайтеся, що цей інструмент розвантажить ваших співробітників і вже після 5 хвилин налаштувань ваш бізнес почне працювати швидше.