Gemma 4 от Google теперь помещается в память обычного ноутбука
5 июня 2026 года Google выпустила сжатые версии своих открытых моделей Gemma 4. Звучит технически, но смысл простой: модель, которой раньше требовалась дорогая серверная видеокарта, теперь запускается на обычном рабочем ноутбуке, и без интернета. Для бизнеса, который присматривается к ИИ, но не хочет платить за каждый запрос и отправлять свои данные в чужое облако, это заметная новость. Разберём, что именно изменилось и где это реально пригодится.
Что такое Gemma 4 и зачем её ставить на своё железо
Gemma - это семейство открытых моделей Google. «Открытые» здесь значит, что веса модели (по сути её «мозги» - набор чисел, который и есть обученная нейросеть) можно скачать и запустить у себя, а не только обращаться к ним через интернет по API (программный интерфейс, через который одна программа обращается к другой). Базовую Gemma 4 Google показала 2 апреля 2026 года и назвала их самыми способными открытыми моделями при равном размере.
В семействе пять размеров: E2B, E4B, 12B, 26B-A4B и 31B. Цифра - это примерно сколько в модели параметров (параметры - те самые числа-настройки; чем их больше, тем модель обычно умнее и тяжелее). Самые лёгкие E2B и E4B рассчитаны на телефоны и ноутбуки, 12B - на одну потребительскую видеокарту, а 26B-A4B и 31B - на серверы. Запись 26B-A4B значит «26 миллиардов параметров всего, но на каждом запросе работает только 4 миллиарда» - такая экономная архитектура, когда включается не вся модель сразу. Все модели понимают текст и картинки, а три младшие - ещё видео и звук.
Зачем вообще запускать модель у себя, если есть ChatGPT? Три причины: данные не уходят наружу, нет платы за каждый запрос, и всё работает офлайн. Главное препятствие было одно - такие модели прожорливы по памяти. Вот его-то Google и убрала.
Что изменилось 5 июня: то же качество, в разы меньше памяти
Чтобы запустить открытую модель, нужна память, и много. Обычно модель хранит свои числа в формате высокой точности (BF16 - 16 бит на каждое число), и из-за этого ей нужны дорогие видеокарты. Тут и появляется главное обновление.
5 июня Google выпустила для Gemma 4 версии, обученные с учётом квантования - по-английски quantization-aware training, или QAT. Квантование - это сжатие: числа модели огрубляют, например с 16 бит до 4 бит, и она занимает в разы меньше места. Обычно за это платят качеством: огрубили - модель поглупела. Хитрость QAT в том, что сжатие «вшивают» прямо в обучение. Модель ещё на тренировке видит грубую 4-битную математику и заранее учится с ней работать. На выходе - почти то же качество, но в куда меньшем объёме.
Что это даёт по памяти:
- Самая лёгкая модель E2B теперь запускается меньше чем в 1 ГБ. Это официальная цифра из блога Google для текстовой версии в новом «мобильном» формате сжатия. До сжатия той же модели требовалось почти 10 ГБ, то есть по независимым тестам экономия около 90%. Такая модель поместится даже на телефон или дешёвый мини-ПК.
- Модель на 26 миллиардов параметров (26B-A4B) влезает в ноутбук с 16 ГБ памяти. По тем же независимым разборам общая экономия памяти - около 72%.
- Качество почти не страдает. Google прямо пишет, что версии с QAT по качеству выше, чем при обычном сжатии уже готовой модели (его называют PTQ - сжатие после обучения, без дообучения). На стандартных тестах разрыв с несжатой версией - несколько процентов.
Запустить всё это можно сразу: веса лежат на Ollama (это простая программа, которая ставит и запускает модели на вашем компьютере одной командой) - например ollama run gemma4:12b-it-qat. Кроме Ollama, Gemma 4 запускают и другие программы для локальных моделей: llama.cpp, vLLM, Unsloth. Как поднять локальную модель через Ollama, мы показывали на отдельном примере.
Где это пригодится бизнесу
Сразу честно: локальная Gemma 4 - не замена ChatGPT или Claude на всех задачах (об этом ниже). Но есть сценарии, где запустить модель у себя выгоднее, чем платить за чужой API. Вот три, которые мы видим у клиентов.
1. Чувствительные данные, которые нельзя отдавать наружу. Если у вас договоры, медкарты, данные клиентов или что-то под 152-ФЗ (закон о персональных данных), отправлять это во внешний облачный ИИ - юридический риск. Локальная модель решает задачу не выходя за периметр компании: текст не уходит ни на чьи серверы. Для рутины вроде «вытащить из 500 договоров суммы и сроки» или «разметить обращения в поддержку по темам» младшей или средней Gemma 4 обычно хватает.
2. Большой объём однотипных запросов. API берёт плату за каждый токен (токен - кусочек текста примерно в 3-4 буквы). Пока запросов мало - это копейки. Но если вы прогоняете через модель тысячи документов в день, счёт растёт быстро. Своя машина - разовая трата на железо, а дальше вы платите только за электричество. Ориентир простой: чем больше и однообразнее поток, тем быстрее локальная модель окупается против API.
3. Офлайн и встройка в продукт. Модель меньше 1 ГБ можно положить прямо в приложение или на устройство - кассу, терминал, мобильное приложение - и она будет работать без интернета. Это открывает ИИ-функции там, где раньше про них не думали: слабая связь, закрытый контур, требование автономности.
Общий смысл во всех трёх: локальная модель выигрывает там, где важны приватность, объём или независимость от сети. А там, где нужна максимальная точность и глубина на сложной задаче, пока выигрывает фронтир по API (фронтир - самые мощные модели на переднем крае, вроде GPT-5.5 или Claude).
Что не очевидно
4 бита - это всё-таки компромисс. Сжатие почти не роняет качество на простых задачах, но на сложных - длинные рассуждения, тяжёлый код, хитрая логика - разрыв с полной моделью и тем более с фронтиром становится виден. Маленькие модели вообще чаще ошибаются и выдумывают факты. Мы бы не сажали локальную Gemma 4 туда, где ошибка дорого стоит, без проверки человеком. Если нужна именно максимальная точность, фронтир-модель по API пока сильнее.
«Открытые веса» - не то же самое, что открытый исходный код (по-английски open source). Скачать и запустить Gemma можно бесплатно, но у неё есть условия использования и список запрещённых применений. Это не классическая свободная лицензия, по которой с программой можно делать почти что угодно. Для личного проекта неважно, а для продукта на продажу - покажите лицензию юристу до того, как встроите модель.
Бесплатно по токенам не значит бесплатно по усилиям. Свой ИИ - это своя эксплуатация: купить и обновлять железо, следить за загрузкой, ставить обновления, держать человека, который это умеет. Для команды без своих системных администраторов это реальная работа, а не «скачал и забыл». Честно говоря, многим проще начать с API и переехать на локальную модель уже тогда, когда станет понятен объём.
Что дальше
Направление видно невооружённым глазом: модели умнеют и одновременно становятся легче. Год назад «своя нейросеть на ноутбуке» звучала как игрушка для энтузиастов, теперь на 16 ГБ помещается модель на 26 миллиардов параметров с приличным качеством. Чем дальше, тем больше задач можно будет закрывать локально, не отдавая данные и не платя за каждый запрос. Про то, как такие инструменты входят в рабочие команды, мы разбирали на примере Codex от OpenAI.
Мы у себя возьмём gemma4:12b-it-qat и прогоним на типичной клиентской задаче - разметка и ответы в поддержке, - чтобы померить, где проходит граница между «хватает локальной модели» и «всё-таки нужен API». Результатами поделимся.
Если вы думаете про ИИ для своих данных и не хотите отдавать их в чужое облако, напишите нам - прикинем, что у вас можно поднять локально, а что нет.
Подписаться на новые разборы - @digitalimpulschannel.
