16 апреля Anthropic выкатил Claude Opus 4.7. Цена не изменилась - те же 5 долларов за миллион входных и 25 за миллион выходных токенов. Бенчмарки приподнялись. Главный пиар - "превосходит Opus 4.6 в сложном кодинге", это ожидаемо для каждого следующего релиза, цифрам верить можно через раз.
Интереснее то, что Anthropic упомянул в подзаголовках. Две вещи нас в команде заставили остановиться: модель стала строже следовать инструкциям, а зрение приподнялось до 3.75 мегапикселей. Первое требует переписать существующие промпты, второе открывает применения, которых раньше просто не было.
Контекст: от Opus 4.6 к Mythos
Opus 4.6 вышел зимой и был крепким рабочим конём для агентских задач. Главная критика к нему - иногда теряет нить на длинных запусках, иногда "соглашается" с пользователем там, где должен был возразить. Тестеры говорили: чтобы выжать из 4.6 максимум, его надо вести за руку.
В апреле Anthropic презентовали Project Glasswing с моделью под кодовым именем Claude Mythos Preview. Mythos - следующий уровень, но релиз ограничен из-за кибер-рисков. Opus 4.7 анонсирован как промежуточная ступень: меньше способностей, чем у Mythos, но первый, кто получает кибер-safeguards, которые потом доедут до Mythos в полной форме.
То есть для нас, обычных пользователей API, это апдейт прямой линейки 4.x с новыми защитами. Mythos пока ждёт.
Что изменилось в Claude Opus 4.7
Instruction following - ломающее изменение
Об этом написано в footnote, не в заголовках, но это самое важное:
Opus 4.7 substantially better at following instructions. Interestingly, this means that prompts written for earlier models can sometimes now produce unexpected results: where previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally.
Перевожу: ваши промпты, которые работали на 4.6, на 4.7 могут начать выдавать странности. Не потому что модель тупее, а потому что модель умнее и теперь читает буквально то, что вы написали. Пункты, которые 4.6 игнорировал как нерелевантные, 4.7 теперь честно исполняет.
Anthropic прямо просит: "users should re-tune their prompts and harnesses accordingly". Это ровно тот случай, когда апгрейд модели - это не "поменял claude-opus-4-6 на claude-opus-4-7 и пошёл дальше", а полноценная задача аудита всех существующих промптов в проекте.
Зрение в 3.75 мегапикселя
Opus 4.7 принимает изображения до 2576 пикселей по длинной стороне - это в три с лишним раза больше, чем у предыдущих моделей. До этого приходилось ресайзить скриншоты вниз перед отправкой, теряя текст, мелкие детали, элементы интерфейса.
Что это меняет на практике:
- Computer-use агенты теперь видят интерфейс как человек, а не как разглядывающий через мутное стекло. Меньше промахов по кнопкам, лучше чтение dropdown'ов и табов.
- Извлечение данных из чертежей и диаграмм. XBOW цитируют 98.5% на их visual-acuity benchmark против 54.5% у Opus 4.6 - на их задачах это почти двукратный скачок, не косметический.
- Работа с PDF, где раньше текст слипался в кашу при ресайзе. Теперь можно скармливать страницу как есть.
xhigh и /ultrareview
Появился новый уровень reasoning effort - xhigh, между high и max. В Claude Code теперь это дефолт. Это значит, что модель тратит больше токенов на размышление перед ответом. Платят за это пользователи: входные токены те же, выходных больше.
Anthropic честно предупреждает: новый токенайзер плюс больше "thinking" даёт 1.0–1.35× к расходу токенов на тот же вход. Если вы агент с большим объёмом, бюджет вырастет. Они же предлагают task budgets в beta, чтобы держать расход под контролем - но настройка ложится на вас.
Для Claude Code добавлен /ultrareview - отдельная команда, которая прогоняет ваш diff через "придирчивого ревьюера". Pro и Max получают три бесплатных запуска для пробы, дальше платный.
Сценарии внедрения новой модели
Несколько сценариев, где апгрейд имеет смысл прямо сейчас.
Computer-use агенты для бизнес-приложений. Если ты пишешь бот, который кликает по реальному UI 1С, Битрикса, AmoCRM или CMS клиента - переход на 4.7 даёт меньше промахов и меньше повторов. Это прямо считается в деньгах: каждый retry - это лишние токены и время. У нас этим занимаются на услуге AI-автоматизации, и тестить 4.7 на реальной нагрузке - следующий пункт в плане.
Извлечение из документов. Чертежи, схемы, технические PDF, скриншоты с мелким текстом. Если у тебя работают пайплайны на 4.6 с предварительным ресайзом - пробуй 4.7 без ресайза. Возможно, 80% препроцессинга можно выкинуть.
Длинные агентские запуски. Devin цитируют "работает связно часами вместо того чтобы сдаваться". Если у тебя был сценарий "запустили агента на 30 минут, он застрял на полпути" - это та область, где 4.7 может реально дотянуть. В наших Telegram-ботах мы используем длинные agentic-цепочки для квалификации лидов; апгрейд тут потенциально снижает количество висящих диалогов.
Скрытые подвохи Opus 4.7
Минимум три вещи, о которых в пресс-релизе говорят вскользь.
Расход токенов вырастет. Anthropic честно показывает кривую "score vs token usage" и заявляет, что в среднем выгоднее, потому что меньше попыток на задачу. Но это в среднем по их внутреннему бенчмарку. Ваши задачи могут оказаться в "долине" с увеличенным расходом. Не апгрейдьте без сравнения на своих данных.
Новый токенайзер ломает кэш промптов. Если у вас была кэшированная системная инструкция в API - после 4.7 кэш не попадёт. Первая партия запросов будет дороже.
xhigh - дефолт в Claude Code. Это значит, что миграция автоматически удорожает использование Claude Code, если вы не настроили effort вручную. Проверьте свой .claude/settings.json, там может появиться неожиданная статья расходов.
Calling-out behaviour. Replit пишут "пушает в технических обсуждениях, помогает принимать решения". Звучит хорошо, но в продакшен-агентах это может означать "отказался выполнять задачу, потому что считает её плохой идеей". Тестируйте на своих типах задач, особенно если у вас агент пишет миграции или удаляет данные.
Если у вас в .claude/settings.json не зафиксирован effort - после апгрейда Claude Code сам переключится на xhigh. Это значит, ровно те же задачи начнут потреблять заметно больше токенов. Перед коммерческой миграцией зафиксируйте уровень или заложите рост бюджета.
Прогноз и план действий
Mythos Preview ждёт релиза, кибер-safeguards обкатываются на 4.7. По заявлению Anthropic в Project Glasswing, ближайшие 2-3 месяца будут именно про "научились детектировать злоупотребления - открываем Mythos шире". Это не про новые модели, а про политику доступа.
Со стороны разработчиков самая разумная стратегия - аккуратный аудит. Возьми 5-10 промптов, на которых ты реально работаешь в проектах, и прогони на 4.7 параллельно с 4.6. Не верь маркетингу, верь своим логам. Полезный сторонний источник для калибровки ожиданий - независимые тесты Simon Willison, он каждый раз чесно публикует что не работает. Где будет хуже у тебя - переписывай промпты под более строгое следование. Где будет лучше - закрепляй в production.
Из релиза не очевидно, насколько 4.7 хорош на длинном русском языке (бенчмарки Anthropic фокусируются на английском). Если планируешь внедрять у клиента с русскоязычным контентом - это отдельный пункт для проверки. У нас по процессу сначала идёт неделя замеров на реальных данных проекта, потом решение про модель.
Если ищешь подрядчика на встраивание Claude или другого LLM в продукт - напиши в контактах, разберём задачу. В Telegram-канал @digitalimpulschannel дублируем разборы релизов с короткой выжимкой. Подпишись, чтобы не ловить апдейты вручную через RSS.
- Apgrade Opus 4.6 → 4.7 не "поменять id и пошёл" - это аудит существующих промптов.
- Зрение в 2576px меняет computer-use агенты и работу с PDF: можно убирать downsample-препроцессинг.
- Расход токенов вырастет 1.0–1.35× из-за нового токенайзера. Закладывайте +20-30% к бюджету.
- В Claude Code дефолт
xhigh- проверьте.claude/settings.json, чтобы не получить неожиданный счёт. - Бенчмарки Anthropic - преимущественно англоязычные. Под русский B2B нужны свои замеры.