Anthropic выпустила Claude Opus 4.5 с рекордным баллом в тесте по программированию

Anthropic launches Claude Opus 4.5 with record score on internal coding test - GNcrypto

Anthropic представила Claude Opus 4.5 — модель, которая, по данным компании, превзошла людей на двухчасовом внутреннем экзамене по программированию.

Anthropic объявила о запуске Claude Opus 4.5, отметив, что обновленная модель превзошла всех кандидатов на внутреннем двухчасовом экзамене по программированию. Релиз приносит новые возможности для разработки ПО, автономных агентных систем, а также анализа таблиц и финансовых данных.

Opus 4.5 уже доступен в приложениях Claude, через API и на основных облачных платформах. Стоимость составляет $5 за миллион входных токенов и $25 за миллион выходных.

При поддержке Amazon, Alphabet и Microsoft, компания преподносит Opus 4.5 как свою самую мощную модель Claude на данный момент — с усиленными возможностями по глубокому рассуждению, работе с длинным контекстом и управлению компьютером для моделирования, прогнозирования и подготовки документов.

Anthropic утверждает, что Opus 4.5 превзошел исторические результаты людей на домашнем экзамене по инженерии производительности программного обеспечения. Тест оценивает технические навыки и инженерное чутье в условиях жестких временных ограничений.

Результат был достигнут за счёт нескольких попыток модели по каждой задаче с выбором лучшего ответа. При этом компания подчеркивает, что экзамен не измеряет нетехнические навыки, такие как командное взаимодействие.

Помимо программирования, модель получила функции для планирования, выполнения и доработки долгих задач. По словам Anthropic, агенты на базе Opus 4.5 могут сохранять инсайты из прошлых сессий, переиспользовать их позднее, координировать субагентов для сложных проектов и сопровождать длительные процессы — от глубоких исследований до подготовки презентаций и сложных таблиц.

В одном из бенчмарков для агентных сценариев модель обработала запрос по авиаперелету, сначала улучшив класс билета, а затем изменив рейс с учетом политики компании. Этот эпизод был засчитан как ошибка, поскольку такой исход не был предусмотрен сценарием. Anthropic относит подобные случаи к части испытаний на безопасность, призванных ограничить «игру с правилами».

Opus 4.5 якобы достигает нужного качества в меньшем числе шагов по сравнению с предыдущими версиями благодаря механизмам уплотнения контекста и более продвинутому использованию инструментов для долгоживущих агентов и масштабных рабочих процессов.

В области безопасности Anthropic также характеризует Opus 4.5 как свой наиболее безопасный релиз: модель стала устойчивее к различным атакам. Компания ссылается на независимые тесты усиленных попыток внедрения подсказок, согласно которым Opus 4.5 сложнее склонить к нарушению правил, чем другие передовые системы.

Разработчики компании отмечают, что клиенты с доступом к Opus 4.5 получат повышенные лимиты использования: отдельные ограничения для Opus в Claude и Claude Code будут сняты. Лимиты устанавливаются для каждой модели отдельно и могут изменяться по мере появления новых систем.

Как мы сообщали ранее, Alpha Arena вернулась и запустила следующий сезон ИИ-торгов, в рамках которого восемь языковых моделей вышли в реальную торговлю на фондовом рынке США, получив по $10 000 для четырех заданий. В прошлый раз все завершилось победой Qwen 3 Max, показавшей доходность в 22% на крипторынке.

Материалы на GNcrypto предоставляются исключительно в информационных целях и не являются финансовой рекомендацией. Мы стремимся публиковать точные и актуальные данные, однако не можем гарантировать их абсолютную достоверность, полноту или надёжность. GNcrypto не несёт ответственности за возможные ошибки, упущения или финансовые потери, возникшие вследствие использования данной информации. Все действия вы совершаете на свой страх и риск. Всегда проводите собственный анализ и консультируйтесь с профессионалами. Подробнее см. в наших страницах Условия, Политика конфиденциальности и Отказ от ответственности.

Статьи этого автора