Anthropic випустила Claude Opus 4.5 з рекордним балом у тесті з програмування

Anthropic представила Claude Opus 4.5 — модель, яка, за даними компанії, перевершила людей на двогодинному внутрішньому іспиті з програмування.
Anthropic оголосила про запуск Claude Opus 4.5, зазначивши, що оновлена модель перевершила всіх кандидатів на внутрішньому двогодинному іспиті з програмування. Реліз відкриває нові можливості для розробки ПЗ, автономних агентських систем, а також аналізу таблиць і фінансових даних.
Opus 4.5 вже доступний в додатках Claude, через API і на основних хмарних платформах. Вартість становить $5 за мільйон вхідних токенів і $25 за мільйон вихідних.
За підтримки Amazon, Alphabet і Microsoft, компанія представляє Opus 4.5 як свою найпотужнішу модель Claude на даний момент — з посиленими можливостями глибокого міркування, роботи з довгим контекстом і управління комп’ютером для моделювання, прогнозування та підготовки документів.
Anthropic стверджує, що Opus 4.5 перевершив історичні результати людей на домашньому іспиті з інженерії продуктивності програмного забезпечення. Тест оцінює технічні навички та інженерне чуття в умовах жорстких часових обмежень.
Результат був досягнутий за рахунок декількох спроб моделі по кожному завданню з вибором кращої відповіді. При цьому компанія підкреслює, що іспит не вимірює нетехнічні навички, такі як командна взаємодія.
Крім програмування, модель отримала функції для планування, виконання і доопрацювання довгих завдань. За словами Anthropic, агенти на базі Opus 4.5 можуть зберігати інсайти з минулих сесій, повторно використовувати їх пізніше, координувати субагентів для складних проектів і супроводжувати тривалі процеси — від глибоких досліджень до підготовки презентацій і складних таблиць.
В одному з бенчмарків для агентських сценаріїв модель обробила запит на авіапереліт, спочатку змінивши клас квитка на кращий варіант, а потім і рейс з урахуванням політики компанії. Цей епізод був зарахований як помилка, оскільки такий результат не був передбачений сценарієм. Anthropic відносить подібні випадки до частини випробувань на безпеку, покликаних обмежити «гру з правилами».
Opus 4.5 нібито досягає необхідної якості за меншу кількість кроків у порівнянні з попередніми версіями завдяки механізмам ущільнення контексту і більш просунутому використанню інструментів для довгоживучих агентів і масштабних робочих процесів.
У сфері безпеки Anthropic також характеризує Opus 4.5 як свій найбезпечніший реліз: модель стала стійкішою до різних атак. Компанія посилається на незалежні тести посилених спроб впровадження підказок, згідно з якими Opus 4.5 складніше схилити до порушення правил, ніж інші передові системи.
Розробники компанії відзначають, що клієнти з доступом до Opus 4.5 отримають підвищені ліміти використання: окремі обмеження для Opus в Claude і Claude Code будуть зняті. Ліміти встановлюються для кожної моделі окремо і можуть змінюватися в міру появи нових систем.
Як ми повідомляли раніше, Alpha Arena повернулася і запустила наступний сезон ШІ-торгів, в рамках якого вісім мовних моделей вийшли в реальну торгівлю на фондовому ринку США, отримавши по $10 000 за чотири завдання. Минулого разу все завершилося перемогою Qwen 3 Max, яка показала прибутковість у 22% на крипторинку.
Матеріали на GNcrypto надаються виключно з інформаційною метою і не є фінансовою порадою. Ми намагаємось забезпечувати точність та актуальність даних, однак не можемо гарантувати їхню повну достовірність чи надійність. GNcrypto не несе відповідальності за можливі помилки, упущення або фінансові збитки, що можуть виникнути внаслідок використання цієї інформації. Усі дії ви здійснюєте на власний ризик. Завжди проводьте власне дослідження та звертайтесь до фахівців. Детальніше дивіться на наших сторiнках Умови, Політика конфіденційності та Дисклеймер.








