Anthropic wprowadziła Claude Opus 4.5 z rekordowym wynikiem w teście programowania

Anthropic launches Claude Opus 4.5 with record score on internal coding test - GNcrypto

Anthropic zaprezentowała Claude Opus 4.5 — model, który, jak podaje firma, przewyższył ludzi na dwugodzinnym wewnętrznym egzaminie z programowania.

Anthropic ogłosiła wprowadzenie Claude Opus 4.5, podkreślając, że zaktualizowany model przewyższył wszystkich uczestników wewnętrznego, dwugodzinnego egzaminu z programowania. Premiera otwiera nowe możliwości w zakresie tworzenia oprogramowania, autonomicznych systemów agentowych, a także analizy arkuszy kalkulacyjnych i danych finansowych.

Opus 4.5 jest już dostępny w aplikacjach Claude, przez API oraz na głównych platformach chmurowych. Cena wynosi 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych.

Przy wsparciu Amazona, Alphabetu i Microsoftu firma przedstawia Opus 4.5 jako swój najpotężniejszy jak dotąd model Claude — z ulepszonymi możliwościami głębokiego rozumowania, pracy z długim kontekstem oraz kontroli komputera na potrzeby modelowania, prognozowania i przygotowywania dokumentów.

Anthropic twierdzi, że Opus 4.5 przewyższył dotychczasowe wyniki ludzi na wewnętrznym egzaminie domowym z inżynierii wydajności oprogramowania. Test ocenia umiejętności techniczne i intuicję inżynierską w warunkach ścisłych ograniczeń czasowych.

Wynik osiągnięto dzięki wielokrotnym podejściom modelu do każdego zadania i wyborowi najlepszej odpowiedzi. Jednocześnie firma podkreśla, że egzamin nie mierzy umiejętności miękkich, takich jak praca zespołowa.

Oprócz programowania model zyskał funkcje do planowania, wykonywania i dopracowywania długotrwałych zadań. Według Anthropic agenci oparci na Opus 4.5 mogą zachowywać wnioski z poprzednich sesji, ponownie wykorzystywać je później, koordynować subagentów przy złożonych projektach i towarzyszyć długim procesom — od pogłębionych badań po przygotowanie prezentacji i złożonych arkuszy kalkulacyjnych.

W jednym z benchmarków dla scenariuszy agentowych model obsłużył zapytanie dotyczące lotu, najpierw zmieniając klasę biletu na lepszą opcję, a następnie także sam lot, biorąc pod uwagę politykę firmy. Ten przypadek został zaliczony jako błąd, ponieważ taki wynik nie był przewidziany w scenariuszu. Anthropic zalicza podobne sytuacje do części testów bezpieczeństwa mających na celu ograniczenie „gry z zasadami”.

Opus 4.5 ma rzekomo osiągać wymaganą jakość w mniejszej liczbie kroków w porównaniu z poprzednimi wersjami dzięki mechanizmom zagęszczania kontekstu oraz bardziej zaawansowanemu wykorzystaniu narzędzi przez długo działających agentów i w szeroko zakrojonych procesach roboczych.

W obszarze bezpieczeństwa Anthropic określa również Opus 4.5 jako swoje najbezpieczniejsze dotychczasowe wydanie: model stał się bardziej odporny na różne ataki. Firma powołuje się na niezależne testy wzmocnionych prób ataków typu prompt injection, według których Opus 4.5 trudniej skłonić do łamania zasad niż inne czołowe systemy.

Programiści firmy zaznaczają, że klienci z dostępem do Opus 4.5 otrzymają podwyższone limity wykorzystania: oddzielne ograniczenia dla Opus w Claude i Claude Code zostaną zniesione. Limity są ustalane osobno dla każdego modelu i mogą się zmieniać w miarę pojawiania się nowych systemów.

Jak informowaliśmy wcześniej, Alpha Arena powróciła i uruchomiła kolejny sezon handlu z wykorzystaniem SI, w ramach którego osiem modeli językowych prowadziło rzeczywisty handel na amerykańskim rynku akcji, dysponując kwotą 10 000 dolarów na cztery zadania. Poprzednio wszystko zakończyło się zwycięstwem Qwen 3 Max, która osiągnęła 22% zysku na rynku kryptowalut.

Treści publikowane na GNcrypto mają wyłącznie charakter informacyjny i nie stanowią porady finansowej. Dokładamy starań, aby informacje były rzetelne i aktualne, jednak nie gwarantujemy ich pełnej poprawności, kompletności ani niezawodności. GNcrypto nie ponosi odpowiedzialności za ewentualne błędy, pominięcia ani straty finansowe wynikające z polegania na tych treściach. Wszystkie działania podejmujesz na własne ryzyko. Zawsze prowadź własne badania i korzystaj z pomocy profesjonalistów. Szczegóły znajdziesz w naszych Warunkach, Polityce prywatności i Zastrzeżeniach.

Artykuły tego autora