Клод Опус 4.5 з'явився! Точність значно перевищує GPT-5.1 та Gemini 3, Ракутен: саморозвиток сильний.

ChainNewsAbmedia

2025-11-25 08:54:29

Тільки через тиждень після виходу Gemini 3 від Google, Anthropic також оголосила про запуск своєї останньої флагманської моделі Claude Opus 4.5 25 листопада, підкресливши, що ця версія має значні поліпшення в написанні програм, управлінні AI-агентами та використанні комп'ютерних програм, а також може обробляти довші діалоги. Керівник відносин з розробниками Anthropic Алекс Альберт навіть під час інтерв'ю зазначив: «Це найрозумніша модель у світі.»

Claude Opus 4.5 найсильніші моменти в одному погляді

Яскрава риса 1: Продуктивність розбиває GPT-5.1 та Gemini 3, посилює застосування代理.

Офіційно Opus 4.5 позиціонується як «один із найпотужніших моделей у світі», і з цього моменту доступний у додатку, API та на трьох великих хмарних платформах (AWS, GCP, Azure). З графіка порівняння продуктивності AI моделей, наданого Anthropic, можна дізнатися:

«Opus 4.5 має точність до 80,9 %, перевершуючи Gemini 3 Pro та GPT-5.1.»

Офіційні особи заявили, що в Opus 4.5 особливо виділяються програмування, AI-агенти, багатоступеневе мислення та управління комп'ютерними інструментами, такі як загальні роботи, як тривалі дослідження, PowerPoint, Excel тощо, також значно покращилися.

А нова ціна становить 5 доларів за мільйон введених токенів і 25 доларів за мільйон виведених, що є більш доступним у порівнянні з попереднім поколінням Opus 4.1, що дозволяє більшій кількості підприємств і команд використовувати функції рівня Opus.

Яскравий момент 2: внутрішнє тестування отримало одностайні позитивні відгуки, може зрозуміти та вирішити задачі.

Anthropic повідомляє, що після випуску тестової версії члени команди надали одностайний відгук. Особливо:

«Opus 4.5 може вирішувати деякі неясні проблеми, виконувати оцінку міркувань і самостійно шукати рішення, коли стикається з багатьма складними багами системи.»

Спочатку завдання, яке Sonnet 4.5 практично не могло виконати, тепер може виконати Opus 4.5. Тестувальники в загальному вказують, що Opus 4.5 дуже розуміє «намір користувача», а офіційно це також вважається очевидною різницею в досвіді.

Windsurf, GitHub та інші генеральні директори підтримують Opus 4.5. Яскравий момент три: інноваційний рекорд програмних тестів, результати за дві години перевищують людські.

Anthropic зазначив, що компанія використовує досить складний практичний тест при наборі інженерів. Цього разу, в рамках однакових двох годин на відповідь, продуктивність Claude Opus 4.5 перевершила всі попередні людські кандидати, встановивши новий рекорд.

Офіційне доповнення: цей тест в основному оцінює технічні здібності та здатність до судження під тиском, не торкаючись таких м'яких навичок, як співпраця та комунікація. Проте з цих результатів можна побачити, що ШІ в інженерній сфері швидко прогресує на чисто технічному рівні.

Основна перевага 4: підвищена безпека, стало важче піддаватися атакам через введення підказок.

Anthropic підкреслює, що Opus 4.5 є «найбільш узгодженою та найзахищенішою» версією моделі на сьогодні.

Цього разу акцент безпеки полягав у тому, що модель значно підвищила свою стійкість до атак з використанням ін'єкцій підказок, і зловмисні команди не так легко проникають у модель, а також стає важче обманути систему, щоб вона невірно виконала недоречні дії. У порівнянні з іншими передовими моделями, Opus 4.5 також здобула найкращі результати у відповідних тестах безпеки. З наведеного нижче малюнка можна зрозуміти:

«Opus 4.5 та інші відомі моделі при однакових умовах тестування є найменш вразливими до обману, найменш піддаються успішним атакам з ін'єкцією підказок, демонструючи вражаючу оборонну ефективність.»

Пункт 5: Довгі діалоги без переривань, Chrome та додаток покращують досвід

Anthropic також оновив кілька продуктів. По-перше, режим планування Claude Code було додатково удосконалено, він спочатку прояснює питання, після чого автоматично генерує редагований plan.md, а потім виконує програму. Десктопна версія також додала кілька сеансів, що дозволяє кільком агентам виконувати різні завдання одночасно.

Звичайний користувач часто використовує Claude App, який також був покращений; довгі діалоги більше не застряють через занадто довгий контекст, система автоматично організовує попередній вміст, щоб діалог не переривався. Claude для Chrome тепер повністю доступний для користувачів Max, що дозволяє обробляти складні операції через вкладки.

Claude для Excel спочатку був обмежений бета-користувачами, але тепер розширено до користувачів Max, Team, Enterprise, а також інтегровано Opus 4.5 для покращення можливостей роботи з таблицями та обробки даних. Нарешті, Anthropic також підвищив загальний ліміт використання, скасувавши обмеження, ексклюзивні для Opus, що дозволяє користувачам Max та Team Premium використовувати Opus 4.5 на рівні “щоденного навантаження”. У майбутньому, якщо будуть випущені більш потужні моделі, відповідне використання також буде скориговано.

( Примітка.

plan.md

Це не зовнішній файл, а «документ плану завдань», що автоматично генерується Claude Code перед виконанням завдань, формат якого використовує загальноприйнятий Markdown. )

Дві крапки шість: Rakuten вказує, що Opus 4.5 має функцію самоеволюції

Серед них є особливий акцент, японський Rakuten ( зазначив, що Claude Opus 4.5 демонструє явний прорив у саморозвиваючих AI-агентах.

У реальному застосуванні автоматизації офісу відповідні агенти можуть самостійно оптимізувати свої можливості, досягаючи найкращих результатів всього за чотири ітерації, тоді як інші моделі, навіть якщо їх запустити десять разів, не можуть досягти такої ж якості.

Rakuten підкреслює, що ця різниця дозволяє Opus 4.5 демонструвати вищу ефективність у корпоративних застосуваннях.

Ця стаття Claude Opus 4.5 виходить! Точність значно перевищує GPT-5.1 та Gemini 3, Rakuten: самоеволюція найсильніша вперше з'явилася в Chain News ABMedia.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.