Claude Opus 4.5 chega! Taxa de precisão supera a GPT-5.1 e Gemini 3, Rakuten: autoevolução forte

ChainNewsAbmedia

2025-11-25 08:54:29

Uma semana após o lançamento do Gemini 3 pelo Google, a Anthropic também anunciou no dia 25/11 o lançamento do seu mais recente modelo flagship, Claude Opus 4.5. Foi afirmado que esta versão apresenta melhorias significativas em programação, operações de agentes de IA e no uso de aplicações de computador, além de ser capaz de lidar com diálogos mais longos. O chefe de relações com desenvolvedores da Anthropic, Alex Albert, até comentou em uma entrevista: “Este é o modelo mais inteligente do mundo.”

Claude Opus 4.5 Os melhores destaques de uma só vez

Destaque 1: Desempenho superior ao GPT-5.1 e Gemini 3, aprimorando aplicações de agentes.

A oficial posicionou o Opus 4.5 como “um dos modelos mais poderosos do mundo”, e a partir de agora estará disponível nas plataformas App, API e nos três principais serviços de nuvem (AWS, GCP, Azure). A partir do gráfico de comparação de desempenho dos modelos de IA fornecido pela Anthropic, pode-se concluir:

“Opus 4.5 tem uma taxa de precisão de até 80,9 %, superando o Gemini 3 Pro e o GPT-5.1.”

As autoridades afirmaram que o Opus 4.5 se destaca especialmente na programação, Agentes de IA, raciocínio em múltiplas etapas e operação de ferramentas de computador, com um desempenho visivelmente melhorado em aplicações comuns, como pesquisas longas, PowerPoint, Excel, entre outras.

E o novo preço é de 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída, sendo mais acessível do que a geração anterior Opus 4.1, permitindo que mais empresas e equipes adotem funcionalidades de nível Opus.

Destaque 2: Testes internos com avaliações consistentes e positivas, capaz de entender e resolver problemas.

A Anthropic revelou que, após o lançamento da versão de teste, os membros da equipe deram um feedback unânime. Em particular:

“Opus 4.5 pode lidar com algumas questões ambíguas, ponderações de raciocínio e, ao encontrar bugs complexos em múltiplos sistemas, irá pesquisar soluções por conta própria.”

A tarefa que originalmente o Sonnet 4.5 quase não conseguia realizar, agora o Opus 4.5 consegue completar. Os testadores em geral afirmam que o Opus 4.5 entende bem “a intenção do usuário”, e a equipe oficial também acredita que isso traz uma diferença de experiência clara.

Windsurf, GitHub e outros CEOs endossam o Opus 4.5. Destaque três: inovações em testes de programação, desempenho em questões de duas horas supera o humano.

A Anthropic apontou que a empresa utiliza um teste prático de dificuldade bastante elevada ao recrutar engenheiros. Nesta vez, dentro do mesmo limite de tempo de duas horas para responder, o Claude Opus 4.5 superou todos os candidatos humanos ao longo dos anos, estabelecendo um novo recorde.

A informação oficial acrescenta que este teste avalia principalmente as competências técnicas e o julgamento sob pressão, não envolvendo competências interpessoais como colaboração e comunicação. No entanto, os resultados desta vez mostram que a IA está a progredir a uma velocidade extremamente rápida no domínio puramente técnico da engenharia.

Destaque 4: A segurança é ainda mais reforçada, tornando mais difícil ser enganado por ataques de injeção de提示.

A Anthropic enfatiza que o Opus 4.5 é a versão do modelo “mais alinhada e segura” até agora.

A ênfase na atualização de segurança desta vez é que a resistência do modelo a ataques de injeção de prompts foi significativamente aprimorada, tornando difícil que comandos maliciosos sejam inseridos no modelo e mais complicado enganar o sistema para executar comportamentos inadequados. Em comparação com outros modelos de ponta, o Opus 4.5 também obteve os melhores resultados nos testes de segurança relevantes. A partir da imagem abaixo, pode-se concluir:

“Opus 4.5 é o menos suscetível a ser enganado e o menos propenso a ataques de injeção de dicas sob as mesmas condições de teste que outros modelos conhecidos, apresentando um desempenho defensivo impressionante.”

Destaque cinco: conversas longas sem interrupções, Chrome e App melhoram a experiência de forma abrangente

A Anthropic também atualizou vários produtos. Primeiro, o Modo de Planejamento do Claude Code foi aprimorado, onde as questões são esclarecidas antes de gerar automaticamente um plan.md editável, seguido pela execução do programa. A versão de desktop também adicionou múltiplas Sessões, permitindo que vários agentes executem diferentes tarefas simultaneamente.

A aplicação Claude, comumente usada pelos usuários, também foi aprimorada, permitindo que longas conversas não fiquem travadas devido ao contexto longo, pois o sistema organiza automaticamente o conteúdo anterior para que a conversa não seja interrompida. O Claude para Chrome está agora totalmente acessível aos usuários do Max, permitindo a gestão de operações complexas entre abas.

Claude para Excel era originalmente limitado a usuários Beta, mas agora foi expandido para usuários Max, Team e Enterprise, combinando-se com o Opus 4.5 para melhorar as capacidades de manipulação de tabelas e dados. Por fim, a Anthropic também aumentou o limite geral de uso, removendo as restrições exclusivas do Opus, permitindo que usuários Premium Max e Team utilizem o Opus 4.5 em um nível de “carga de trabalho diária”. No futuro, se modelos mais potentes forem lançados, o uso relacionado também será ajustado.

(Nota:

plan.md

Não é um arquivo externo, mas sim um “documento de plano de tarefas” gerado automaticamente pelo Claude Code antes de executar a tarefa, utilizando o formato comum Markdown. )

Duas e seis: a Rakuten apontou que o Opus 4.5 possui a funcionalidade de autoevolução.

Um destaque especial é que a Rakuten ( do Japão apontou que o Claude Opus 4.5 mostrou avanços significativos em agentes de IA auto-evolutivos.

Na aplicação prática da automação de escritórios, os agentes relevantes conseguem otimizar suas capacidades de forma autônoma, alcançando o desempenho ideal em apenas quatro iterações, enquanto outros modelos, mesmo após dez tentativas, não conseguem igualar a mesma qualidade.

A Rakuten enfatiza que essa diferença permite que o Opus 4.5 demonstre maior eficiência em aplicações empresariais.

Este artigo apresenta Claude Opus 4.5! Taxa de precisão muito superior à do GPT-5.1 e Gemini 3, Rakuten: a auto-evolução é forte. Apareceu pela primeira vez na Chain News ABMedia.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.