Claude Opus 4.5 hadir! Akurasi jauh mengalahkan GPT-5.1 dan Gemini 3, Rakuten: evolusi diri yang kuat

ChainNewsAbmedia

2025-11-25 08:54:29

Hanya satu minggu setelah Google meluncurkan Gemini 3, Anthropic juga mengumumkan peluncuran model flagship terbarunya, Claude Opus 4.5, pada 25 November. Mereka menyatakan bahwa versi ini mengalami peningkatan besar dalam pemrograman, operasi agen AI, dan penggunaan aplikasi komputer, serta dapat menangani konten percakapan yang lebih panjang. Kepala hubungan pengembang Anthropic, Alex Albert, bahkan menyatakan dalam sebuah wawancara: “Ini adalah model paling cerdas di dunia.”

Claude Opus 4.5 Sorotan Terkuat Sekali Lihat

Sorotan 1: Kinerja mengalahkan GPT-5.1 dan Gemini 3, memperkuat aplikasi agen

Resmi menetapkan Opus 4.5 sebagai “salah satu model terkuat di dunia”, dan mulai hari ini tersedia di App, API, dan tiga platform cloud (AWS, GCP, Azure). Dari grafik perbandingan kinerja model AI yang disediakan oleh Anthropic, dapat diketahui:

“Opus 4.5 memiliki akurasi hingga 80,9%, mengalahkan Gemini 3 Pro dan GPT-5.1.”

Pihak resmi menyatakan bahwa Opus 4.5 kali ini sangat menonjol dalam pemrograman, Agen AI, penalaran multi-langkah, dan pengoperasian alat komputer, seperti pekerjaan umum seperti penelitian panjang, PowerPoint, Excel, dan aplikasi lainnya yang juga menunjukkan peningkatan yang jelas.

Dan harga baru adalah 5 dolar untuk setiap satu juta token yang dimasukkan, dan 25 dolar untuk setiap satu juta token yang dikeluarkan, yang lebih terjangkau dibandingkan generasi sebelumnya Opus 4.1, memungkinkan lebih banyak perusahaan dan tim untuk menggunakan fungsi tingkat Opus.

Sorotan Dua: Uji coba internal mendapatkan ulasan positif, dapat memahami dan menyelesaikan masalah

Anthropic mengungkapkan bahwa setelah merilis versi beta, anggota tim memberikan umpan balik yang konsisten. Terutama adalah:

“Opus 4.5 dapat menangani beberapa masalah yang tidak jelas, menyeimbangkan inferensi, dan akan mencari solusi sendiri ketika menghadapi bug kompleks multi-sistem.”

Awalnya, tugas yang hampir tidak dapat diselesaikan oleh Sonnet 4.5 kini dapat diselesaikan oleh Opus 4.5. Para penguji umumnya menyatakan bahwa Opus 4.5 sangat memahami “keinginan pengguna”, dan pihak resmi juga menganggap bahwa ini membawa perbedaan pengalaman yang jelas.

Windsurf, GitHub, dan CEO lainnya semuanya mendukung Opus 4.5. Sorotan ketiga: Rekor inovasi pengujian perangkat lunak, kinerja soal dalam dua jam melebihi manusia.

Anthropic menunjukkan bahwa perusahaan menggunakan tes praktik yang cukup sulit saat merekrut insinyur. Dalam batas waktu dua jam yang sama, performa Claude Opus 4.5 bahkan melampaui semua pelamar manusia di tahun-tahun sebelumnya, mencetak rekor baru.

Pernyataan resmi menyebutkan bahwa tes ini terutama menilai kemampuan teknis dan kemampuan mengambil keputusan di bawah tekanan, tanpa melibatkan keterampilan lunak seperti kolaborasi dan komunikasi. Namun, dari hasil kali ini dapat dilihat bahwa AI sedang berkembang dengan kecepatan yang sangat cepat di bidang teknik pada level teknis murni.

Sorotan Empat: Keamanan yang Diperkuat, lebih sulit untuk tertipu oleh serangan injeksi prompt

Anthropic menekankan bahwa Opus 4.5 adalah versi model “paling selaras dan paling aman” yang ada hingga saat ini.

Peningkatan keamanan kali ini berfokus pada peningkatan ketahanan model terhadap serangan injeksi prompt, sehingga perintah jahat lebih sulit untuk disisipkan ke dalam model dan lebih sulit untuk menipu sistem agar melakukan perilaku yang tidak tepat. Dibandingkan model-model terdepan lainnya, Opus 4.5 juga meraih hasil terbaik dalam pengujian keamanan terkait. Dari gambar di bawah ini dapat diketahui:

“Opus 4.5 dan model terkenal lainnya dalam kondisi pengujian yang sama, adalah yang paling sulit untuk ditipu, paling sulit untuk berhasil diserang dengan injeksi petunjuk, dengan kinerja pertahanan yang menonjol.”

Sorotan Lima: Dialog panjang tanpa terputus, Chrome dan Aplikasi meningkatkan pengalaman secara menyeluruh.

Anthropic juga memperbarui beberapa produk. Pertama, Mode Rencana Claude Code telah ditingkatkan lebih lanjut, yang akan mengklarifikasi masalah terlebih dahulu dan secara otomatis menghasilkan plan.md yang dapat diedit, sebelum melanjutkan dengan eksekusi program. Versi desktop juga menambahkan beberapa Sesi, yang memungkinkan beberapa agen menjalankan tugas yang berbeda secara bersamaan.

Aplikasi Claude yang umum digunakan oleh pengguna juga telah diperbaiki, percakapan panjang tidak lagi terhambat karena konteks yang terlalu panjang, sistem akan secara otomatis mengatur ulang konten sebelumnya agar percakapan tidak terputus. Claude untuk Chrome kini sepenuhnya dibuka untuk pengguna Max, memungkinkan penanganan operasi kompleks di antara tab.

Claude untuk Excel awalnya hanya terbatas untuk pengguna Beta, kini diperluas untuk pengguna Max, Team, dan Enterprise, serta menggabungkan Opus 4.5 yang memperkuat kemampuan pengolahan tabel dan data. Terakhir, Anthropic juga menaikkan batasan penggunaan keseluruhan, menghapus batasan eksklusif Opus, sehingga pengguna Max dan Team Premium dapat menggunakan Opus 4.5 pada tingkat “beban kerja harian”. Jika di masa depan model yang lebih kuat diluncurkan, penggunaan terkait juga akan disesuaikan.

( catatan:

plan.md

Bukan file eksternal, melainkan sebuah “dokumen rencana tugas” yang secara otomatis dihasilkan oleh Claude Code sebelum menjalankan tugas, dengan format menggunakan Markdown yang umum. )

Dua poin enam: Rakuten menunjukkan bahwa Opus 4.5 memiliki fungsi evolusi diri.

Ada satu sorotan khusus, yaitu Rakuten ( dari Jepang menunjukkan bahwa Claude Opus 4.5 menunjukkan terobosan yang jelas dalam agen AI yang berevolusi secara mandiri.

Dalam aplikasi nyata otomatisasi kantor, program agen terkait dapat mengoptimalkan kemampuannya sendiri, hanya membutuhkan empat iterasi untuk mencapai kinerja terbaik, sementara model lain bahkan setelah sepuluh kali tidak dapat menyamai kualitas yang sama.

Rakuten menekankan bahwa perbedaan ini membuat Opus 4.5 menunjukkan efisiensi yang lebih tinggi dalam aplikasi tingkat perusahaan.

Artikel ini memperkenalkan Claude Opus 4.5! Akurasi jauh mengalahkan GPT-5.1 dan Gemini 3, Rakuten: evolusi diri yang kuat. Pertama kali muncul di Berita Rantai ABMedia.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.