Meneliti Keandalan Model GPT: Hasil Evaluasi Menyeluruh Mengungkap Risiko Potensial
Sebuah penelitian yang dilakukan secara kolaboratif oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research, telah melakukan evaluasi menyeluruh terhadap keandalan model bahasa besar (LLMs). Tim peneliti merilis sebuah platform evaluasi komprehensif dan menjelaskan hasil penelitian dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT."
Hasil evaluasi mengungkapkan beberapa kerentanan terkait keandalan yang sebelumnya tidak diungkapkan. Penelitian menemukan bahwa model GPT mudah disesatkan untuk menghasilkan output beracun dan bias, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi sistem atau petunjuk pengguna yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian bekerja sama dengan pihak terkait untuk memastikan bahwa potensi kerentanan yang ditemukan tidak mempengaruhi layanan yang saat ini ditujukan kepada pelanggan. Mereka juga telah berbagi hasil penelitian dengan pengembang model GPT, yang telah mencantumkan masalah potensial ini dalam dokumen sistem model yang relevan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, mencakup berbagai skenario pembangunan, tugas, indikator, dan kumpulan data. Tujuan evaluasi termasuk: 1) kinerja model GPT di berbagai perspektif keandalan; 2) kemampuannya untuk beradaptasi di lingkungan yang bersifat adversarial.
Secara khusus, penelitian menemukan:
Dalam hal demonstrasi yang bersifat kontra, model GPT tidak akan terpengaruh oleh contoh kontra faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-kecurangan, terutama ketika demonstrasi kontra faktual dekat dengan input pengguna.
Dalam hal toksisitas dan bias, model GPT memiliki sedikit bias terhadap sebagian besar topik stereotip di bawah petunjuk yang bersifat baik, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. Tingkat bias model dipengaruhi oleh kelompok dan tema stereotip yang disebutkan dalam petunjuk pengguna.
Dalam hal kebocoran privasi, model GPT dapat membocorkan informasi sensitif dari data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sedikit sampel. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model dapat membocorkan semua jenis informasi pribadi saat dihadapkan dengan demonstrasi kebocoran privasi.
Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model GPT, mengungkapkan kesenjangan kredibilitas yang penting. Tim penelitian berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih kredibel.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
19 Suka
Hadiah
19
10
Bagikan
Komentar
0/400
LayoffMiner
· 07-19 15:09
Terlalu berlebihan, bahkan AI juga mulai suka menyelidiki privasi orang lain.
Lihat AsliBalas0
TopEscapeArtist
· 07-18 22:50
Sinyal bearish lagi? Sejak lama grafik candlestick sudah penuh dengan bahaya, tidak perlu diteliti untuk memberitahu saya.
Lihat AsliBalas0
NFTRegretter
· 07-18 14:53
Kode ini akan bermasalah lagi.
Lihat AsliBalas0
OnchainDetective
· 07-18 05:50
Sudah lama merasa tidak dapat diandalkan.
Lihat AsliBalas0
OnchainUndercover
· 07-17 19:34
Lucu gpt lebih baik yang transparan.
Lihat AsliBalas0
GateUser-afe07a92
· 07-17 19:34
Tidak ada AI yang sepenuhnya aman.
Lihat AsliBalas0
NFTArtisanHQ
· 07-17 19:34
menarik... sama seperti karya rothko tentang kekosongan, celah kepercayaan AI ini mengungkapkan paradoks eksistensial yang mendalam dalam keaslian digital
Lihat AsliBalas0
fomo_fighter
· 07-17 19:33
Sekarang semua orang khawatir tentang AI, sangat lucu.
Evaluasi keandalan model GPT: Mengungkap risiko kebocoran privasi dan bias
Meneliti Keandalan Model GPT: Hasil Evaluasi Menyeluruh Mengungkap Risiko Potensial
Sebuah penelitian yang dilakukan secara kolaboratif oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research, telah melakukan evaluasi menyeluruh terhadap keandalan model bahasa besar (LLMs). Tim peneliti merilis sebuah platform evaluasi komprehensif dan menjelaskan hasil penelitian dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT."
Hasil evaluasi mengungkapkan beberapa kerentanan terkait keandalan yang sebelumnya tidak diungkapkan. Penelitian menemukan bahwa model GPT mudah disesatkan untuk menghasilkan output beracun dan bias, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi sistem atau petunjuk pengguna yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan, yang mungkin disebabkan karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian bekerja sama dengan pihak terkait untuk memastikan bahwa potensi kerentanan yang ditemukan tidak mempengaruhi layanan yang saat ini ditujukan kepada pelanggan. Mereka juga telah berbagi hasil penelitian dengan pengembang model GPT, yang telah mencantumkan masalah potensial ini dalam dokumen sistem model yang relevan.
Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang keandalan, mencakup berbagai skenario pembangunan, tugas, indikator, dan kumpulan data. Tujuan evaluasi termasuk: 1) kinerja model GPT di berbagai perspektif keandalan; 2) kemampuannya untuk beradaptasi di lingkungan yang bersifat adversarial.
Secara khusus, penelitian menemukan:
Dalam hal demonstrasi yang bersifat kontra, model GPT tidak akan terpengaruh oleh contoh kontra faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-kecurangan, terutama ketika demonstrasi kontra faktual dekat dengan input pengguna.
Dalam hal toksisitas dan bias, model GPT memiliki sedikit bias terhadap sebagian besar topik stereotip di bawah petunjuk yang bersifat baik, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. Tingkat bias model dipengaruhi oleh kelompok dan tema stereotip yang disebutkan dalam petunjuk pengguna.
Dalam hal kebocoran privasi, model GPT dapat membocorkan informasi sensitif dari data pelatihan, terutama dalam konteks tertentu atau demonstrasi dengan sedikit sampel. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model dapat membocorkan semua jenis informasi pribadi saat dihadapkan dengan demonstrasi kebocoran privasi.
Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model GPT, mengungkapkan kesenjangan kredibilitas yang penting. Tim penelitian berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih kredibel.