# Neden yapay zeka halüsinasyon görüyor? OpenAI araştırması
Dil modelleri halüsinasyon yapar çünkü standart eğitim ve değerlendirme prosedürleri belirsizliği kabul etmek yerine tahminleri teşvik eder. Bu, OpenAI araştırma çalışmasında belirtilmiştir.
Şirket, sorunu şu şekilde tanımladı:
«Halüsinasyonlar - dil modelleri tarafından üretilen, inandırıcı ama yanlış ifadeler. Görünüşte basit sorulara verilen yanıtlarda bile beklenmedik şekillerde ortaya çıkabilirler.»
Örneğin, araştırmacılar "yaygın bir sohbet botuna" Adam Tauman Kalai'nin ( makalenin yazarı ) doktora tezi başlığını sorduğunda, hiçbiri doğru olmayan üç farklı cevap verdi. AI'ya doğum günü sorulduğunda, üç yanlış tarih verdi.
OpenAI'ye göre, halüsinasyonlar kısmen modern değerlendirme yöntemlerinin yanlış teşvikler sağlamasından kaynaklanmaktadır ve bu da sinir ağlarını yanıt olarak bir sonraki sembolü "tahmin etmeye" zorlamaktadır.
Bir benzetme olarak, bir kişinin bir testteki sorunun doğru cevabını bilmediği ancak tahmin edebileceği ve yanlışlıkla doğru seçeneği seçebileceği durum gösterildi.
İki modelin cevapların doğruluğunun karşılaştırması. Kaynak: OpenAI.
«Diyelim ki bir dil modelinden birinin doğum günü soruluyor, ama o bilmiyor. Eğer “10 Eylül” diye tahmin ederse, doğru cevap alma olasılığı 365'e 1 olacak. “Bilmiyorum” yanıtı sıfır puan garanti eder. Binlerce test sorusundan sonra, tahmine dayalı bir model, belirsizliği kabul eden titiz bir modelden daha iyi görünüyor», — araştırmacılar açıkladı.
Doğruluk açısından daha eski OpenAI modeli - o4-mini - biraz daha iyi çalışıyor. Ancak, belirsiz durumlarda stratejik tahmin doğruluğu artırmasına rağmen, daha yüksek bir hata oranına sahip, bu da halüsinasyon sayısını artırıyor.
Nedenler ve Çözümler
Dil modelleri, en başta "önceden eğitim" süreciyle, devasa metin hacimlerinde bir sonraki kelimenin tahmin edilmesi yoluyla eğitilir. Geleneksel makine öğrenimi görevlerinden farklı olarak, burada her ifadenin yanında "doğru/yanlış" etiketleri yoktur. Model yalnızca dilin olumlu örneklerini görür ve genel dağılımı yaklaşık olarak tahmin etmelidir.
"Doğru ifadeleri yanlışlardan ayırt etmek iki kat daha zor, yanlış olarak etiketlenmiş örnekler olmadığında. Ancak hata etiketleri olsa bile hatalar kaçınılmazdır," diye vurguladı OpenAI.
Şirket başka bir örnek verdi. Görüntü tanımada, eğer milyonlarca kedi ve köpek fotoğrafı sırasıyla etiketlenirse, algoritmalar bunları güvenilir bir şekilde sınıflandırmayı öğrenir. Ama eğer her evcil hayvanın fotoğrafı doğum tarihine göre dağıtılırsa, görev her zaman hatalara yol açacaktır, algoritmanın ne kadar gelişmiş olduğuna bakılmaksızın.
Metinle de aynı şey olur - yazım ve noktalama sürekli bir düzeni takip eder, bu yüzden hatalar ölçek büyüdükçe kaybolur.
Araştırmacılar, "belirsizliği dikkate alan birkaç yeni testin" yalnızca eklenmesinin yeterli olmadığını savunuyorlar. Bunun yerine, "doğruluğa dayalı yaygın olarak kullanılan tahminlerin, sonuçlarının tahmin etme girişimlerini dışlayacak şekilde güncellenmesi gerekiyor."
"Eğer temel [değerlendirme] ölçekleri başarılı tahminleri teşvik etmeye devam ederse, modeller tahmin etmeyi öğrenmeye devam edecektir," diyor OpenAI.
Hatırlatalım ki, Mayıs ayında ForkLog, halüsinasyonların yapay zekanın ana sorunu olmaya devam ettiğini yazmıştı.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Yapay zeka neden halüsinasyon görüyor? OpenAI Araştırması
Dil modelleri halüsinasyon yapar çünkü standart eğitim ve değerlendirme prosedürleri belirsizliği kabul etmek yerine tahminleri teşvik eder. Bu, OpenAI araştırma çalışmasında belirtilmiştir.
Şirket, sorunu şu şekilde tanımladı:
Örneğin, araştırmacılar "yaygın bir sohbet botuna" Adam Tauman Kalai'nin ( makalenin yazarı ) doktora tezi başlığını sorduğunda, hiçbiri doğru olmayan üç farklı cevap verdi. AI'ya doğum günü sorulduğunda, üç yanlış tarih verdi.
OpenAI'ye göre, halüsinasyonlar kısmen modern değerlendirme yöntemlerinin yanlış teşvikler sağlamasından kaynaklanmaktadır ve bu da sinir ağlarını yanıt olarak bir sonraki sembolü "tahmin etmeye" zorlamaktadır.
Bir benzetme olarak, bir kişinin bir testteki sorunun doğru cevabını bilmediği ancak tahmin edebileceği ve yanlışlıkla doğru seçeneği seçebileceği durum gösterildi.
Doğruluk açısından daha eski OpenAI modeli - o4-mini - biraz daha iyi çalışıyor. Ancak, belirsiz durumlarda stratejik tahmin doğruluğu artırmasına rağmen, daha yüksek bir hata oranına sahip, bu da halüsinasyon sayısını artırıyor.
Nedenler ve Çözümler
Dil modelleri, en başta "önceden eğitim" süreciyle, devasa metin hacimlerinde bir sonraki kelimenin tahmin edilmesi yoluyla eğitilir. Geleneksel makine öğrenimi görevlerinden farklı olarak, burada her ifadenin yanında "doğru/yanlış" etiketleri yoktur. Model yalnızca dilin olumlu örneklerini görür ve genel dağılımı yaklaşık olarak tahmin etmelidir.
Şirket başka bir örnek verdi. Görüntü tanımada, eğer milyonlarca kedi ve köpek fotoğrafı sırasıyla etiketlenirse, algoritmalar bunları güvenilir bir şekilde sınıflandırmayı öğrenir. Ama eğer her evcil hayvanın fotoğrafı doğum tarihine göre dağıtılırsa, görev her zaman hatalara yol açacaktır, algoritmanın ne kadar gelişmiş olduğuna bakılmaksızın.
Metinle de aynı şey olur - yazım ve noktalama sürekli bir düzeni takip eder, bu yüzden hatalar ölçek büyüdükçe kaybolur.
Araştırmacılar, "belirsizliği dikkate alan birkaç yeni testin" yalnızca eklenmesinin yeterli olmadığını savunuyorlar. Bunun yerine, "doğruluğa dayalı yaygın olarak kullanılan tahminlerin, sonuçlarının tahmin etme girişimlerini dışlayacak şekilde güncellenmesi gerekiyor."
Hatırlatalım ki, Mayıs ayında ForkLog, halüsinasyonların yapay zekanın ana sorunu olmaya devam ettiğini yazmıştı.