Büyük dil modelinin dilsel olmayan çıkarım yeteneği var mı?

Question

Kaynak: Quantum NumberArs Technica bugünkü bir başlık makalesinde, büyük dil modellerinin dil dışı çıkarım yeteneklerine sahip olup olmadığı konusunu ele aldı ve araştırmacıların bulgularına atıfta bulunarak, yapay zekanın zorlu mantıksal sorunları çözmesine yardımcı olmak için 'potansiyel uzayda' işlem yapmanın kullanışlı olduğunu belirtti. Ne olduğunu görmek için devam edelim.Büyük dil modelleri bugüne kadar büyük başarı elde etti ve dönüştürücü mimarilerini kullanarak bir sonraki kelimeyi (yani dil işaretini) tahmin etmek için sorgu yanıtlarında etkili bir şekilde kullanıldı. Bununla birlikte, bazı araştırmacılar, soyut mantık içeren karmaşık çıkarım görevleri gerektiren durumlarda, her şeyin bu 'dil alanı' üzerinden açıklanmasının bazı sorunlara yol açabileceğini buldular, hatta modern 'çıkarım' modelleri için bile.Şu anda, araştırmacılar bu sorunları çözmek için modeller tasarlayarak, tamamen "potansiyel alan"nda - yani dönüştürücünün dil üreteceği gizli hesaplama katmanının öncesinde - potansiyel mantıksal çözümlemeleri hesaplayabilen modeller yaratmayı çalışıyor. Bu yöntem, büyük dil modellerinin çıkarım yeteneğinde devrim niteliğinde bir değişikliğe yol açmasa da, bazı mantıksal problemlerin doğruluğunu belirgin şekilde artırmakta ve yeni araştırmalar için ilginç yönlendirmeler sağlamaktadır.## **Bir dakika, hangi alan?**Modern çıkarım modelleri (örneğin ChatGPT'nin o1'i) çalışmak için bir 'düşünce zinciri' üretmeyi tercih eder. Bu modellerde, her mantıksal adım doğal dil kelime işaretleri dizisi olarak gösterilir ve modele geri beslenir.Bir yeni makalede, Meta'nın temel yapay zeka araştırma ekibi ve California Üniversitesi, San Diego şubesindeki araştırmacılar, bu doğal dil ve "kelime işareti" bağımlılığını bu çıkarım modellerinin "temel kısıtlayıcı faktörleri" olarak görüyorlar. Bu, çıkarım görevlerini başarıyla tamamlamak için genellikle belirli önemli işaretleri karmaşık bir şekilde planlamayı gerektirir, böylece doğru mantıksal yolun doğru seçenekler arasından bulunabilmesi mümkün olur.![](https://img.jinse.cn/7333100_image3.png)Yukarıdaki şekilde, Standart Modelin her adımının dönüştürücüden geçmesi gerektiği ve COCONUT Modelinin gizli "potansiyel" durumu kullanma arasındaki fark açıklanmaktadır. (Görüntü kaynağı: Training Large Language Models to Reason in a Continuous Latent Space)Araştırmacılar, mevcut düşünce zinciri modelinde, kelime işaretlerinin genellikle 'metin tutarlılığı' ve 'akıcılığı' için oluşturulduğunu, ancak 'gerçek çıkarım sürecine çok az bir katkıda bulunduğunu' belirtiyor. Bunun yerine, 'ideali, büyük dil modellerinin dil sınırlaması olmaksızın özgürce çıkarım yapabilmeleri ve ardından keşiflerini sadece gerektiğinde dile dönüştürebilmeleridir.'Bu "ideali" gerçekleştirmek için, araştırmacılar, başlıkta belirtildiği gibi, büyük dil modellerini "sürekli potansiyel uzayda eğitmek" için bir yöntem tanımladılar. Bu "potansiyel uzay", temelde modelin bu iç durumu insan tarafından okunabilir doğal dil versiyonuna dönüştürmeden önce içeren bir dizi "gizli" ara işare ağırlık setinden oluşur.Araştırmacıların COCONUT modelinde (Continuous Cognitive Chain) bu gizli durumlar "latent düşünce" olarak kodlanır ve eğitim ve sorgu işleme sırasında tek başına yazılı adımları yerine mantıksal bir sıra ile alır. Araştırmacılar, bu sayede her adımı doğal dil olarak dönüştürmek zorunda kalmadan ve "dili boşaltarak akıl yürütmeyi" serbest bırakarak optimize bir akıl yürütme yoluna yol açan bir "sürekli düşünce" oluşturduklarını belirtir.## **Daha Geniş Bir Görüş Alanı**Potansiyel alanda mantıksal işlem yapmak, model verimliliğini artırmak için belirli avantajlar sağlasa da, daha önemli bir keşif, bu modelin "birçok potansiyel sonraki adımı eş zamanlı olarak kodlayabilmesidir". Mantıksal işlem yapmak için "potansiyel alanda", anlık geri dönüş sağlanabilir ve araştırmacılar bunu genişlik öncelikli arama şeklinde bir grafikte yapmakla karşılaştırdılar. Bu, tüm mantıksal seçenekleri tamamen ve tek tek aramak yerine "doymak bilmez" bir süreçte gerçekleşir.Araştırmacılar, modellerin açıkça eğitilmediği durumlarda bile, bu beklenmedik, senkronize işleme özelliğinin testlerde ortaya çıkabileceğini yazdılar. 'Modelin başlangıçta doğru kararlar veremeyebileceğini, ancak bazı gizil değer fonksiyonları rehberliğinde, sürekli düşünceyi koruyarak birçok olası seçeneği sürdürebileceğini ve mantık yürüterek yanlış yolları aşamalı olarak ortadan kaldırabileceğini' belirttiler.![](https://img.jinse.cn/7333101_image3.png)Bu resim, farklı modellerin belirli mantıksal çıkarımlarda başarısız olabileceği bazı yolları göstermektedir. (Resim kaynağı: Training Large Language Models to Reason in a Continuous Latent Space)Daha basit matematik akıl yürütme testi (GSM8K) veya genel akıl yürütme (ProntoQA) testleriyle karşılaştırıldığında, bu çoklu yol akıl yürütme modelinin COCONUT'un doğruluğunu gerçekten artırmadığı görülmüştür. Ancak araştırmacılar, bu modelin rastgele oluşturulan bir dizi ProntoQA tarzı sorguda daha iyi performans gösterdiğini bulmuşlardır; bu sorgular karmaşık ve dolambaçlı mantıksal koşul setlerini içerir (örneğin, 'her elma meyvedir, her meyve yiyecektir, ve benzeri').Bu görevler için, tipik düşünce zinciri çıkarım modelleri, mantıksal zincir sorunlarını çözmeye çalışırken genellikle çıkarımın çıkmazına girer ve hatta tamamen hayali kurallar üretebilir. Daha önceki çalışmalar ayrıca, bu düşünce zinciri modellerinin ürettiği "sözlüleştirilmiş" mantıksal adımların aslında paylaşılan çıkarım sürecinden farklı olabileceğini göstermiştir.Bu yeni araştırma, büyük dil modellerinin altta yatan sinir ağı düzeyinde nasıl çalıştığını anlamak ve kullanmak için giderek artan bir araştırma dizisine katıldı. Bu tür araştırmalar henüz büyük bir ilerleme kaydetmemiş olsa da araştırmacılar, bu 'sürekli düşünme' kullanarak baştan başlayarak eğitilen modellerin, 'modelin daha geniş bir çıkarım senaryosunda daha etkin bir şekilde genelleştirebilmesini sağlayabileceğini' düşünüyor.