Büyük dil modelleri için nasıl bir doğruluk serumu olabilir?
Yapay zeka destekli arama motoru yanıtlarından neden bu kadar etkileniyoruz? Çünkü geleneksel internet aramalarının sağlayamadığı bir şeyi sağlayabilirler: farklı düzeylerdeki kaynak metinlerde bulunan bulunan nesnelerden yanıtlar toplayabilir ve bağlamı da dikkate alabilirler. Çünkü ChatGPT ve Bard gibi dil modelleri, bazen kurgusal olsalar da, eksik gerçekleri etkili bir şekilde ekleme konusunda iyi gelişmiş bir yeteneğe sahiptir. Büyük dil modellerinden ifadelerin doğruluğunun otomatik olarak kontrol edilmesi, en azından Google, Bing ve Co. için üretken yapay zekanın kullanıma sunulmasından bu yana acil bir sorun haline geldi.
Yapay zeka destekli arama motorlarının operatörlerinin de doğrulama yapmadan sonuçlara inanmamaları konusunda uyarıda bulunmaları tesadüf değil. Ancak bu en iyi ihtimalle geçici bir düzeltme olabilir. Bu sistemlerin olgusal doğruluğunu iyileştirme yöntemleri üzerinde perde arkasında yoğun çalışmaların yapıldığı varsayılabilir.
Sadece yapay zekaya sor
Bing Chat, Bard veya You.com, bunu yapmak için kullanılan yöntemler hakkında daha fazla bilgi edinmenize yardımcı olabilir mi? Cevap ne yazık ki oldukça hayal kırıklığı yaratıyor. Kalıcı isteklerden sonra bile, Microsoft’un yapay zeka araştırması, genel cümlelerden fazlasını sağlamaya ikna edilemez. “Bing, sorularınızın yanıtlarının olabildiğince doğru olmasını sağlamak için makine öğrenimini kullanır. Makine öğreniminde, algoritmalar örneklere dayalı bir istatistiksel model oluşturur. Model daha sonra tahminlerde bulunmak veya kararlar almak için kullanılır. Bing ayrıca yapay zeka ve Sorularınıza verilen yanıtların olabildiğince doğru olmasını sağlamak için insan doğrulaması.
Gerçekte hangi yöntemlerin kullanıldığı sorulduğunda makine şu yanıtı veriyor: “Yapay zeka, makinelerin konuşma tanıma ve görüntü tanıma gibi insan benzeri görevleri yerine getirme yeteneğini ifade ediyor. Bing, sorularınızın yanıtlarının olabildiğince doğru olmasını sağlamak için makine öğrenimi ve insan doğrulamasını da kullanır.” Döne döne gidiyor.
Google’ın yapay zeka sohbet robotu Bard biraz daha gelecek vaat ediyor. Bunun nasıl çalıştığı sorulduğunda model, kullanılabilecek “bir dizi algoritma” olduğunu yanıtlıyor: “Metin Benzerlik Algoritmaları, Bilgi Çıkarma (IR) Algoritmaları” (doğrulanmış gerçeklerden oluşan bir veritabanıyla çalışır) ve “Makine Öğrenimi” Algoritmalar”. İngilizce olarak: “Model, bazı yanıtların doğru ve bazılarının yanlış olduğu bir soru ve yanıt veri kümesi üzerinde eğitilmiştir.”
You.com da benzer bir yönde ilerliyor: “Oluşturulan yanıtın parçacıklarda yer alan gerçeklerle desteklenmesini sağlamak için, sağlanan parçacıklardan ilgili bilgileri analiz eden ve bunları çıkaran doğal dil işleme ve makine öğrenimi algoritmalarına güveniyorum.” sorulan soruya ilgili ve doğru bir yanıt sağlamak için küçük parçalar halinde bilgileri analiz etmeye ve sentezlemeye çalışır.
Yüzde 20 ila 30 hata oranı
Yöntemler genellikle örnek veri kümeleriyle oldukça iyi çalışır, ancak yüzde 70, 80 ve hatta yüzde 90 doğruluk, bir chatbot arama motoru için hala çok fazla saçmalık ürettiği anlamına gelmelidir.
Bu özellikle ayrıntılı olmasa da, bilimsel literatür araştırmasının bulgularıyla tutarlıdır. Buradan, kullanılan yöntemlerin sahte haberlerin otomatik olarak doğrulanmasına çok benzer bir şekilde çalıştığı bilinmektedir. Bu, diğer şeylerin yanı sıra Fake News Challenge’ın başlatılmasına yardımcı olan Cambridge Üniversitesi’nden Andreas Vlachos tarafından ifade edildi. 2022’de Otomatik Doğruluk Kontrolü hakkında kapsamlı bir genel bakış makalesi yayınladı.
Sonuç olarak, bu alandaki standart yöntemlerden biri, önce doğrulanacak gerçekleri, doğrulanacak ifadeden, bu durumda sohbet tabanlı bir arama motorundan gelen yanıttan çıkarmaktır. Ardından, eşleşen arama sorguları oluşturursunuz. Birçok çalışma grubu bunun için Wikipedia API’yi kullanır (veritabanlarından çıkarma ve sorgulama yine yoğun olarak çalışılan iki alt problemdir). Yazılım, vektörlere dönüştürülen ayıklanmış olgulardan ve iddiadan, doğrulanabilirlik ölçüsü olarak nokta çarpımı hesaplar: ölçü ne kadar küçükse, iddia o kadar kötü kanıtlanmıştır.
Diğer takımlar ise, doğru ve yanlış ifadeleri ayırt etmeleri için onları eğiten modeller kullanırlar. Eğitim sırasında, çok sayıda açıkça yanlış ifade içeren FEVER gibi özel olarak oluşturulmuş veri kümeleri kullanılır. Covid hakkında yanlış beyanlar gibi özel durumlar için, tüm yanlış beyanların yüzde 90’a kadarı keşfedilebildi, ancak yalnızca özel bir metin kategorisinde.
Dil modeli, dil modelini kontrol eder
Büyük dil modellerini test etmek için büyük dil modellerinin kullanımı son yıllarda giderek daha fazla tartışılmaktadır. Örneğin, Meta AI’dan Angela Fan ve meslektaşları, çıkarılan ifadelerden sorular formüle etmek, soruları bir İnternet araması kullanarak araştırmak ve ardından arama sonuçlarından yanıtlar formüle etmek için bir dil modeli eğitti. Ancak, sistem tam otomatik bir doğruluk denetleyicisi olarak tasarlanmamıştı. Bunun yerine Fan ve meslektaşları, sorular ve yanıtlar biçiminde otomatik olarak oluşturulan bir özetin, gerçek denetleyicilerin metinleri daha hızlı ve doğru bir şekilde değerlendirmesine yardımcı olduğunu göstermek istedi.
Tel Aviv Üniversitesi’nden araştırmacılar, Google Deepmind ve Google Research kısa süre önce büyük dil kalıpları için yeni bir doğruluk kontrol yöntemi açıkladı. Özel özellik: Roi Cohen ve ekibi tarafından geliştirilen yöntem, Wikipedia gibi harici bir bilgi tabanı gerektirmez. Bunun yerine, araştırmacılar bir dil modeline, ifadesiyle ilgili “exanimee” (metinler) soruları soran bir “inceleyici” (test uzmanı) rolü verir. Bu soruların cevaplarında bariz çelişkiler varsa beyan reddedilir. Araştırmacılar teknik ayrıntıları bir ön baskı belgesinde açıklıyor.
Cohen ve meslektaşları tarafından geliştirilen yaklaşım yarı otomatik olarak çalışır: Araştırmacılar test edilecek ifadeyi dilbilimsel bir model üzerinde formüle eder. İkinci bir sohbet diyaloğunda, muhatap rolünü aynı veya başka bir dil modeline atadılar (“Bir ifadenin doğruluğunu doğrulamak sizin işiniz… Bunu yapabilmek için ifade hakkında sorular sorabilirsiniz. “) – daha sonra ilk dil modeline aktarıldı. Deneyde en fazla beş soruya izin verildi, bu nedenle görüşmeci ifadenin doğru olup olmadığına karar vermek zorunda kaldı. Cohen ve meslektaşları, “çapraz sorgulama yaklaşımını” kullanarak en iyi durumlarda yaklaşık yüzde 80 doğruluk elde etti – beklendiği gibi, sonuçlar en iyi, sorgulayıcı ve yanıtlayan aynı modellere eriştiğinde oldu.

(bsc)
Haberin Sonu