Büyük Dil Modelleri (LLM), yani büyük dil modelleri, büyük miktarda eğitim verisi gerektirir ve bunun ne olduğu, nihai olarak oluşturulan metnin ne kadar iyi olduğu üzerinde büyük bir etkiye sahiptir. Bu nedenle, ticari LLM sağlayıcılarının içerdikleri içerik hakkında büyük bir sır tutması şaşırtıcı değildir.
Örneğin OpenAI, diğer şeylerin yanı sıra ChatGPT Plus’ın mevcut sürümünde yer alan popüler GPT-4 modeli hakkında yalnızca son derece belirsiz bilgiler sağlar. Diğer şeylerin yanı sıra, tüm Wikipedia’nın birkaç dilde sayısız gönderi olduğu söylenir. Reddit’te ve forumlarda ve ayrıca dünya edebiyatının birçok kamu malı eseri LLM’de. Ama çok daha fazlası veya tamamen farklı bir şey olabilir.
Dil testi içeren arkeoloji kitabı
Berkeley’deki California Üniversitesi’nden bir araştırma ekibi, artık konuya daha fazla ışık tutmaya karar verdi ve esas olarak kitaplara odaklandı. David Bamman’ın grubu, eğitim verilerini almak için OpenAI sunucusunu hacklemedi. Bunun yerine, ön baskılarında (başlık: “ChatGPT/GPT-4’ün bildiği kitapların arkeolojisi”), zekice önerilerin yardımıyla konuşma üreteci arayüzünün kendisini kullandılar.
GPT-4 ve ChatGPT’deki “en popüler” kitapların listesi.
(Resim: Bamman ve diğerleri / UC Berkeley)
Dilbilimden alınan yöntemler, sistemin orijinal metni bilip bilmediğini kontrol etmek için bir metinden kelimelerin çıkarıldığı bir tür bilgi yarışması oyunu kullanılmıştır. Görünen o ki, GPT-4, özellikle iyi de olsa, sadece kamu malı çalışmaları tüketmedi. Aslında LLM, uzun süredir telif haklarına tabi olan çeşitli iyi bilinen kitaplara da aşinadır. Beklendiği gibi, en kesin olarak bilinen başlıklar kamu malı listesinden gelmektedir (tabloya bakınız).
Harry Potter ve Grinin Elli Tonu
Ama hepsi bu değildi. GPT-4 ayrıca JK Rowling’in Harry Potter destanının ilk bölümünü özel bir doğrulukla “tanıdı” – UC Berkeley’deki araştırmacılar tarafından belirlenen yüzde 76’lık bir doğruluk değeriyle. Bunu – hepsi arasında – Orwell’in distopyası “1984” (yüzde 57), Tolkien’in “Yüzük Kardeşliği” (yüzde 51), erotik roman “Grinin Elli Tonu” (yüzde 49) ve gençlik – yetişkin gerilim filmi izledi. “Açlık Oyunları” (yüzde 48), “Sineklerin Tanrısı” benzetmesi (yüzde 43) ve son olarak “Otostopçunun Galaksi Rehberi” (yüzde 43). “Things Fall Apart”, “Fahrenheit 451” veya “Game of Thrones” gibi listenin ilerisindeki herhangi bir başlığın en kötü oranı yüzde 30 veya daha azdır. Ancak bu, GPT-4’ün onlardan hiç haberi olmadığı anlamına gelmez.
California araştırmacıları, “OpenAI modellerinin geniş bir telif hakkıyla korunan materyal koleksiyonunu öğrendiğini bulduk” dedi. Bunun nedeni, görünüşe göre internette kitapların ne sıklıkla bulunabileceğidir. Çoğu durumda, OpenAI’nin dil modelini okumaktan dışlayamadığı siyah kopyalar da muhtemelen orada mevcuttur. UC Berkeley grubu, bir LLM’nin yalnızca arşivlediği içeriği yeniden canlandırma eğiliminde olup olmadığını kontrol etmeyi kolaylaştıran daha açık modeller için çağrıda bulunuyor. Ve OpenAI ne yapar? Ne yazık ki henüz eğitim verileri hakkında bir şey söylemiyor.
(bsc)
Haberin Sonu
Örneğin OpenAI, diğer şeylerin yanı sıra ChatGPT Plus’ın mevcut sürümünde yer alan popüler GPT-4 modeli hakkında yalnızca son derece belirsiz bilgiler sağlar. Diğer şeylerin yanı sıra, tüm Wikipedia’nın birkaç dilde sayısız gönderi olduğu söylenir. Reddit’te ve forumlarda ve ayrıca dünya edebiyatının birçok kamu malı eseri LLM’de. Ama çok daha fazlası veya tamamen farklı bir şey olabilir.
Dil testi içeren arkeoloji kitabı
Berkeley’deki California Üniversitesi’nden bir araştırma ekibi, artık konuya daha fazla ışık tutmaya karar verdi ve esas olarak kitaplara odaklandı. David Bamman’ın grubu, eğitim verilerini almak için OpenAI sunucusunu hacklemedi. Bunun yerine, ön baskılarında (başlık: “ChatGPT/GPT-4’ün bildiği kitapların arkeolojisi”), zekice önerilerin yardımıyla konuşma üreteci arayüzünün kendisini kullandılar.

GPT-4 ve ChatGPT’deki “en popüler” kitapların listesi.
(Resim: Bamman ve diğerleri / UC Berkeley)
Dilbilimden alınan yöntemler, sistemin orijinal metni bilip bilmediğini kontrol etmek için bir metinden kelimelerin çıkarıldığı bir tür bilgi yarışması oyunu kullanılmıştır. Görünen o ki, GPT-4, özellikle iyi de olsa, sadece kamu malı çalışmaları tüketmedi. Aslında LLM, uzun süredir telif haklarına tabi olan çeşitli iyi bilinen kitaplara da aşinadır. Beklendiği gibi, en kesin olarak bilinen başlıklar kamu malı listesinden gelmektedir (tabloya bakınız).
Harry Potter ve Grinin Elli Tonu
Ama hepsi bu değildi. GPT-4 ayrıca JK Rowling’in Harry Potter destanının ilk bölümünü özel bir doğrulukla “tanıdı” – UC Berkeley’deki araştırmacılar tarafından belirlenen yüzde 76’lık bir doğruluk değeriyle. Bunu – hepsi arasında – Orwell’in distopyası “1984” (yüzde 57), Tolkien’in “Yüzük Kardeşliği” (yüzde 51), erotik roman “Grinin Elli Tonu” (yüzde 49) ve gençlik – yetişkin gerilim filmi izledi. “Açlık Oyunları” (yüzde 48), “Sineklerin Tanrısı” benzetmesi (yüzde 43) ve son olarak “Otostopçunun Galaksi Rehberi” (yüzde 43). “Things Fall Apart”, “Fahrenheit 451” veya “Game of Thrones” gibi listenin ilerisindeki herhangi bir başlığın en kötü oranı yüzde 30 veya daha azdır. Ancak bu, GPT-4’ün onlardan hiç haberi olmadığı anlamına gelmez.
California araştırmacıları, “OpenAI modellerinin geniş bir telif hakkıyla korunan materyal koleksiyonunu öğrendiğini bulduk” dedi. Bunun nedeni, görünüşe göre internette kitapların ne sıklıkla bulunabileceğidir. Çoğu durumda, OpenAI’nin dil modelini okumaktan dışlayamadığı siyah kopyalar da muhtemelen orada mevcuttur. UC Berkeley grubu, bir LLM’nin yalnızca arşivlediği içeriği yeniden canlandırma eğiliminde olup olmadığını kontrol etmeyi kolaylaştıran daha açık modeller için çağrıda bulunuyor. Ve OpenAI ne yapar? Ne yazık ki henüz eğitim verileri hakkında bir şey söylemiyor.

(bsc)
Haberin Sonu