OpenAI’nin GPT-4’ü veya Google’ın LaMDA’sı gibi büyük dil modelleri içerik açısından her zaman doğru olmayabilir. Bununla birlikte, dil ve gramer açısından, en azından bunları İngilizce, Almanca veya İspanyolca olarak kullanırsanız, sonuçlar neredeyse hatasızdır. Bununla birlikte, İzlandaca gibi daha az yaygın dillerle, modeller hızla sınırlarına ulaşır. İzlanda şirketi Miðeind bunu değiştirmek ve aynı zamanda ada devletinin dil kültürünü korumak istiyor.
Miðeind COO’su Linda Heimisdóttir, “İzlanda dilinin aslında sabit bir statüsü var” diyor. “Günlük hayatta ve okulda kullanılıyor, nesilden nesile aktarılıyor ve zengin bir edebi mirasa bakıyor.” Ancak dijital dünyada, dil geride kalma riski taşır. Örneğin, Amazon’un Siri ve Alexa gibi dil asistanları hala İzlandaca’yı desteklemiyor, yazılım ve çevrimiçi araçlar genellikle yerelleştirilmiyor ve şu anda birçok sektörü sarsan AI dil modellerinin bile kendi dil sorunları var. özel : GPT-4, İzlandacayı oldukça iyi anlayan bir metin girebilir, ancak çıktı genellikle dilbilgisi açısından yanlıştır.
İzlandaca az sayıda eğitim verisi
Açıklama basit: dil modelleri, halka açık milyarlarca metin üzerinde eğitiliyor. Bir dilde ne kadar çok konuşmacı varsa, o dilde genellikle o kadar çok metin bulunur. Facebook’un LLaMA modelini eğitmek için toplam 4,7 terabayt metin kullanıldı. Bunların yalnızca 20 gigabaytı, %0,5’ten azı İzlanda dilindeydi. Dünya çapında sadece 370.000 ana dili İzlandaca olan kişiyle, bu hiç de şaşırtıcı değil.
Heimisdóttir, “İzlandaca’da kendi dil modelinizi oluşturmak için yeterli veri yok” diyor. Yalnızca nispeten az sayıda konuşmacıya sahip diğer dillerde de aynı sorun var. Bunu değiştirmek için İzlanda hükümeti tarafından desteklenen Miðeind, OpenAI ile ortaklık kurdu. GPT-4 ve ardılları, İzlandaca’ya uyarlanacak, böylece gelecekteki İzlandalı şirketler ve vatandaşlar da kendi ana dillerindeki gelişimden faydalanabilecek ve İngilizce’ye geçmek zorunda kalmayacaklar. Miðeind’in kendisi, GPT-4’ün yardımıyla daha esnek hale gelebilecek İzlandaca dil asistanı Embla’yı geliştiriyor.
İnsan geri bildirimi İzlandaca GPT-4’ü öğretir
İlk adım olarak Miðeind, GPT-4 “uygun İzlanda grameri ve kültürel bilgilerini” öğretmek için 40 gönüllü istihdam etti. Yöntem, “İnsan Geri Bildiriminden Güçlendirmeli Öğrenme” (RLHF) olarak adlandırılır ve hem OpenAI hem de diğer büyük dil modeli geliştiricileri tarafından belirli yönlerde insan geri bildirimi yardımıyla algoritmalara ince ayar yapmak için kullanılır. İnsan eğitmenleri, algoritmaları girdilerle besler, üretilen farklı yanıtları alır ve en iyi olduğunu düşündüklerini seçerek modeli daha sağlam kılar.
Linda Heimisdóttir, “GPT-4’ün İzlandacayı selefine kıyasla bu kadar iyi anlaması inanılmaz,” diyor. Bununla birlikte, modelin dilbilgisi açısından doğru çıktı üretme konusunda hâlâ sorunları vardır. “Muhtemelen, orijinal eğitim verilerinde zaten düşük kaliteli makine tarafından çevrilmiş veriler bulunduğundandır.” Sonuç olarak, GPT-4, sonraki insan ayarlamasıyla artık tam olarak belirlenemeyen kalıpları öğrendi. Miðeind, OpenAI’nin zaten temiz olan İzlanda verilerini sonraki GPT sürümleri için ön eğitim aşamasına dahil etmesini istiyor.
2015 yılında kurulan şirketin ekibi, OpenAI ile yapılan iş birliğinden elde edilen bilgilerin uzun vadede diğer dillere de fayda sağlayabileceğine inanıyor. Heimisdóttir, “Modellerin İngilizce bilgilerini tahmin edebildiği ve böylece mevcut sınırlı verilere rağmen diğer dillerde olağanüstü beceriler edinebildiği transfer öğreniminde iyi sonuçlar görüyoruz” diyor. Gelecekte bu transfer öğrenimi için özel olarak optimize edilmiş dil modelleri olabilir. Bu nedenle, büyük dil modelleri küçük dillerle de iyi çalışabilir.
(jle)
Haberin Sonu
Miðeind COO’su Linda Heimisdóttir, “İzlanda dilinin aslında sabit bir statüsü var” diyor. “Günlük hayatta ve okulda kullanılıyor, nesilden nesile aktarılıyor ve zengin bir edebi mirasa bakıyor.” Ancak dijital dünyada, dil geride kalma riski taşır. Örneğin, Amazon’un Siri ve Alexa gibi dil asistanları hala İzlandaca’yı desteklemiyor, yazılım ve çevrimiçi araçlar genellikle yerelleştirilmiyor ve şu anda birçok sektörü sarsan AI dil modellerinin bile kendi dil sorunları var. özel : GPT-4, İzlandacayı oldukça iyi anlayan bir metin girebilir, ancak çıktı genellikle dilbilgisi açısından yanlıştır.
İzlandaca az sayıda eğitim verisi
Açıklama basit: dil modelleri, halka açık milyarlarca metin üzerinde eğitiliyor. Bir dilde ne kadar çok konuşmacı varsa, o dilde genellikle o kadar çok metin bulunur. Facebook’un LLaMA modelini eğitmek için toplam 4,7 terabayt metin kullanıldı. Bunların yalnızca 20 gigabaytı, %0,5’ten azı İzlanda dilindeydi. Dünya çapında sadece 370.000 ana dili İzlandaca olan kişiyle, bu hiç de şaşırtıcı değil.
Heimisdóttir, “İzlandaca’da kendi dil modelinizi oluşturmak için yeterli veri yok” diyor. Yalnızca nispeten az sayıda konuşmacıya sahip diğer dillerde de aynı sorun var. Bunu değiştirmek için İzlanda hükümeti tarafından desteklenen Miðeind, OpenAI ile ortaklık kurdu. GPT-4 ve ardılları, İzlandaca’ya uyarlanacak, böylece gelecekteki İzlandalı şirketler ve vatandaşlar da kendi ana dillerindeki gelişimden faydalanabilecek ve İngilizce’ye geçmek zorunda kalmayacaklar. Miðeind’in kendisi, GPT-4’ün yardımıyla daha esnek hale gelebilecek İzlandaca dil asistanı Embla’yı geliştiriyor.
İnsan geri bildirimi İzlandaca GPT-4’ü öğretir
İlk adım olarak Miðeind, GPT-4 “uygun İzlanda grameri ve kültürel bilgilerini” öğretmek için 40 gönüllü istihdam etti. Yöntem, “İnsan Geri Bildiriminden Güçlendirmeli Öğrenme” (RLHF) olarak adlandırılır ve hem OpenAI hem de diğer büyük dil modeli geliştiricileri tarafından belirli yönlerde insan geri bildirimi yardımıyla algoritmalara ince ayar yapmak için kullanılır. İnsan eğitmenleri, algoritmaları girdilerle besler, üretilen farklı yanıtları alır ve en iyi olduğunu düşündüklerini seçerek modeli daha sağlam kılar.
Linda Heimisdóttir, “GPT-4’ün İzlandacayı selefine kıyasla bu kadar iyi anlaması inanılmaz,” diyor. Bununla birlikte, modelin dilbilgisi açısından doğru çıktı üretme konusunda hâlâ sorunları vardır. “Muhtemelen, orijinal eğitim verilerinde zaten düşük kaliteli makine tarafından çevrilmiş veriler bulunduğundandır.” Sonuç olarak, GPT-4, sonraki insan ayarlamasıyla artık tam olarak belirlenemeyen kalıpları öğrendi. Miðeind, OpenAI’nin zaten temiz olan İzlanda verilerini sonraki GPT sürümleri için ön eğitim aşamasına dahil etmesini istiyor.
2015 yılında kurulan şirketin ekibi, OpenAI ile yapılan iş birliğinden elde edilen bilgilerin uzun vadede diğer dillere de fayda sağlayabileceğine inanıyor. Heimisdóttir, “Modellerin İngilizce bilgilerini tahmin edebildiği ve böylece mevcut sınırlı verilere rağmen diğer dillerde olağanüstü beceriler edinebildiği transfer öğreniminde iyi sonuçlar görüyoruz” diyor. Gelecekte bu transfer öğrenimi için özel olarak optimize edilmiş dil modelleri olabilir. Bu nedenle, büyük dil modelleri küçük dillerle de iyi çalışabilir.

(jle)
Haberin Sonu