Bilgisayarınızdaki büyük AI dil modeli – cebiniz için bir LLaMA mı?

Bayburtgüzeli

Global Mod
Global Mod
OpenAI’nin GPT-4’ü piyasaya sürmesinden üç hafta önce, Facebook’un ana şirketi Meta kendi Büyük Dil Modelini (LLM) açıkladı: açık verilerle önceden eğitilmiş LLaMA (Büyük Dil Modeli Meta AI). Facebook Research, her bir e-posta adresinin hızlı bir şekilde kontrol edilmesinin ardından onu küresel AI araştırma topluluğunun kullanımına sundu. Model kısa süre sonra sızdırıldı ve sizi kendiniz deneyimlemeye davet eden bir sel olarak kullanıma sunuldu. Modelin kullanılıp kullanılamayacağı ve nasıl kullanılabileceği henüz kesin olarak netlik kazanmamıştır. Meta’nın büyük popülaritesini hukuki ihtilaflarla tersine çevirmek istemediği varsayılabilir.


Kara kutular olan ve istemler dışında hiçbir etki yolu sunmayan ChatGPT ve GPT-4’ün aksine, LLaMA açık bir modeldir. Kendi donanımınızda çalıştırabilir ve özelleştirebilirsiniz. Stanford’dan bir araştırma grubu, nispeten küçük LLaMA’dan ChatGPT ile rekabet edebilecek yeni bir model türetmeyi başardı. Açık eğitim süreci sayesinde modelin içinde ne olduğunu çok daha iyi bilir ve daha az riskle halledebilirsiniz.

Bir dilbilimsel modelin anatomisi


Modern dil modelleri, dikkat mekanizması gibi hilelerle çalışan birkaç katmana sahip karmaşık sinir ağlarına dayanmaktadır. Mimari bir transformatör olarak tanımlanmaktadır. Bu türden ilk model, Google’ın BERT’siydi (Transformers’tan Çift Yönlü Kodlayıcı Temsilleri) ve tüm endüstride devrim yarattı:




İnfografik: 12 katman ve 512 jetona kadar BERT'nin temel mimarisi (Şekil 1)



12 katman ve 512 jetona kadar BERT’nin temel mimarisi (Şekil 1)



BERT, bir Doğal Dil İşleme (NLP) uygulamasıdır. Orijinal sürümü 120 milyon parametre içeriyordu, ancak modellerin boyutu zamanla büyüdü. Bu, artan bilgi işlem kapasitesinden ve aynı zamanda mevcut neredeyse tükenmez eğitim verilerinden kaynaklanmaktadır – bunun için normal metinler yeterlidir. Böyle bir modeli eğitmek son derece karmaşıktır ve donanım ve bilgi işlem gücü üzerinde yüksek talepler gerektirir. Belirteçleri yani uygulamayı tahmin etmek için sinir ağını değerlendirmek yeterlidir. Bu, daha sonra gösterileceği gibi, CPU’larda düşük doğrulukla bile biraz zaman alır. Eğitimde, mümkün olan en iyi sonucu elde etmek için milyarlarca parametrenin ayarlanması gerekir.

Bu, büyük bir hesaplama çabasıyla ilişkilidir: Microsoft, 2019’da OpenAI’ye bir milyar ABD doları yatırım yaptı ve milyarlarca dolar daha yatırım yapacak. Şirket şu anda yeni bir süper bilgisayar oluşturmak için binlerce Nvidia hızlandırıcısı satın alıyor. Büyük dil modelleri için, tek bir eğitim çalışmasının maliyeti milyonlarla ifade edilir.


Ayrıca Meta’nın LLaMA eğitimi muhtemelen çok pahalıydı. Model farklı boyutlarda mevcuttur: 7 milyar, 13 milyar, 30 milyar veya 65 milyar parametre ile. Tüm bu parametreler, eğitim sürecinde optimize edilmelidir. Sinir ağı değerlendirmesinde, vektörleri matris çarpımında ağırlıklandırmak ve böylece değerlendirmenin (belirteç tahmini olarak da bilinir) ne kadar karmaşık olacağını belirtmek için kullanılırlar. İlke, tüm Transformer modelleri için benzerdir:


  1. Eğitim için bir metin simgeleştirilir. Çoğu durumda bunlar tek kelimelerdir, bazen kelimelerin bileşenleri veya kelimelerin (varlıkların) kombinasyonlarıdır. Bu belirteçlerin her biri, sözlükte belirli bir sayıya/konuma karşılık gelir.
  2. Bütün bir paragrafın belirteç numaraları, sinir ağının birinci seviyesinde girdi olarak Transformer modeline beslenir. Yukarıdaki resimde (Şekil 1) bu, 512 jetona kadar olabilir. Bu bağlam uzunluğu, büyük modeller için daha yüksek değerler alabilir.
  3. Bu bölüm için, veriler Transformer ağı üzerinden yayılır.
  4. Sonuç, önceki paragrafa iyi uyan kelimeyi temsil eden yeni bir belirteç için bir olasılık dağılımıdır. Bu belirteç verilir.
  5. İşlem daha sonra tekrar başlar, ancak öncekinden bir jeton daha ile.
Bir sinir ağındaki ileri yayılma (bu durumda belirteç tahmini), matris çarpımı ile temsil edilir. Karşılık gelen değerler birbiriyle çarpılır ve sonuç eklenir. Tahmin edilecek her jeton için bu, milyarlarca çarpma ve toplama adımı anlamına gelir. Bu işlemin grafik kartlarında (GPU’lar) CPU’lardan çok daha hızlı çalışmasının nedeni de budur: İşlemler, grafikleri oluştururken yapılan işlemlerle eşleştiğinden, grafik kartları onlar için optimize edilmiştir ve bunları kendi yüzlerce (veya binlerce) kartıyla paralel olarak yürütebilir. gölgelendiriciler. CPU’larla karşılaştırıldığında bu, önceki bekleme süresinin büyük bir kısmından tasarruf sağlar.



CPU’daki dil modelleri


Dil modelleri yalnızca bir grafik kartıyla çalışabilir mi? Eğitim için bir (profesyonel) GPU kümesi gereklidir. Sabırla, önceden yalnızca CPU’larda çalışan büyük dil modellerine ilişkin tahminlere sahip olabilirsiniz.

ChatGPT ile deneme yapacaksanız, ister istemez bu tür modelleri donanımlarınızda deneme ihtiyacı duyacaksınız. Model sızıntısı, bazı geliştiricileri yöntemi yaklaşık değerlerle (yani yaklaşımlarla) CPU’larda kullanılabilir hale getirmeye motive etti. Yaklaşık değerlerle, sonuçları çok uzun süre beklemek zorunda kalmayacak kadar hızlı hesaplayabilirler.

Bu, bazı kısıtlamalar gerektirir:

  • Orijinal modeldeki ağırlıklar, 32 bitlik kayan noktalı sayılar olarak saklanır. CPU’lar bu tür hesaplamalar için çok yavaş olduğundan, işlem 16 bit’e kadar ölçeklendirilmelidir.
  • Ancak bununla bile, hesaplama yeterince hızlı çalışmıyor. Bu nedenle, bu 16 bitlik sayılar yalnızca dört bit olarak nicelenir.
  • Modeller daha sonra değerlendirilebilir. O kadar yavaş ki neredeyse okuyabiliyorsunuz.


Haberin Sonu
 
Üst