Kara kutuya bir bakış: C4 AI eğitim veri seti, belirsiz kaynaklardan da yararlanır
Yapay zeka sohbet robotları dünyayı yazılı dilden öğrenir. Eğitim sırasında konuşma kalıplarına dahil edilen metin materyali, sonraki bilgilerinin ve insanlarla konuşmalarının kalitesini büyük ölçüde belirler. İnternetten toplanan büyük miktarda metin, kitap ve malzeme, makineler için yem görevi görüyor. Büyük dil modeli satıcılarının tümü, ürünlerini ne ile eğittikleri hakkında açıkça konuşmaz: Örneğin, OpenAI, GPT-4 ve ChatGPT veritabanını gizli tutar, bu nedenle araştırmacılar burada ve diğer sahiplerle bir kara kutu hakkında konuşur (kapalı , çoğunlukla ticari). Bununla birlikte, açık kaynak projeleri bile, bilgileri söz konusu olduğunda her zaman doğru değildir ve yalnızca sentetik veri kümeleriyle (OpenAI API aracılığıyla oluşturulmuş) eğitilen sızdırılmış LLaMA gibi model türevleri ve giderek daha fazla damıtılmış veri kümesi söz konusu olduğunda her zaman doğru değildir.
Washington Post’tan bir araştırma ekibi, özellikle makine öğrenimi eğitimi için gerekli olan bir veri kümesinin kaynağı olarak hizmet veren 15 milyon web sayfasını inceleyerek kara kutuları inceledi: Colossal Clean Crawled Corpus (C4), Tek bir anlık görüntüden oluşan web (dizine eklenmiş web sayfalarının anlık görüntüsü). Anlık görüntü daha sonra yoğun bir şekilde temizlendi ve filtrelendi, veriler hariç tutuldu, blok listeleri uygulandı, kopyalar kaldırıldı, kimlikler tanınmaz hale getirildi – tamamlanmış veri seti yaklaşık 750 gigabayttan oluşuyor. En az %99 oranında İngilizce içeriğe sahip olmayan web siteleri hariç tutuldu.
Colossal Clean Crawled Corpus – neredeyse temiz değil
Gazeteci Nitasha Tiku, gazeteci Kevin Schaul ve veri muhabiri Chen Szu Yu, Allen Institute for AI’daki araştırmacılarla birlikte, C4’ün verilerini aldığı web sitelerini inceledi ve her türlü tutarsızlığı buldu. Örneğin, telif hakkı simgesi 200 milyondan fazla kez dahil edilmiştir ve b-ok.org gibi içeriği yasa dışı olarak dağıtmak için bilerek telif hakkı ihlali yapan bazı korsan siteler, veri kümesinin içeriği türettiği alanlar arasında 190. sıradadır (14 ile) milyon jeton ve toplam külliyatın yüzde 0,009’u). Veri setinde Amerika Birleşik Devletleri’nde ürün sahteciliği ve korsanlık konusunda resmi olarak adı çıkmış en az 27 başka site bulunabilir.
En çok aranan 10 web sitesinin yarısı büyük gazetelerden geldi (NY Times 4. sırada, ardından 6. sırada 9. sırada: Los Angeles Times, The Guardian, Forbes, Huffpost ve Washington Post 15 milyonda 2. sırada) Wikipedia – Ücretsiz erişime açık olmayan çevrimiçi kütüphane scribd.com, C4 kaynaklarının bulunduğu 3. sırada yer almaktadır. Sanatçıların ve yaratıcı kişilerin bağışlar ve aylık abonelikler yoluyla gelir elde ettiği Kickstarter ve Patreon gibi web sitelerine C4 için göz gezdirilir. Pazarlama fikirleri ve sanatsal projeler, yani fikri mülkiyet burada kullanılabilir. Veri setinde tanımlanabilecek birçok telif hakkı bildiriminin ışığında, yazarlık ve onun korunması konusundaki anlaşmazlığın daha da alevlenmesi muhtemeldir.
Telif hakkı için C
Nitasha Tiku ve meslektaşlarına göre, C4 veri kümesine, özellikle etkilendiği düşünülen gazetecilik, tıp, içerik oluşturma, bilim, halkla ilişkiler/reklamcılık ve pazarlama alanlarından İnternetten toplanan metinler hakimdir. AI metin üreteçleri ve metin üretiminin otomasyonunun muhtemelen daha da büyük kesintilere yol açacağı yerler.
C4’ün içeriğini, veri kümesindeki niceliksel paylarına karşılık gelen alanların boyutuyla kategorilere ayıran etkileşimli bir infografik özellikle ilgi çekicidir. İş ve sanayi (yüzde 16) ve teknoloji (yüzde 15), ancak haber ve medya (yüzde 13), sanat ve eğlence (yüzde 11) ve araştırma ve sağlık (yüzde 9) da büyük bir pay oluşturuyor. İş ve eğitim (%7), hobiler ve eğlence (%8) ve ev ve bahçe (%6) ile hemen hemen aynıdır. Hukuk ve hükümet de temsil edilmektedir (%4). ABD web siteleri ve İngilizce içerik tüm alanlarda hakimdir. Allen’ın soruşturma ekibi ve araştırmacıları, bazı web sitelerine artık İnternet üzerinden erişilemediği için tüm web sitelerini sınıflandıramadı.

AI sohbet robotlarını eğitmek için kullanılan bir veri kümesinin kara kutusuna bir bakış: Konuya göre gruplandırılmış milyonlarca web sitesi. Washington Post’ta infografik tıklanabilir ve sayfayı aşağı kaydırdığınızda farklı bilgi katmanlarını gösterir.
(Resim: Washington Post)
Tam metin patentler 1. sırada
Tuhaf bir şekilde, külliyata açık ara en çok katkıda bulunan veri kaynağı, tam metin küresel patentler için bir Google arama motorudur (patents.google.com): bu kaynaktan, tüm veri setinin yüzde 0,46’sına eşit olan 720 milyon token gelir. . Karşılaştırma için: (İngilizce) Wikipedia 290 milyon belirteçle (veri kümesinin %0,19 payı) ikinci sırada yer alıyor. Belirteç, makine öğreniminin parçalara ayrıldığı kelimeler, resimler veya cümlelerdeki en küçük anlam birimidir. Belirteçler, daha sonra model tarafından bulunabilecekleri bir vektör uzayına gömülebilir. Bu teknik (belirteçleme), doğal dil işlemede (NLP), örneğin ChatGPT gibi trafo modelleri oluşturmak için veya BERT dönüştürücülerinde metin sınıflandırması için belirteç sınıfları biçiminde temeldir.
Yüksek düzeyde güvenilirlikleriyle tanınmayan medya ve propaganda siteleri, veri kümesinden tamamen filtrelenmemiştir veya tamamen filtrelenmemiştir: Russia Today’den makaleler (RT.com, 65. sırada) ve sağcı popülist site Breitbart News (159. sırada) veri setinde tekrar bulunur. Beyaz üstünlüğünün izleri, vdare.com (sıralama 993) ve çeşitli dini grupların aşırı yönelimlerinin yanı sıra, bazıları diğer gruplara karşı nefreti ve önyargıları vaaz ediyor.
Özel blog göz gezdirildi mi?
Yine teknoloji alanında yer alan çok sayıda özel blog C4’e giriyor. Facebook ve Twitter gibi sosyal ağlar ise yapay zeka modellerini eğitmek için kazımayı yasakladıkları için temsil edilmiyor. Facebook ve Google gibi şirketlerde kullanıcı verileriyle ne yapıldığını kimse tam olarak bilmiyor. Elon Musk ayrıca, TruthGPT OpenAIs ChatGPT adlı bir chatbot ile rekabet etmek için kendi AI şirketini kuracağını duyurdu. Twitter verilerinin sonunda eğitimin temelinin bir parçası haline gelmesi imkansız görünmüyor. WP araştırmasına göre, gözden kaçan komplo hikayeleri kaynakları, 4chan.org, threecentpartriots.com (sıralamada çok düşük) ve ırkçı site stormfront.org C4 veri seti filtreleri temsil edilmektedir.
Schaul ve Szu Yu, yaklaşık 15 milyon yönlendiren web sitesinin URL’lerini bulmak için kullanılabilecek bir arama motoru yarattı. Arama motoru nicel bilgi sağlar: URL’si verileri gözden geçirmek için C4’ü kullanan her web sitesi için, belirteçlerin mutlak sayısını ve bunların tüm veri kümesindeki yüzdesini sağlar. C4, daha önce model eğitimi için pek kritik olmadığı düşünülen ve spesifikasyona göre metinler üreten muhtemelen GPT-4 ve ChatGPT gibi birkaç büyük dil modelinde (LLM) merkezi olan standart bir veri kümesidir. C4, Google’ın Flan-T5’i, Facebook’un LLaMA’sı gibi yapay zeka sistemleri için eğitim temeli olarak hizmet etti ve yeni RedPajama AI projesi gibi kar amacı gütmeyen açık kaynak girişimlerinin veri kümelerine dahil edildi.

Veri kaynağına göre RedPajama ve LLaMA eğitim veri kümesi
(Resim: Haberler)
C4 yapım aşamasındaki birçok veri setinden biri
C4, her zaman çok sayıda başka veri koleksiyonunu besleyen eğitilmiş modelin verilerinin yalnızca bir kısmını sağlar. Örneğin, GPT-3, 41 CommonCrawl çalışması (web’den farklı zamanlarda alınan anlık görüntüler), İngilizce Wikipedia’nın tamamını ve Reddit kullanıcılarının özellikle yararlı bilgi kaynakları olarak değerlendirdiği bir dizi web bağlantısını içeriyordu. daha az tanınan yazarların açık erişimli roman koleksiyonları olarak.
Eğitim verilerinin bileşimi ve belirli içeriğin kalitesi ve erişimi, yapay zeka sistemlerinin birlikte nasıl hareket ettiğini değerlendirmenin anahtarıdır. Tiku, Schaul ve Allen Institute for AI araştırma ekibine göre, eğitim verilerinin hassas bir şekilde incelenmesi bu nedenle büyük dil modellerindeki süreçleri anlaşılır ve anlaşılır hale getirmeye önemli bir katkı sağlıyor. Bu, yasa koyucuların kararları ve AI düzenlemesi açısından ilgili olmalıdır.
Yalnızca İngilizce – yalnızca izlerde yabancı diller
Hugging Face’teki (yalnızca İngilizce) proje açıklamasına göre veri setinin yaratıcıları İngilizce olmayan materyali açıkça hariç tuttuklarından, bazı Alman medyası kabaca temsil edilse bile, Almanca medyanın ayrı olarak değerlendirilmesi uygun değildir: Yaklaşık 71.000 belirteçler, veri kümesinin yüzde 0,00005’i olan Haberler’den geliyor ve bugün GPT-4 tarafından iki arama sorgusunda üretilebilir. BILD gazetesi 42.000 jetonla, Golem.de 7.300 jetonla, ZEIT 5.800 jetonla ve Chip.de 190 jetonla temsil ediliyor. Sadece SPIEGEL 4.1 milyon jetonla daha güçlü bir şekilde temsil ediliyor: bunun nedeni muhtemelen çok sayıda İngilizce makalenin bulunmasıdır. mevcut.
Belirteçler söz konusu olduğunda, hangi alt birimin kastedildiği tam olarak açık değildir: belirteçler bir sözcük, bir deyim veya bir sözcüğün önemli bileşenleri olabilir. Makine öğrenimi için dağınık metin bilgilerinin kilidini açmak için kullanılabilirler. İngilizcenin ana dil olmadığı kültürlerden gelen bu bilgi eksikliğinin ne anlama geldiği başka bir yazının konusu. Ağırlıklı olarak Amerika Birleşik Devletleri’nde ve İngilizce konuşulan ülkelerde üretilen büyük dil modelleri, yabancı diller alanında kör noktalara sahiptir ve dil yalnızca dilbilgisini değil aynı zamanda temaları, değerleri ve çeşitliliği de aktarır – bu nedenle veri kümelerinin şu şekilde olduğu şüphelidir: devasa Kraul, Avrupa gerçeklerini yeterince temsil edebilir.
Web sitenizin taranıp taranmadığını kontrol edin
Araştırmanın tamamı Washington Post’ta bulunabilir. C4 veri setindeki web sitesi kontrol arama aracı, son üçte birlik birliğe dahil edilmiştir. C4 veri seti bilimsel olarak belgelenmiştir: Her ikisi de 2021 tarihli “Documenting the English Colossal Clean Crawled Corpus” ve “Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus”. C4’ün dizinlenmiş bir kopyasının etkileşimli bir web arayüzü.
(onun)
Haberin Sonu