Veri Koruma: OpenAI’nin veri açlığı nasıl patladı?
İtalya’daki bir yasağın ve diğer AB ülkeleri tarafından yapılan bir dizi soruşturmanın ardından, OpenAI’nin Avrupa gizlilik yasalarına uyması için artık bir haftadan biraz fazla zamanı var. Bunun yapılmaması ağır para cezalarına, verilerin silinmesine ve hatta diğer AB ülkelerinde yasaklanmaya neden olabilir.
Uzmanlar, OpenAI’nin düzenlemelere uymasının neredeyse imkansız olabileceğine inanıyor. Uzmanlar MIT Technology Review’a bunun nedeninin büyük dil modellerini (LLM’ler) eğitmek için verilerin toplanma yöntemi olduğunu söyledi. Veriler internetten geliyor.
Yapay zeka geliştirmede şu anda veriye aç bir paradigma hakim: eğitim aşamasında modelde ne kadar fazla bilgi varsa o kadar iyi. OpenAI’nin GPT-2 modeli hala 40 gigabayt metinden oluşan bir veri setine sahipti. Temel olarak ChatGPT’nin temel aldığı GPT-3, 570 GB ile güçlendirilmiştir. OpenAI, en son modeli GPT-4 için eğitim veri kümesinin boyutunu henüz paylaşmadı, ancak muhtemelen daha büyük olacak.
Ancak, veri açlığı artık veri koruma yasası açısından bir bumerang haline dönüşüyor. Yetkili makamlar, OpenAI’nin ChatGPT gibi hizmetleri kullandığı verileri nasıl topladığı ve işlediğiyle giderek daha fazla ilgileniyor. Veri koruyucular, şirketin kişilerin adları veya e-posta adresleri gibi kişisel verilerini topladığı ve onların rızası olmadan kullandığı görüşündedir. Ek olarak, OpenAI’nin ileri eğitim için kullanabileceği varsayıldığı kullanım sırasında şu anda ortaya çıkan bilgiler var.
İtalya, OpenAI için son tarih belirledi
İtalyan veri koruma kurumu, bir önlem olarak ChatGPT’yi başlattı ve engelledi. Fransız, Alman, İrlandalı ve Kanadalı gizlilik düzenleyicileri de şimdi OpenAI’nin verileri nasıl topladığını ve kullandığını araştırıyor. Veri koruma yetkilileri birliği olan Avrupa Veri Koruma Kurulu EDSA, OpenAI’ye karşı olası yaptırımlar da dahil olmak üzere soruşturmaları koordine etmek için AB çapında bir görev gücü kuruyor.
İtalya, ChatGPT operatörüne yerel yasalara uyması için 30 Nisan’a kadar süre verdi. Bu, diğer şeylerin yanı sıra, OpenAI’nin, Genel Veri Koruma Yönetmeliği (GDPR) kapsamında verilerini toplamak veya sözde meşru bir menfaatleri olduğunu göstermek için insanlardan onay istemesi gerektiği anlamına gelir. Web siteleri ve sosyal medya da daha önce bu yasal terimi, mahkemede her zaman başarılı olamayan kişiselleştirilmiş reklamları görüntülemek için kullanmıştır.
OpenAI’nin ayrıca kullanıcılara ChatGPT’nin verilerini nasıl kullandığını daha ayrıntılı olarak açıklaması ve hatta onlara chatbot’un onlara verdiği yanlış bilgileri düzeltme fırsatı vermesi gerekiyor. Verilerin silinmesi mümkün olmalı ve sistem, bir kişinin isterse verilerinden tamamen vazgeçilmesine izin vermelidir.
OpenAI, İtalyan veri koruma yetkilisini veri kullanım uygulamalarının yasal olduğuna ikna edemezse, şirketin teklifleri tek tek AB ülkelerinde ve hatta tüm Avrupa Birliği’nde yasaklanabilir. OpenAI ayrıca ağır cezalarla karşı karşıya kalabilir ve tüm modelleri veya en azından onları eğitmek için kullanılan verileri silmek zorunda kalabilir. Bu, Fransız veri koruma kurumu CNIL’de yapay zeka uzmanı olan Alexis Leautier’in hipotezidir.
şeffaflık talebi
OpenAI ihlalleri o kadar bariz olabilir ki, dava AB’deki en yüksek mahkeme olan Avrupa Birliği Adalet Divanı’nda sonuçlanacaktır. Newcastle Üniversitesi’nde İnternet hukuku profesörü olan Lilian Edwards’ın varsaydığı şey bu. Son teslim tarihine rağmen, İtalyan Veri Koruma Denetçisi sorularınızın yanıtlarını uzun süre bekliyor olabilir.
Ve OpenAI için risk daha yüksek olamazdı. GDPR şu anda dünyadaki en katı veri koruma düzenlemelerinden biri olarak kabul edilir, hatta en katısı değildir. Ve dünyanın her yerinde kopyalanıyor. Brezilya’dan Kaliforniya’ya düzenleyiciler bundan sonra olacakları yakından izliyor. Sonuç, AI şirketlerinin verileri toplama ve kullanma şeklini temelden değiştirebilir.
OpenAI yalnızca veri uygulamalarını şeffaf hale getirmemelidir. İlk adım, GDPR kurallarına göre çalıştığınızı göstermektir. Burada iki yasal seçenek var. Veya kullanıcılardan veri toplama izni alınmıştır. Ya da bunu yapmak için “meşru menfaat” diyor. OpenAI, İnternet’in sözde büyük bölümlerinin kazınması için onay almadı, milyonlarca AB vatandaşının onay vermesi gerekirdi.
“Meşru çıkar” olarak kalır. Hukuk uzmanı Edwards, bunu yapmak için şirketin düzenleyicilere, ChatGPT hizmetinin izinsiz veri toplamayı haklı çıkarmada gerçekten ne kadar önemli olduğunu olabildiğince ikna edici bir şekilde göstermesi gerektiğini söylüyor.
OpenAI bunu nasıl görüyor?
OpenAI, MIT Technology Review’a AB veri koruma yasalarıyla uyumlu olduğuna inandığını bildirdi. Bir blog yazısı, şirketin talep üzerine kişisel bilgileri eğitim verilerinden çıkarmak için çalıştığını, ancak yalnızca “uygulanabilir olduğunda” iddia ediyor.
AI pazar lideri, modellerini herkese açık ve lisanslı içeriklerle eğittiğini de paylaşıyor. Diğer şeylerin yanı sıra sorunlu içeriği filtrelemeye ve yanıtları değerlendirmeye yardımcı olan insan asistanlardan da bilgiler vardır (İnsan Geri Bildiriminden Takviyeli Öğrenim, RLHF). Bu, GDPR’ye uymak için yeterli olmamalıdır.
Avukat Edwards, “Amerika Birleşik Devletleri’nde, kamuya açık olan şeylerin artık özel olmadığına dair bir doktrin var ve bu, Avrupa hukukunda hiç de geçerli değil” diyor. Genel Veri Koruma Yönetmeliği, bireylere, verilerinin nasıl toplandığı ve kullanıldığı hakkında bilgilendirilme hakkı da dahil olmak üzere, ‘veri sahibi’ olarak belirli haklar verir. Ayrıca, başlangıçta herkese açık olsa bile, verilerin sistemden tekrar kaldırılmasını talep edebilirsiniz.
OpenAI’nin başka bir sorunu var. İtalyan yetkili, OpenAI’nin eğitim sonrası aşamada kullanıcı verilerini nasıl topladığını şeffaf hale getirmediğini söylüyor; B. ChatGPT ile etkileşimlerinin sohbet günlüklerinde.
Sohbet verilerinden korkma
Fransız bir gizlilik savunucusu olan Leautier, “Gerçekten endişe verici olan, kullanıcıların sohbetlerde ortaya koyduğu verilerin nasıl kullanıldığıdır” diyor. İnsanlar mahrem ve özel bilgileri sohbet robotuyla paylaşma eğilimindeydi, ör. B. zihinsel durumları, sağlıkları veya kişisel tutumları hakkında. Leautier’e göre bu sorunlu çünkü bu hassas verilerin başkalarına aktarılma riski var. Avrupa yasalarına göre, kullanıcıların sohbet günlüklerini de silebilmeleri gerekir. Özellik var, ancak dahili depolama sürelerinin uzunluğu belirsizliğini koruyor.
Tüm bunlar OpenAI için son derece karmaşık hale geliyor. Daha önce Google’da alan eş başkanı olan yapay zeka girişimi Hugging Face’te yapay zeka araştırmacısı ve etik sorumlusu Margaret Mitchell, insanların verilerini tanımlamanın ve modellerden kaldırmanın neredeyse imkansız olacağını söylüyor.
Daha da kötüsü: Başlangıçtan itibaren sağlam veri kaydı olsaydı, OpenAI şu anda ortaya çıkan birçok çatışmayı önleyebilirdi. Bunun yerine, Mitchell’e göre yapay zeka endüstrisinde, internette rastgele gezinerek dil modelleri için büyük eğitim veri kümeleri oluşturmak yaygındır. Ardından, özellikle düşük ücretli ülkelerde, yazım hataları düzeltilene kadar yinelenen veya alakasız bilgileri, nefreti, şiddeti veya çocuk pornografisini manuel olarak filtrelemek zorunda olan üçüncü taraf şirketler kullanılır.
Bu yöntemler ve eğitim veri kümelerinin çok büyük boyutu, yapay zeka şirketlerinin genellikle modellerinin nasıl oluşturulduğuna dair çok sınırlı bir anlayışa sahip olduğu anlamına gelir. Ve böylece onları veri koruma düzenlemelerine uygun olarak eğitmek neredeyse imkansız hale geliyor.
Bir eğitim verisi yığınındaki iğne
Çoğu AI şirketi, eğitim verilerini tam olarak nasıl topladıklarını belgelemez veya açıklamaz. Google’da eski bir yapay zeka araştırmacısı olan Nithya Sambasivan, eğitim verisi yönetimi konusunda uzmanlaşan girişimci olan Nithya Sambasivan, genellikle veri kümelerinde tam olarak ne olduğunu bilmediklerini söylüyor.
Örneğin, ChatGPT’nin devasa eğitim veri setinde yalnızca İtalyan kullanıcı verilerini keşfetmek, samanlıkta meşhur iğneyi bulmak gibidir. Ve OpenAI bu kullanıcı grubunun verilerini silmeyi başarsa bile bunun kalıcı olup olmayacağı belli değil. Önceki araştırmalar, eğitim veri setlerinin silindiği söylendikten çok sonra bile internette bulunabileceğini göstermiştir çünkü orijinalin kopyaları çoğunlukla çevrimiçi kalır.
Mitchell, “Eğitim verisi toplamadaki son teknoloji çok ama çok olgunlaşmamış” diyor. Bunun nedeni, son teknoloji yapay zeka modellerinin geliştirilmesine büyük miktarda çalışma harcanırken, çoğu on yıl veya daha eski olan eğitim veri toplama yöntemlerine çok az harcanmasıdır.
Mitchell, yapay zeka topluluğunda modelleme teknolojisi üzerinde çalışmanın diğer tüm alanların pahasına gereğinden fazla vurgulandığını söylüyor: “Kültürel bir bakış açısından, makine öğreniminde verilerle ve veriler üzerinde çalışmanın iş olarak kabul edildiği bir sorun var.” aptal, ” aptalca bir iş”, görüyorsunuz, ama modeller üzerinde çalışmak yapılacak doğru şey”. Uzman Sambasivan aynı fikirde: tüm çalışma alanı gerekli meşruiyetten yoksun.


(bsc)
Haberin Sonu