Filigranlar AI sohbet robotu metinlerini nasıl görünür hale getirebilir?
İnsanların algılayamadığı ve kasıtlı olarak yapay zeka tarafından üretilen metinlere dağıtılan gizli kalıplar, gelecekte kendi yazdığı içeriği bilgisayar içeriğinden ayırt etmeye yardımcı olabilir. Bilgisayar bilimcileri, bunun bir kez daha algoritmik olarak üretilmiş metinler ile insan metinleri arasında ayrım yapmayı mümkün kılacağını umuyor.
Bu “filigranlar” insan gözüyle görülemez, ancak diğer bilgisayarların metnin büyük olasılıkla bir yapay zeka sisteminden geldiğini görmesini sağlar. Gelecekte büyük dil modellerine dahil edilirlerse, bu modellerin halihazırda neden olduğu ciddi sorunlardan kaçınmaya yardımcı olabilirler.
ChatGPT piyasada dolaşıyor
OpenAI’nin ChatGPT sohbet robotu Kasım ayında piyasaya çıktığından beri, metin kalitesi şaşırtıcı derecede yüksek olduğu için öğrenciler uzun süredir sistemi makaleler ve dönem ödevleri için kötüye kullanmaya başladılar. Daha sonra, bilgisayar haber sitesi CNET’in metin oluşturucuyu, bazen yanlış olan ve hatta muhtemelen kopyalanmış materyal içeren makaleler yazmak için kullandığı ortaya çıktı.
Filigranların verilmeden önce bu tür yapay zeka sistemlerine entegre edilmesi, bu tür sorunların çözülmesine yardımcı olabilir. Bir mesajın nereden geldiğini herkes kontrol edebilir. Bu teknik, yapay zeka tarafından üretilen içeriği neredeyse mutlak kesinlik ile tanımlamak için üniversite deneylerinde zaten kullanılmıştır. Örneğin, Maryland Üniversitesi’ndeki araştırmacılar, Meta’nın OPT-6.7B açık kaynak dil modelinin değiştirilmiş bir versiyonu tarafından oluşturulan metni tanımak için geliştirdikleri bir tanıma algoritmasını kullanabildiler. Grup, uygun kodu Şubat ortasında yayınlamak istiyor ve şu anda akran değerlendirmesi yapılıyor.
AI dil modelleri, metin oluşturmak için her seferinde bir kelimeyi tahmin ederek çalışır. Her kelimeden sonra, Maryland araştırmacılarının damgalama algoritması, dil modelinin kelime dağarcığını rastgele “yeşil listedeki” ve “kırmızı listedeki” kelimelere ayırır, ardından modelden yeşil listedeki kelimeleri seçmesini ister.
Kırmızı Liste ve Yeşil Liste
Bir pasajda bu yeşil listede ne kadar çok kelime varsa (doğrulama algoritması tarafından bilinir), metnin bir makine tarafından oluşturulmuş olma olasılığı o kadar yüksektir. Öte yandan, bir kişi tarafından yazılan metin, genellikle oldukça rastgele bir kelime karışımı içerir. Örneğin, “güzel” kelime aralığı için filigran algoritması “çiçek” kelimesini yeşil ve “orkide” kelimesini kırmızı olarak sınıflandırabilir. Araştırmaya katılan Maryland Üniversitesi’nden yardımcı doçent Tom Goldstein, filigran algoritmasına sahip yapay zeka modelinin “orkide” yerine “çiçek” kelimesini kullanacağını açıklıyor.
Bu tür sistemlere çok ihtiyaç duyulabilir. Çünkü ChatGPT, insan çıktısıyla karıştırılabilecek kadar düzgün metinler üretebilen yeni bir tür büyük dil modellerine aittir. Ayrıca, bu AI modelleri son derece özgüvenli bir şekilde gerçekleri tükürür, ancak düzeltilmesi gerekmez, içerik açısından çarpıtılabilirler. Eğitimsiz bir gözün, ChatGPT ve diğer gelişmiş modeller tarafından yazılan metni insan metninden ayırt etmesi neredeyse imkansızdır.
Yapay zeka gelişiminin nefes kesici hızı, yeni, daha güçlü modellerin mevcut yapay metin tanıma araçlarını hızla etkisiz hale getirdiği anlamına geliyor. En yeni nesil AI modellerine ayak uydurmaya çalışan AI geliştiricileri ve güvenlik uzmanları arasında sürekli bir yarış olacak.
Yapay zekanın vahşi batısında
Maryland Üniversitesi’nden filigranlama araştırmacısı John Kirchenbauer, “Şu anda burası Vahşi Batı” diyor. Bu tür araçların AI’yı tespit etme çabalarına bir avantaj sağlayacağını umuyor. Ekibinin geliştirdiği sistem, dönüştürücü gibi çalışan, yani bir sonraki kelimeyi tahmin eden herhangi bir AI dil modeliyle çalışacak şekilde uyarlanabilir.
OpenAI’de yapay zeka araştırmacısı olarak önceki rolünde bu tür sistemleri incelemek için çalışan yapay zeka girişimi Hugging Face’in politika direktörü Irene Solaiman, şu ana kadarki sonuçların umut verici ve zamanında olduğunu söylüyor. “Modeller geniş ölçekte dağıtıldıkça, AI topluluğu dışında bilgisayar eğitimi olmayan giderek daha fazla insanın bu tür tanıma sistemlerine erişmesi gerekiyor” diyor.
Bununla birlikte, metodolojinin hala sınırlamaları vardır. Filigran sistemi, yalnızca geliştiriciler onu en başından büyük dil modeline dahil ederse çalışır. OpenAI, yine yayınlanacak olan yapay zeka tarafından oluşturulan metni tanımanın yolları üzerinde çalışıyor olsa da, hala gizemli bir bilim gibi görünüyor. Şirket, ChatGPT’nin nasıl çalıştığı veya nasıl eğitildiği hakkında dışarıdan kişilere fazla bilgi vermeme eğilimindedir. Yabancıların sistemi kurcalamasına kesinlikle izin verilmez. OpenAI, bu makale talebinize hemen yanıt vermedi.
Bir filigran ne kadar güvenlik sunar?
Solaiman, yeni filigran tekniğinin Meta dışındaki ChatGPT gibi şablonlara nasıl uygulanacağının da belirsiz olduğunu söylüyor. Yöntemin test edildiği AI modeli, ChatGPT’nin temel aldığı GPT-3’ten daha küçüktür.
Damgalama tekniğinin alt edilip edilemeyeceğini belirlemek için daha ileri deneylere de ihtiyaç vardır. Şimdiye kadar, araştırmacılar saldırganların yeteneklerinin sınırlı olduğunu varsayıyorlar. Araştırmacı Goldstein, “Filigranı kaldırmak için bir metin pasajındaki kelimelerin yaklaşık yarısını değiştirmeniz gerekir” diyor.
Hugging Face uzmanı aynı fikirde değil. Süleyman, “Lise öğrencilerini hafife almak tehlikeli, bu yüzden bunu yapmayacağım” diyor. “Ama genel olarak, ortalama bir insan muhtemelen bu tür bir filigranı değiştiremez.”

(jle)
Haberin Sonu