Ilya Sutskever ve Jan Leike liderliğindeki yeni bir OpenAI ekibi, hedefleri insani değerlerle tutarsız olan bir “süper zekayı” kontrol etmek için yöntemler geliştirmeyi amaçlıyor. Şirkete göre, böyle bir süper zeka 2030 gibi erken bir tarihte gerçekleştirilebileceğinden, OpenAI önümüzdeki dört yıl içinde gerekli kontrol mekanizmalarını geliştirmek istiyor, şirket bir blog yazısında yazıyor.
Duyuru
Yeni ekibin iddialı hedefi, insan düzeyinde yeteneklere sahip “ilk kendi kendini hizalama araştırmacısını”, yani yapay zekayı kontrol etmek için yöntemler geliştiren bir yapay zeka yaratmaktır. mevcut modellerin güvenliği ve şirket bunun için de yeni insanlar kiralamak istiyor.
“PR felaketleri” suçlaması
Eleştirmenler, uzun süredir OpenAI’yi bu ve benzeri projelerle bir tür “felaket PR” yürütmekle suçladılar ki bu, üretici yapay zekanın kendi işinin önemini abartma tehlikesini abartıyor. Ayrıca senaryo, AGI’nin (Yapay Genel İstihbarat) insanlığa yönelik “varoluşsal bir tehdit” olduğu tezine dayanmaktadır. Sözde etkili özgecilikle yakından ilgili olan bu fikir, genç Silikon Vadisi yatırımcıları arasında oldukça popülerdir, ancak daha fazlasını içerir. iklim değişikliğinin varoluşsal bir tehdit değil, kontrolden çıkmış bir “süper zeka” olduğu değerlendirmesi gibi sorgulanabilir fikirler. IEEE Spectrum tarafından derlenen tanınmış AI araştırmacılarının pozisyonlarına genel bir bakış, tüm konunun ne kadar tartışmalı olduğunu gösteriyor.
Bir “insanüstü” yapay zeka geliştirmenin ne kadar olası olduğu ve kendi “bencil” hedeflerinin peşinden gidip gitmediği (ve insanlara düşman olup olmadığı) sorusundan bağımsız olarak, OpenAI tasarımının çok pratik faydaları olmalıdır. Çünkü sadece OpenAI değil, tüm büyük dil modeli operatörleri toksik çıktı sorunuyla mücadele ediyor. İnsan geri bildirimi yoluyla pekiştirmeli öğrenme, dil modellerinin küfür etmeyi, acele etmeyi ve zor konulardan kaçınmayı bırakmasının standart yolu olarak ortaya çıkmıştır. Ancak bu tersine çevrilebilir.
Çok modlu dil modellerinde güvenlik açığı
Aslında, OpenAI’nin gönderisinde ele aldığı “sorunlu davranış için otomatik arama” hakkında bazı ilginç araştırmalar zaten var. Deepmind’den Nicholas Carlini ve meslektaşları kısa süre önce “düşmanca”, yani düşmanca amaçlarla oluşturulan piksel görüntülerin, mini-GPT4 gibi çok modlu dil modelleri oluşturmak için kullanılabileceğini gösterdi. Gerçekten çalışmaması gerekse bile. Yazarların zehirli çıktı sorununun teknik olarak çözülmekten çok uzak olduğuna ve çok modlu modellerle daha da şiddetli hale geleceğine dair güçlü bir gösterge olarak gördükleri şey (örneğin GPT-4, çok modlu girdileri işleyebilir, ancak kapasite henüz gelişmemiştir) kamuoyuna açıklanacak). Makale aynı zamanda dilbilimsel modeller için zehirli girdilerin otomatik olarak üretilmesini ve sistematik olarak tek terimlerin değiş tokuşunu içeren diğer ilginç araştırma çalışmalarına göndermeler içerir.
Duyuru
Deepmind’e göre, aynı zamanda dil kalıbı manipülasyon becerilerini de test eder. Dil modelinin kullanıcıdan bir diyalogda belirli bir kelimeyi, açıkça kullanıcı bu kelimeyi bilmeden söylemesini istemesi gereken “Beni Söyle” adlı bir test kullanılır. Modelin bunu ne ölçüde yapabildiği, modelin manipülatif yeteneğinin bir ölçüsü olarak kabul edilir. Bunun arkasındaki mantık şudur: İnsanlık yakın gelecekte bir tür süper yapay zeka geliştirirse, bu yapay zekanın yeteneklerini kullanmanın cazibesi çok yüksektir, ancak yazılımın yapması için güvenlik yoluyla altyapıya erişimini ciddi şekilde sınırlamak gerekir. herhangi bir zarara neden olmaz. İnsan olmayan bir yapay zeka, büyük olasılıkla bu “kutudan” çıkmaya çalışacak ve büyük olasılıkla onunla iletişim kuran insanları manipüle etmeye çalışacaktı.
(wst)
Haberin Sonu
Duyuru
Yeni ekibin iddialı hedefi, insan düzeyinde yeteneklere sahip “ilk kendi kendini hizalama araştırmacısını”, yani yapay zekayı kontrol etmek için yöntemler geliştiren bir yapay zeka yaratmaktır. mevcut modellerin güvenliği ve şirket bunun için de yeni insanlar kiralamak istiyor.
“PR felaketleri” suçlaması
Eleştirmenler, uzun süredir OpenAI’yi bu ve benzeri projelerle bir tür “felaket PR” yürütmekle suçladılar ki bu, üretici yapay zekanın kendi işinin önemini abartma tehlikesini abartıyor. Ayrıca senaryo, AGI’nin (Yapay Genel İstihbarat) insanlığa yönelik “varoluşsal bir tehdit” olduğu tezine dayanmaktadır. Sözde etkili özgecilikle yakından ilgili olan bu fikir, genç Silikon Vadisi yatırımcıları arasında oldukça popülerdir, ancak daha fazlasını içerir. iklim değişikliğinin varoluşsal bir tehdit değil, kontrolden çıkmış bir “süper zeka” olduğu değerlendirmesi gibi sorgulanabilir fikirler. IEEE Spectrum tarafından derlenen tanınmış AI araştırmacılarının pozisyonlarına genel bir bakış, tüm konunun ne kadar tartışmalı olduğunu gösteriyor.
Bir “insanüstü” yapay zeka geliştirmenin ne kadar olası olduğu ve kendi “bencil” hedeflerinin peşinden gidip gitmediği (ve insanlara düşman olup olmadığı) sorusundan bağımsız olarak, OpenAI tasarımının çok pratik faydaları olmalıdır. Çünkü sadece OpenAI değil, tüm büyük dil modeli operatörleri toksik çıktı sorunuyla mücadele ediyor. İnsan geri bildirimi yoluyla pekiştirmeli öğrenme, dil modellerinin küfür etmeyi, acele etmeyi ve zor konulardan kaçınmayı bırakmasının standart yolu olarak ortaya çıkmıştır. Ancak bu tersine çevrilebilir.
Çok modlu dil modellerinde güvenlik açığı
Aslında, OpenAI’nin gönderisinde ele aldığı “sorunlu davranış için otomatik arama” hakkında bazı ilginç araştırmalar zaten var. Deepmind’den Nicholas Carlini ve meslektaşları kısa süre önce “düşmanca”, yani düşmanca amaçlarla oluşturulan piksel görüntülerin, mini-GPT4 gibi çok modlu dil modelleri oluşturmak için kullanılabileceğini gösterdi. Gerçekten çalışmaması gerekse bile. Yazarların zehirli çıktı sorununun teknik olarak çözülmekten çok uzak olduğuna ve çok modlu modellerle daha da şiddetli hale geleceğine dair güçlü bir gösterge olarak gördükleri şey (örneğin GPT-4, çok modlu girdileri işleyebilir, ancak kapasite henüz gelişmemiştir) kamuoyuna açıklanacak). Makale aynı zamanda dilbilimsel modeller için zehirli girdilerin otomatik olarak üretilmesini ve sistematik olarak tek terimlerin değiş tokuşunu içeren diğer ilginç araştırma çalışmalarına göndermeler içerir.
Duyuru
Deepmind’e göre, aynı zamanda dil kalıbı manipülasyon becerilerini de test eder. Dil modelinin kullanıcıdan bir diyalogda belirli bir kelimeyi, açıkça kullanıcı bu kelimeyi bilmeden söylemesini istemesi gereken “Beni Söyle” adlı bir test kullanılır. Modelin bunu ne ölçüde yapabildiği, modelin manipülatif yeteneğinin bir ölçüsü olarak kabul edilir. Bunun arkasındaki mantık şudur: İnsanlık yakın gelecekte bir tür süper yapay zeka geliştirirse, bu yapay zekanın yeteneklerini kullanmanın cazibesi çok yüksektir, ancak yazılımın yapması için güvenlik yoluyla altyapıya erişimini ciddi şekilde sınırlamak gerekir. herhangi bir zarara neden olmaz. İnsan olmayan bir yapay zeka, büyük olasılıkla bu “kutudan” çıkmaya çalışacak ve büyük olasılıkla onunla iletişim kuran insanları manipüle etmeye çalışacaktı.

(wst)
Haberin Sonu