Taylor Webb, 2022’nin başlarında GPT-3 ile oynarken OpenAI’nin Büyük Dil Modelinin (LLM) neler yapabileceğini görünce hayrete düştü. Sonuçta bu, bir metin bloğundaki bir sonraki kelimeyi tahmin etmek için eğitilmiş bir sinir ağıydı; tabiri caizse hızlı otomatik tamamlama. Ancak Yüksek Lisans, tıpkı IQ testinde olduğu gibi, Webb’in sorduğu soyut soruların çoğuna doğru yanıtları aldı. Bilim adamı, “Bu sorunları çözme yeteneği beni gerçekten şaşırttı” diyor. “LLM, başıma geleceğini tahmin ettiğim hemen hemen her şeyi dönüştürdü.”
Duyuru
Webb, Los Angeles Kaliforniya Üniversitesi’nde insanların ve bilgisayarların soyut sorunları nasıl çözdüklerini inceleyen bir psikologdur. Özel yeteneklere sahip sinir ağları oluşturmaya alışkındı. Ancak GPT-3 bu nitelikleri boşuna öğrenmiş gibi görünüyordu. Son olarak Temmuz ayında Webb ve meslektaşları Nature dergisinde GPT-3’ün insanlar için tasarlanmış çeşitli testleri geçme yeteneğini tanımladıkları bir makale yayınladılar. Deneğin problemleri çözmek için analojileri kullanıp kullanamadığının değerlendirilmesi istenir. Bu testlerin bazılarında GPT-3 bir grup öğrenciden daha iyi performans gösterdi. Webb, “Analojiler insan düşüncesinin merkezinde yer alır” diyor. “Bunun her türlü yapay zekanın sahip olması gereken en önemli özelliklerden biri olduğunu varsayıyoruz.”
Webb’in araştırması, büyük dil modellerine uygulanabilecek şaşırtıcı yeni yöntemlerden oluşan uzun bir serinin yalnızca en sonuncusudur. Örneğin, OpenAI Mart ayında GPT-3’ün halefi olan GPT-4’ü tanıttığında şirket, birkaç düzine lise testi ve sınav da dahil olmak üzere yeni dil modelinin başarıyla geçeceği profesyonel ve akademik sınavların etkileyici bir listesini yayınladı. Amerika Birleşik Devletleri’ndeki sınavlar. Kısa bir süre sonra OpenAI, GPT-4’ün tıbbi lisanslama için önemli bir test olan ABD tıbbi lisanslama sınavının bazı kısımlarını geçebileceğini kanıtlamak için Microsoft ile ortaklık kurdu. Bazı araştırmacılar ayrıca büyük konuşma modellerinin, insanlarda belirli bilişsel yetenekleri belirlemeyi amaçlayan testleri uzun süredir geçebildiğine inanıyor: bir sorunu adım adım çözmekten sözde zihin teorisine, başkalarının ne düşündüğünü tahmin etmeye kadar.
Bu gibi bulgular, yapay zekanın yakında öğretmenlerin, doktorların, gazetecilerin ve avukatların yerini alabileceğini öngören manşetleri alevlendirdi. Tanınmış yapay zeka araştırmacısı Geoffrey Hinton, yarattığı teknolojiden korkmasının nedenlerinden biri olarak GPT-4’ün görünüşte sağlıklı düşünceleri bir araya getirme becerisini gösterdi. Ancak tüm bu kargaşanın bir püf noktası var: Bu sonuçların pratik açıdan gerçekte ne anlama geldiği konusunda çok az fikir birliği var. Bazı gözlemciler, insan benzeri zekanın bir parıltısı olarak gördükleri şey karşısında kör oldu, diğerleri ise ChatGPT ve Co.’nun yaptıklarına hiç ikna olmadı. “Büyük dil modelleri için mevcut değerlendirme tekniklerinde birkaç çelişkili nokta var” diyor Natalie Shapira, İsrail’in Ramat Gan kentindeki Bar-Ilan Üniversitesi’nde bilgisayar bilimcisi. “Gerçekte olduğundan daha büyük yeteneklere sahip oldukları yanılsamasını yaratıyorlar.”
Yoruma açık
Bu nedenle giderek artan sayıda araştırmacı (bilgisayar bilimcileri, bilişsel bilimciler, sinir bilimcileri ve dilbilimciler) Yüksek Lisans’ın değerlendirilme şeklini incelemek istiyor. Sistemlerin daha titiz ve kapsamlı bir şekilde değerlendirilmesi çağrısında bulunuyorlar. Bazıları, makinelerin insanlar üzerinde test edilmesi uygulamasının tamamen yanlış olduğuna ve ortadan kaldırılması gerektiğine inanıyor. New Mexico’daki Santa Fe Enstitüsü’nde yapay zeka eleştirmeni olarak kabul edilen yapay zeka araştırmacısı Melanie Mitchell, “Yapay zekanın doğuşundan bu yana, makineler IQ gibi insan zekası testleriyle değerlendiriliyor” diyor. reklam çerçevesi. “Soru her zaman böyle bir makineyi test etmenin ne anlama geldiğidir. Sadece bir insanla aynı anlama sahip değildir.”
Araştırmacı, “Çok fazla antropomorfizasyon var” diye eleştiriyor. “Ve bu, bu sistemler hakkında nasıl düşündüğümüzü ve onları nasıl test ettiğimizi etkiliyor.” Yapay zeka teknolojisini çevreleyen bu kadar yüksek umutlar ve korkular göz önüne alındığında, insanlığın Yüksek Lisans’ın gerçekte neyi yapıp neyi yapamayacağı konusunda sağlam bir anlayışa sahip olması zorunludur. Bu tür sistemlerin test edilmesindeki sorunların çoğu, sonuçların nasıl yorumlanması gerektiği ile ilgili olabilir.
Duyuru
Okul sınavları ve IQ testleri gibi insanlar için tasarlanmış prosedürler söz konusu olduğunda pek çok şey olduğu gibi kabul ediliyor. İnsanlar bu tür testlerde başarılı olduklarında, testin ölçmek üzere tasarlandığı bilgi, anlayış veya bilişsel yeteneğe sahip oldukları varsayılabilir. Ancak uygulamada bu yalnızca bir tahmindir: Akademik sınavlar her zaman öğretmenlerin gerçek becerilerini yansıtmaz. IQ testleri belirli bir dizi beceriyi ölçse de genel zekayı ölçmez. Ayrıca bu tür testler, bu tür testlerde iyi olan kişilerin lehinedir.
Büyük bir dil modeli bu tür testlerde iyi performans gösterirse, neyin ölçüldüğünün açık olup olmadığı sorusu ortaya çıkar. İyi bir test sonucu konunun etkili bir şekilde anlaşıldığının kanıtı mıdır? Bu işe yaramaz bir istatistik hilesi mi? Yalnızca ezberlenenleri mi yeniden canlandırıyor (yani modelde yapay zeka tarafından kaydedilenler)?
Haberin Sonu
Duyuru
Webb, Los Angeles Kaliforniya Üniversitesi’nde insanların ve bilgisayarların soyut sorunları nasıl çözdüklerini inceleyen bir psikologdur. Özel yeteneklere sahip sinir ağları oluşturmaya alışkındı. Ancak GPT-3 bu nitelikleri boşuna öğrenmiş gibi görünüyordu. Son olarak Temmuz ayında Webb ve meslektaşları Nature dergisinde GPT-3’ün insanlar için tasarlanmış çeşitli testleri geçme yeteneğini tanımladıkları bir makale yayınladılar. Deneğin problemleri çözmek için analojileri kullanıp kullanamadığının değerlendirilmesi istenir. Bu testlerin bazılarında GPT-3 bir grup öğrenciden daha iyi performans gösterdi. Webb, “Analojiler insan düşüncesinin merkezinde yer alır” diyor. “Bunun her türlü yapay zekanın sahip olması gereken en önemli özelliklerden biri olduğunu varsayıyoruz.”
Webb’in araştırması, büyük dil modellerine uygulanabilecek şaşırtıcı yeni yöntemlerden oluşan uzun bir serinin yalnızca en sonuncusudur. Örneğin, OpenAI Mart ayında GPT-3’ün halefi olan GPT-4’ü tanıttığında şirket, birkaç düzine lise testi ve sınav da dahil olmak üzere yeni dil modelinin başarıyla geçeceği profesyonel ve akademik sınavların etkileyici bir listesini yayınladı. Amerika Birleşik Devletleri’ndeki sınavlar. Kısa bir süre sonra OpenAI, GPT-4’ün tıbbi lisanslama için önemli bir test olan ABD tıbbi lisanslama sınavının bazı kısımlarını geçebileceğini kanıtlamak için Microsoft ile ortaklık kurdu. Bazı araştırmacılar ayrıca büyük konuşma modellerinin, insanlarda belirli bilişsel yetenekleri belirlemeyi amaçlayan testleri uzun süredir geçebildiğine inanıyor: bir sorunu adım adım çözmekten sözde zihin teorisine, başkalarının ne düşündüğünü tahmin etmeye kadar.
Bu gibi bulgular, yapay zekanın yakında öğretmenlerin, doktorların, gazetecilerin ve avukatların yerini alabileceğini öngören manşetleri alevlendirdi. Tanınmış yapay zeka araştırmacısı Geoffrey Hinton, yarattığı teknolojiden korkmasının nedenlerinden biri olarak GPT-4’ün görünüşte sağlıklı düşünceleri bir araya getirme becerisini gösterdi. Ancak tüm bu kargaşanın bir püf noktası var: Bu sonuçların pratik açıdan gerçekte ne anlama geldiği konusunda çok az fikir birliği var. Bazı gözlemciler, insan benzeri zekanın bir parıltısı olarak gördükleri şey karşısında kör oldu, diğerleri ise ChatGPT ve Co.’nun yaptıklarına hiç ikna olmadı. “Büyük dil modelleri için mevcut değerlendirme tekniklerinde birkaç çelişkili nokta var” diyor Natalie Shapira, İsrail’in Ramat Gan kentindeki Bar-Ilan Üniversitesi’nde bilgisayar bilimcisi. “Gerçekte olduğundan daha büyük yeteneklere sahip oldukları yanılsamasını yaratıyorlar.”
Yoruma açık
Bu nedenle giderek artan sayıda araştırmacı (bilgisayar bilimcileri, bilişsel bilimciler, sinir bilimcileri ve dilbilimciler) Yüksek Lisans’ın değerlendirilme şeklini incelemek istiyor. Sistemlerin daha titiz ve kapsamlı bir şekilde değerlendirilmesi çağrısında bulunuyorlar. Bazıları, makinelerin insanlar üzerinde test edilmesi uygulamasının tamamen yanlış olduğuna ve ortadan kaldırılması gerektiğine inanıyor. New Mexico’daki Santa Fe Enstitüsü’nde yapay zeka eleştirmeni olarak kabul edilen yapay zeka araştırmacısı Melanie Mitchell, “Yapay zekanın doğuşundan bu yana, makineler IQ gibi insan zekası testleriyle değerlendiriliyor” diyor. reklam çerçevesi. “Soru her zaman böyle bir makineyi test etmenin ne anlama geldiğidir. Sadece bir insanla aynı anlama sahip değildir.”
Araştırmacı, “Çok fazla antropomorfizasyon var” diye eleştiriyor. “Ve bu, bu sistemler hakkında nasıl düşündüğümüzü ve onları nasıl test ettiğimizi etkiliyor.” Yapay zeka teknolojisini çevreleyen bu kadar yüksek umutlar ve korkular göz önüne alındığında, insanlığın Yüksek Lisans’ın gerçekte neyi yapıp neyi yapamayacağı konusunda sağlam bir anlayışa sahip olması zorunludur. Bu tür sistemlerin test edilmesindeki sorunların çoğu, sonuçların nasıl yorumlanması gerektiği ile ilgili olabilir.
Duyuru
Okul sınavları ve IQ testleri gibi insanlar için tasarlanmış prosedürler söz konusu olduğunda pek çok şey olduğu gibi kabul ediliyor. İnsanlar bu tür testlerde başarılı olduklarında, testin ölçmek üzere tasarlandığı bilgi, anlayış veya bilişsel yeteneğe sahip oldukları varsayılabilir. Ancak uygulamada bu yalnızca bir tahmindir: Akademik sınavlar her zaman öğretmenlerin gerçek becerilerini yansıtmaz. IQ testleri belirli bir dizi beceriyi ölçse de genel zekayı ölçmez. Ayrıca bu tür testler, bu tür testlerde iyi olan kişilerin lehinedir.
Büyük bir dil modeli bu tür testlerde iyi performans gösterirse, neyin ölçüldüğünün açık olup olmadığı sorusu ortaya çıkar. İyi bir test sonucu konunun etkili bir şekilde anlaşıldığının kanıtı mıdır? Bu işe yaramaz bir istatistik hilesi mi? Yalnızca ezberlenenleri mi yeniden canlandırıyor (yani modelde yapay zeka tarafından kaydedilenler)?

Haberin Sonu