Google tarafından yayınlanan tıbbi sorular için dil şablonu

Bayburtgüzeli

Global Mod
Global Mod
“Nature”da Google araştırmacıları, tıbbi soruları yanıtlayan yeni bir geniş dil modeli sunuyor. Aynı zamanda, bu tür modellerin performansını değerlendirmek için yeni bir kriter öneriyorlar: MultiMedQA.

Duyuru



Önceki kıyaslamalar genellikle yalnızca bireysel tıbbi testlerde dil modellerinin performansını değerlendirir. Bu nedenle MultiMedQA, gerçekçilik, anlayış, potansiyel zarar ve yanlılık gibi kriterlerin yanı sıra yanıtların kalitesini değerlendirmek için yeni kriterler içerir. Kıyaslama yedi veri kümesinden oluşur: altısı tıbbi araştırmalardan ve hastalardan gelen sorularla mevcuttur ve çevrimiçi olarak sıklıkla aranan 3173 tıbbi sorudan oluşan bir veri kümesi olan HealthSearchQA.

Med-PaLM, 540 milyar parametreli PaLM (Pathways Language Model) tabanlı, tıbbi sorulara uyarlanmış bir transformatör modelidir. Ancak yayınla birlikte Google kendi araştırmasının gerisinde kalıyor. Grup, Nisan ayı sonunda Med-PALM-2’nin işbirliği ortakları için mevcut olduğunu duyurmuştu.

Araştırma grubu, “Talimat İstemi Ayarı” adlı bir teknikle Med-PaLM yanıtlarının kalitesini daha da artırmayı başarmış olsa da, Med-PaLM hala genişletilmiş dil modellerinin tipik zayıflıklarını gösteriyor: bir yandan, yanıtlar büyük ölçüde bağlama bağlıdır, öte yandan bu model sanrılı gerçekler de üretir.

Uzmanlar şüpheci olmaya devam ediyor


Genel olarak, yine de, model o kadar da kötü performans göstermedi. Belgeye göre Med-PaLM’nin MultiMedQA’dan rastgele seçilen sorulara verdiği yanıtlar dokuz doktor tarafından değerlendirildi. Sonuç: Med-PaLM’nin ayrıntılı yanıtlarının yüzde 92,6’sı “bilimsel fikir birliğine” karşılık geliyor. Med-PaLM yanıtlarının %5,8’i, insan uzman yanıtlarının %6,5’iyle karşılaştırılabilir şekilde, potansiyel olarak zararlı olarak sınıflandırıldı. Bununla birlikte, dil modeli yanıtları, zamanın %18,7’sinde yanlış veya uygunsuz içerik içeriyordu; bu, yalnızca %1,4’ü içeren insan yanıtlarından önemli ölçüde daha sıktı.

Modelin bazen etkileyici yanıtlarına rağmen, uzmanlar Science Media Center Germany konusunda şüpheci. Araştırma Merkezi’nden Roland Eils ve Benjamin Wild, “Modelin, bir hastanın belirsiz, eksik ve bazen yanlış beyanlarda bulunduğu ve kararların pratik klinik kısıtlamalar bağlamında alınması gereken gerçekçi bir durumu ne kadar iyi idare edeceği tartışmalıdır” diyor. Charité’deki (BIH) Berlin Sağlık Enstitüsü’nden Dijital Sağlık. “Diğer LLM’lere benzer şekilde en büyük metodolojik sorun, modellerin halüsinasyon görebilmesi ve bir ifadenin ne zaman doğru olduğuna ve ne zaman sadece ilk bakışta doğru göründüğüne karar vermenin zor olmasıdır.”

Duyuru

Ve Graz Tıp Üniversitesi Tıbbi Bilişim/İstatistik Enstitüsü’nden Andreas Holzinger, karşılaştırma ölçütlerinin “günlük tıbbi uygulamada olabileceği gibi, genellikle bir modelin bağlama özgü veya bireyselleştirilmiş sorulara tepki verme yeteneğini değerlendiremeyeceğini” belirtiyor. Bu nedenle, geniş bir dil modelinin tıp pratiğinde kullanıma uygunluğunu etkili bir şekilde değerlendirmek için, “yalnızca ölçütlere değil, aynı zamanda gerçek dünya koşullarında dikkatli test ve değerlendirmeye güvenmek de önemli olacaktır. , yasal ve güvenlik yönleri”.

Uzmanlar, Google’ın modelin kodunu veya ağırlıklarını yani ağın nöronları arasındaki bağlantının gücünü yayınlamamasını da eleştiriyor. Grubun kendisi bunu “bu tür bir modelin tıp alanında kontrolsüz kullanımından kaynaklanan güvenlik etkileri” ile gerekçelendiriyor ve ortaklar, araştırma topluluğu ve düzenleyicilerle birlikte daha da geliştirilmesi gereken “yeniliklere karşı sorumlu bir yaklaşıma” atıfta bulunuyor. yetkililer.

AB’nin AI yasası beklendiği gibi geçerse, grubun başka seçeneği yok. Klinik operasyonlarda büyük dil modellerinin kullanılması, o zaman, kesinliğe yakın bir olasılıkla, “yüksek riskli bir uygulama” olarak ele alınacak ve buna göre düzenlenecektir.







MIT Technology Review'dan daha fazlası



MIT Technology Review'dan daha fazlası




(wst)



Haberin Sonu
 
Üst