ChatGPT-4o TUS Sınavına Girdi!

ChatGPT – 4o TUS Sınavına Girdi!


Son dönemde yapılan akademik çalışmalar, büyük dil modellerinin (LLM) tıp alanında ciddi bir performans gösterdiğini ortaya koyuyor. Örneğin, ChatGPT-4o Türkiye’deki TUS benzeri sınavlarda klinik sorularda insan uzmanlarla yarışan doğruluk oranlarına ulaşırken, temel bilimlerde de kayda değer başarı elde etti. (arxiv.org) Benzer şekilde, BMC Medical Education’da yayımlanan araştırmalar, GPT-4 ve Llama 3 modellerinin Türkçe sınav sorularında anlamlı sonuçlar verdiğini gösteriyor. (pubmed.ncbi.nlm.nih.gov)


Yapay zeka ve tıp alanındaki gelişmeleri yakından takip edenler için heyecan verici bir başlık, değil mi? "TUS'ta Başarıya Giden Yol: Yapay Zeka Destekli Bir Analiz" başlıklı makale, ilk bakışta tıp eğitiminin geleceğine dair devrim niteliğinde ipuçları vaat ediyor. Yapay zekanın, Tıpta Uzmanlık Sınavı (TUS) gibi zorlu bir maratonda adaylara nasıl bir yol haritası sunabileceği, hangi konulara daha fazla ağırlık vermeleri gerektiğini ve hatta kişiselleştirilmiş bir çalışma programı oluşturup oluşturamayacağı gibi konular, bu alandaki herkesin merakını cezbediyor. Bu tür bir analizin, sadece ezbere dayalı bir çalışma sisteminden daha verimli ve akılcı bir modele geçişin kapılarını aralayabileceği düşüncesi oldukça çekici.


Amerikan tıp sınavları (USMLE) gibi uluslararası ölçekte de benzer sonuçlar karşımıza çıkıyor. GPT-4o, çoktan seçmeli sorularda %90’a yaklaşan doğruluk oranlarına ulaşırken, bazı çalışmalarda görüntü tabanlı sorularda bile anlamlı bir başarı sergilediği raporlandı. (bmcmededuc.biomedcentral.com) Bu bulgular, LLM’lerin yalnızca teorik değil, pratik tıp karar süreçlerinde de destek aracı olabileceğini düşündürüyor.


Ancak, her parlak vaadin ardında olduğu gibi, burada da eleştirel bir duruş sergilemek gerekiyor. Makalenin önerdiği yapay zeka modelinin ne kadar şeffaf olduğu büyük bir soru işareti. Algoritmanın hangi verilere dayanarak "başarı"yı tanımladığı, hangi öğrenme materyallerini önceliklendirdiği ve bu sürecin ne kadar objektif olduğu meçhul. Acaba bu sistem, belirli bir tıp ekolünün veya belirli bir kaynak türünün ağırlığını taşıyarak, adayları tek tip bir düşünce yapısına mı yönlendiriyor? Daha da önemlisi, tıp gibi insan hayatının merkezde olduğu bir alanda, sınav başarısını maksimize etmeye odaklanmış bir yapay zekanın, hekimliğin gerektirdiği empati, etik ve eleştirel düşünme gibi insani yetenekleri göz ardı etme riski bulunmuyor mu?


Bu teknoloji, TUS hazırlık sürecini daha verimli hale getirme potansiyeli taşısa da, eğitimin ruhunu ve hekimliğin özünü ne yönde etkileyeceği üzerine ciddi bir şekilde düşünmeliyiz. Başarıyı sadece sınav sonuçlarına indirgeyen bir bakış açısı, geleceğin hekimlerini nasıl şekillendirir? Yapay zeka, bir "sınav kazanma makinesi" mi olmalı, yoksa hekim adaylarının entelektüel merakını ve insani değerlerini geliştiren bir yardımcı mı? Bu teknoloji yaygınlaşırsa, TUS'un kendisi ve ölçtüğü yetkinlikler de değişime uğramak zorunda kalır mı?



------------------

📚 Kaynaklar:

·      Karakaş et al. (2024). Evaluation of GPT-4o on the Turkish Medical Specialization Exam (TUS) (arxiv.org)

·      Kılınçarslan et al. (2024). Performance of LLMs on Turkish medical specialty exam questions (pubmed.ncbi.nlm.nih.gov)

·      Wu et al. (2025). Evaluation of GPT-4o on visual medical exam questions (bmcmededuc.biomedcentral.com)

 

Yazar
Sultan Amed YAŞAR
Yayın Tarihi: 07.10.2025 | Kategori: Tıp
💬Yorumlar

Yorum yapabilmek için giriş yapmalısınız.