24. ULUSAL ANATOMİ KONGRESİ, İstanbul, Türkiye, 19 - 21 Eylül 2024, cilt.18, sa.3, ss.76-77, (Özet Bildiri)
ChatGPT ile üretilen çoktan seçmeli anatomi sorularının ayırt edicilik ve güçlük indeksleri
Amaç: Bu çalışma, ChatGPT kullanılarak oluşturulan anatomi çoktan seçmeli sorularının (ÇSS) psikometrik özelliklerini (madde ayırt edicilik ve güçlük) değerlendirmeyi amaçlamaktadır.
Yöntem: Bir tıp fakültesinde yürütülen bu psikometrik çalışmada, endokrin ve ürogenital sistem bloğu anatomi sınavında kullanılan 14 ÇSS'den altısı ChatGPT-4 kullanılarak üretildi. Uzmanlar tarafından gerçekleştirilen inceleme, revizyon ve çeviri sürecinden sonra sorular Türkçe eğitim programındaki 372 ve İngilizce eğitim programındaki 130 ikinci sınıf tıp öğrencisi tarafından yanıtlandı. Madde (ÇSS) analizi, ayırt edicilik (point-biserial korelasyon) ve güçlük (soruyu doğru yanıtlayan öğrencilerin oranı) indekslerini hesaplamak için yapıldı. Madde ayırt ediciliği için kabul edilebilir aralık 0.20-0.70'tir. 0.20-0.80 arası güçlük orta düzey olarak kabul edilirken, 0.80'in üzerindeki değerler kolay, 0.20'nin altındaki değerler zor soru olarak değerlendirilmektedir. Analiz, R tabanlı açık kaynaklı bir yazılım olan Jamovi kullanılarak gerçekleştirilmiştir.
Bulgular: ChatGPT tarafından üretilen sorular için madde ayırt edicilik indeksleri İngilizce versiyonda 0.29 ile 0.44 arasında, Türkçe versiyonda 0.31 ile 0.54 arasındadır. Madde güçlükleri İngilizcede 0.41 ile 0.86, Türkçede 0.45 ile 0.89 arasındadır. Tüm maddeler kabul edilebilir ayırt edicilik düzeyleri göstermiş, çoğu orta düzeyde güçlük sergilemiştir.
Sonuç: Bu çalışma, ChatGPT tarafından üretilen anatomi sorularının insan tarafından yazılan sorulara benzer psikometrik özellikler sergilediğini ortaya koymaktadır. Bu bulgular, yapay zeka destekli soru oluşturma süreçlerinin anatomi eğitiminde potansiyel bir rol oynayabileceğini göstermektedir.
Anahtar Kelimeler: yapay zeka, chatgpt, çoktan seçmeli soru, anatomi, tıp eğitimi
Discrimination and difficulty indices of ChatGPT-generated multiple-choice questions in anatomy
Objective: This study aims to evaluate the psychometric properties (item discrimination and difficulty indices) of ChatGPT-generated anatomy multiple-choice questions (MCQs).
Methods: In this psychometric study conducted at a medical school, six out of 14 MCQs used in the endocrine and urogenital system block anatomy exam were generated by ChatGPT-4. After a review, revision, and translation process carried out by experts, the questions were answered by 372 second-year medical students in the Turkish-language track and 130 in the English-language track. Item (MCQ) analysis was performed to calculate item discrimination (point-biserial correlation) and difficulty (proportion of test-takers who answered the item correctly) indices. The acceptable range for item discrimination is 0.20-0.70. The difficulty between 0.20-0.80 is considered moderate, while values above 0.80 are considered easy and below 0.20 are considered difficult. The analysis was performed using Jamovi, an R-based open-source software.
Results: The item discrimination indices for ChatGPT-generated questions ranged from 0.29 to 0.44 for the English version and 0.31 to 0.54 for the Turkish version. Item difficulty indices varied from 0.41 to 0.86 in English and 0.45 to 0.89 in Turkish. All items demonstrated acceptable discrimination levels, with most showing moderate difficulty.
Conclusion: This study reveals that ChatGPT-generated anatomy MCQs exhibit psychometric properties similar to human-written questions. These findings suggest that AI-assisted question generation processes may play a potential role in anatomy education.
Keywords: artificial intelligence, chatgpt, multiple-choice question, anatomy, medical education