Impact of the large language model and prompt specificity in generating psychiatric multiple-choice questions Impacto del modelo de lenguaje de gran tamaño y de la especificidad del prompt en la generación de preguntas de opción múltiple en psiquiatría

Rojo-Bofill, Luis; Ribes Jordán, Gràcia; Monedero Carrasco, Llanos; Carrasco Picazo, Juan; Balanzá-Martínez, Vicent; Giner, Lucas; Aguilar García-Iturrospe, Eduardo; KIYAK, YAVUZ

doi:10.1016/j.edumed.2026.101161

Impact of the large language model and prompt specificity in generating psychiatric multiple-choice questions Impacto del modelo de lenguaje de gran tamaño y de la especificidad del prompt en la generación de preguntas de opción múltiple en psiquiatría

Rojo-Bofill L. M., Ribes Jordán G., Monedero Carrasco L., Carrasco Picazo J. P., Balanzá-Martínez V., Giner L., ...Daha Fazla

Educacion Medica, cilt.27, sa.2, 2026 (Scopus)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 27 Sayı: 2
Basım Tarihi: 2026
Doi Numarası: 10.1016/j.edumed.2026.101161
Dergi Adı: Educacion Medica
Derginin Tarandığı İndeksler: Scopus, Directory of Open Access Journals, DIALNET
Anahtar Kelimeler: Generative artificial intelligence, Large language models, Medical education, Multiple-choice questions, Psychiatry
Gazi Üniversitesi Adresli: Evet

Özet

IntroductionThe use of large language models (LLMs) can assist in creating Multiple-Choice Questions (MCQs) for enhancing psychiatric education. This study evaluates the performance of LLMs in generating psychiatry case-based MCQs, focusing on the influence of the model used and the specificity of the prompt.Material and methodsTwo experiments were carried out. In Experiment 1, ChatGPT-3.5 and ChatGPT-4 were used with a general-purpose prompt. In Experiment 2, ChatGPT-4o was used to compare the generic prompt with a psychiatry-specific version. A total of 90 questions were generated in each experiment (45 per condition), balanced across low, moderate, and high difficulty levels. A panel of psychiatry professors assessed the questions for diagnostic accuracy and difficulty.ResultsIn Experiment 1, both ChatGPT-3.5 and ChatGPT-4 showed high diagnostic agreement with experts (κ = 0.889 and κ = 0.703), but little correlation with intended difficulty (ρ = 0.104, p = .496; ρ = −0.087, p = .57). In Experiment 2, the psychiatry-specific prompt with ChatGPT-4o yielded more accurate MCQs (κ = 0.731 and κ = 0.624) and stronger correlations between intended and expert-rated difficulty (ρ = 0.630, p < .001; ρ = 0.436, p < .001). It also improved the inclusion of relevant clinical information and diagnostic diversity.ConclusionLLMs can effectively generate psychiatry MCQs, especially when guided by domain-specific prompts. The psychiatry-specific prompt developed in this study is a useful tool for supporting medical education through high-quality, clinically relevant assessments. ResumenIntroducciónEl uso de modelos de lenguaje de gran tamaño (LLMs) permite la creación de preguntas de opción múltiple (MCQs). Este estudio evalúa el desempeño de los LLMs en la generación de MCQs basadas en casos clínicos psiquiátricos, centrándose en la influencia del modelo utilizado y en la especificidad del prompt.Material y métodosSe realizaron dos experimentos. En el Experimento 1, se emplearon ChatGPT-3.5 y ChatGPT-4 con un prompt genérico. En el Experimento 2, se utilizó ChatGPT-4o para comparar el prompt genérico con una versión específica para psiquiatría. Se generaron 90 preguntas por experimento (45 por condición), equilibradas según niveles de dificultad. Un panel de profesores de psiquiatría evaluó la precisión diagnóstica y dificultad de las preguntas.ResultadosEn el Experimento 1, tanto ChatGPT-3.5 como ChatGPT-4 mostraron alta concordancia diagnóstica con los expertos (κ = 0.889 y κ = 0.703), pero escasa correlación con la dificultad prevista (ρ = 0.104, p = .496; ρ = −0.087, p = .57). En el Experimento 2, el prompt específico de psiquiatría con ChatGPT-4o produjo MCQs más precisas (κ = 0.731 y κ = 0.624) y mayores correlaciones entre la dificultad prevista y la evaluada (ρ = 0.630, p < .001; ρ = 0.436, p < .001). También se observó una mayor inclusión de información clínica y diversidad diagnóstica.ConclusiónLos LLMs pueden generar MCQs en psiquiatría de forma eficaz, especialmente cuando se emplean prompts específicos. El prompt específico desarrollado ofrece una herramienta útil en educación médica.