MR Altyazılama için Çoklu Dikkat Tabanlı Derin Öğrenme Modeli


Maraş B., Karatorak S., Özdem K., Gedik O., Akcayol M. A.

Muş Alparslan Üniversitesi Fen Bilimler Dergisi, cilt.13, sa.1, ss.128-137, 2025 (Hakemli Dergi) identifier

Özet

Son yıllarda sağlık alanında yapay zeka teknolojilerinin kullanımı hızla artmaya başlamıştır. Manyetik rezonans (MR) raporlarının manuel olarak tıp hekimleri tarafından oluşturulması oldukça zor, uzun zaman alan ve hatalı olma olasılığı yüksek bir süreçtir. Bu çalışmada, bu problemleri adreslemek amacıyla beyin MR görüntülerinden otomatik rapor üretecek derin öğrenme tabanlı görüntü altyazılama modeli önerilmiştir. Geliştirilen modelde, görüntü işleme, doğal dil işleme ve derin öğrenme yöntemleri birlikte kullanılarak tıbbi görüntüdeki içerik ve tanılara yönelik metin üretilmektedir. Öncelikle MR görüntüleri için, rastgele açılarla döndürme, boyut değiştirme, kırpma, parlaklık ve kontrast değiştirme, gölge ekleme ve aynalama gibi önişlemler yapılmıştır. Ardından Bootstrapping Language Image Pre-Training (BLIP) modeli ve modelin transformer mimarisinden faydalanılarak rapor üreten bir model geliştirilmiştir. Yapılan deneysel çalışmalarda, geliştirilen modelin farklı metrikler için başarılı sonuçlar verdiği, üretilen raporların orijinal raporlara yüksek oranda benzer olduğu ve tıp alanında yardımcı öneri sistemi olarak kullanılabileceği görülmüştür.
In recent years, the use of artificial intelligence in medicine has begun to increase considerably. Creating magnetic resonance (MR) reports manually by medical doctors is very difficult, time-consuming, and error-prone process. This study proposes a deep learning-based image captioning model to automatically generate reports. In the developed model, image processing, natural language processing, and deep learning methods are used to produce text for the medical image. First of all, pre-processing, such as rotating at random angles, changing size, cropping, changing brightness and contrast, adding shadows, and mirroring, were performed for MR images. Then, a model was developed by utilizing the Bootstrapping Language Image Pre-Training (BLIP) model and the transformer architecture of the model to generate a report. The experimental studies showed that the proposed model had successful results; the produced reports were highly similar to the original reports and could be used as a tool in medicine.