Öznitelik Seçimi ile Desteklenen Makine Öğrenmesine Dayalı Göğüs Kanserinin Erken Tespiti ve Teşhisi


Creative Commons License

akyel c., Ciylan B., Polat H.

Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, cilt.12, sa.2, ss.675-690, 2024 (Hakemli Dergi) identifier

Özet

Kanserin tam nedeni bilinmemekle birlikte, yaşam tarzı, çevresel faktörler, beslenme ve genetik gibi birçok faktörün kanser gelişimine katkıda bulunabileceği bilinmektedir. Kanser türleri arasında özellikle göğüs kanseri, dünya genelinde kadınlar arasında görülme sıklığı yüksek olan bir hastalıktır. Göğüs kanserinin teşhisinde fiziksel muayene ve mamografi görüntülerinin incelenmesi gibi yöntemler kullanılmaktadır. Gelişen teknolojiyle birlikte makine öğrenmesi uygulamalarının tıp alanında kullanımı giderek artmaktadır. Bu sayede göğüs kanserinin daha erken aşamada ve hızlı şekilde teşhisi konusunda doktorlara yardımcı olabilecek umut verici çalışmalar giderek artmaktadır. Bu çalışmada, göğüs kanserinin erken teşhisinde kullanmak için 4 farklı öznitelik seçimi ve 5 farklı makine öğrenme yönteminin performansları karşılaştırılmıştır. Çalışmanın ilk aşamasında, Principal Component Analysis (PCA), Recursive feature elimination, Variance inflation factors (VIF) ve Univariate feature selection yöntemleri ile veri kümesinde hedef özniteliğe en çok etki eden öznitelikler seçilerek veri kümesindeki öznitelik sayısı azaltılmıştır. İkinci aşamada, K Nearest Neighbors (KNN), Naive Bayes, Decision Tree, Support Vector Machine (SVM) ve Random Forest makine öğrenme algoritmaları orijinal ve öznitelik seçimi yapılmış veri kümelerine dayalı olarak eğitilmiş ve test edilmiştir. Test sonuçlarına göre %98,83 doğruluk, %99 kesinlik ve %99 duyarlılık değerleri ile Variance inflation factors (VIF) öznitelik seçimi ve Random Forest algoritması kullanılarak elde edilmiştir. Daha az öznitelik kullanımı sayesinde eğitim ve test aşamalarında benzer başarı değerleri, kaynak kullanımı ile sağlanmıştır. Çalışmada eğitilip test edilen makine öğrenme modeli Flask framework kullanılarak bir web ara yüzüne sahip uygulama haline getirilmiştir.
Although the exact cause of cancer is not known, it is known that many factors such as lifestyle, environmental factors, nutrition and genetics may contribute to the development of cancer. Among the cancer types, especially breast cancer is a disease with a high incidence among women worldwide. Methods such as physical examination and examination of mammography images are used in the diagnosis of breast cancer. With the developing technology, the use of machine learning applications in the field of medicine is increasing. In this way, there is an increasing number of promising studies that can help doctors diagnose breast cancer at an earlier and faster stage. In this study, the performances of 4 different feature selection and 6 different machine learning methods to be used in the early detection of breast cancer were compared. In the first phase of the study, the number of features in the dataset was reduced by selecting the features that have the most impact on the target feature in the dataset with Principal Component Analysis (PCA), Recursive Feature Elimination, Variance inflation factors (VIF) and Univariate feature selection methods. In the second stage, K Nearest Neighbors (KNN), Naive Bayes, Decision Tree, SVM and Random Forest machine learning algorithms were trained and tested based on original and feature-selected datasets. The highest model test performance was obtained by using Variance inflation factors (VIF) and Random Forest algorithm. According to the test results, 98.83% accuracy, 99% precision and 99% recall values were obtained. In addition, the machine learning model that was trained and tested in the study was turned into an application with a web interface using flask framework.