Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2022
Tezin Dili: Türkçe
Öğrenci: Sercan GÜLBURUN
Danışman: Murat Dener
Özet:
Dijital dünyaya yönelik tehditlerin en yaygın olarak karşılaşılan çeşitlerinden bir tanesi zararlı yazılımlardır. Bu tür yazılımlar, saldırganların kötücül amaçlarını gerçekleştirmek için kullandığı kodlardır. Mevcut ve yeni zararlı yazılımların bilgi varlıklarına zarar vermeden tespit edilmesi ve engellenmesi büyük önem arz etmektedir. Zararlı yazılımların tespit edilmesi için makine öğrenmesi yaklaşımları etkin bir şekilde kullanılmaktadır. Bu tez çalışmasında, denetimli ve denetimsiz öğrenme algoritmalarının birlikte kullanıldığı bir model sunulmaktadır. Sunulan model yüksek doğruluk ve f1 skoruyla mümkün olan en kısa sürede tahmin gerçekleştirmektedir. Modelin ilk aşamasında veriler K-ortalamalar algoritmasıyla kümelenmektedir. İkinci aşamasında ise ilgili küme için en iyi tahmin performansına sahip sınıflandırıcı kombinasyonu ile tahmin gerçekleştirilmektedir. İkinci aşamada kümelere göre en iyi sınıflandırıcılar seçilirken on makine öğrenme algoritmasının (Kernel Destek Vektör Makinesi, K-En Yakın Komşu, Naïve Bayes, Karar Ağacı, Rastgele Orman, Ekstra Gradian Yükseltme, Kategorik Yükseltme, Adaptif Yükseltme, Ekstra Ağaçlar ve Gradyan Yükseltme) üçlü kombinasyonu alınmaktadır. Seçilen üçlü sınıflandırıcı kombinasyonu iki kademede konumlandırılmaktadır. Tahmin süresi en yüksek olan sınıflandırıcının ikinci kademede olacak şekilde konumlandırılması sayesinde modelin tahmin süresi iyileştirilmektedir. Modelin tahmin performansı, BODMAS veri seti, Kaggle Zararlı Yazılım Tespiti veri seti, EMBER 2018 veri seti ve özgün veri setiyle, doğruluk ve f1 skoru değerleri kullanılarak sunulmaktadır. Model BODMAS veri setinde %99,74 doğruluk ve %99,77 f1 skoru, EMBER veri setinde %96,77 doğruluk ve %96,77 f1 skoru sağlamakta olup, aynı veri setleri kullanılarak gerçekleştirilen çalışmalardan daha iyi performans göstermektedir.
Anahtar Kelimeler : Zararlı yazılım tespiti, toplu öğrenme, sınıflandırma, kümeleme, özel sınıflandırıcı