Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2023
Tezin Dili: Türkçe
Öğrenci: Nuriye BAKTIR
Danışman: Yılmaz Atay
Özet:
Günümüzde hızlı ve güvenli iletişim büyük önem taşımaktadır. Bu bağlamda elektronik postalar, kullanım kolaylığı ve düşük maliyet gibi sebeplerle sıklıkla tercih edilmektedir. Ancak, e-posta kullanımının artmasıyla birlikte iletişim güvenliği riskleri de artmaktadır. En yaygın kötüye kullanım türlerinden olan istenmeyen e-postalar, kimlik avı, dolandırıcılık ve haksız kazanç gibi amaçlarla kullanılan zararlı elektronik iletilerdir. Güvenli iletişim için e posta sistemlerini zararlı araçlardan korumak amacıyla sınıflandırma yöntemleri kullanılmakta ve sınıflandırma performansını artırmak için özellik seçimi çalışmaları yapılmaktadır. Özellik seçimi, sınıflandırma performansını etkileyen farklı tekniklerle en uygun ve önemli özellikleri seçerek başarılı sonuçlar elde etmeyi amaçlayan bir optimizasyon sürecidir. Bu çalışmada, spam sınıflandırma probleminin özellik seçim sürecinde ele alınabilecek filtreleme tabanlı tekniklerden birliktelik kuralı madenciliği, varyans eşiği gibi yöntemlerinin yanında; sarmal tekniklerden genetik algoritma ve karınca koloni optimizasyonu yaklaşımları kullanılmıştır. Farklı özellik alt kümelerine sahip veriler üzerinde yapılan deneylerde, özellik seçim süreçlerinden sonra yaklaşımların performans analizini yapabilmek için lojistik regresyon, rastgele orman, adaboost, karar ağacı ve derin sinir ağları gibi sınıflandırıcı algoritmaları kullanılmıştır. Genetik algoritmanın mutasyon oranı parametresi üzerinde yapılan deneyler, mutasyon oranının performansta etkili olduğunu ve %20 oranının kullanılmasıyla sonuçların iyileştirildiğini göstermektedir. Mutasyon oranı ‰1 olduğunda doğrusal destek vektör makineleri ile yaklaşık %87 doğruluk elde edilirken, %20 mutasyon oranında rastgele orman ile yaklaşık %96 doğruluk sağlanmıştır. Karınca koloni optimizasyonu ile doğrusal destek vektör makineleri birlikte kullanıldığında ise yaklaşık %99 duyarlılık oranı elde edilmiştir. Bu tez çalışması, özellik seçiminin sınıflandırma performansına doğrudan etki ettiğini ve hibrit yaklaşımların spam mesajlarının tespitinde başarıyı artırdığını ortaya koymaktadır.
Anahtar Kelimeler : Adaboost, derin sinir ağları, genetik algoritma, karınca koloni
optimizasyonu, filtreleme yöntemleri, özellik seçimi