İstenmeyen elektronik posta sınıflandırma probleminde etkin özellik seçimi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2023

Tezin Dili: Türkçe

Öğrenci: Nuriye BAKTIR

Danışman: Yılmaz Atay

Özet:

Günümüzde hızlı ve güvenli iletişim büyük önem taşımaktadır. Bu bağlamda elektronik postalar, kullanım kolaylığı ve düşük maliyet gibi sebeplerle sıklıkla tercih edilmektedir. Ancak, e-posta kullanımının artmasıyla birlikte iletişim güvenliği riskleri de artmaktadır. En yaygın kötüye kullanım türlerinden olan istenmeyen e-postalar, kimlik avı, dolandırıcılık ve haksız kazanç gibi amaçlarla kullanılan zararlı elektronik iletilerdir. Güvenli iletişim için e posta sistemlerini zararlı araçlardan korumak amacıyla sınıflandırma yöntemleri kullanılmakta ve sınıflandırma performansını artırmak için özellik seçimi çalışmaları yapılmaktadır. Özellik seçimi, sınıflandırma performansını etkileyen farklı tekniklerle en uygun ve önemli özellikleri seçerek başarılı sonuçlar elde etmeyi amaçlayan bir optimizasyon sürecidir. Bu çalışmada, spam sınıflandırma probleminin özellik seçim sürecinde ele alınabilecek filtreleme tabanlı tekniklerden birliktelik kuralı madenciliği, varyans eşiği gibi yöntemlerinin yanında; sarmal tekniklerden genetik algoritma ve karınca koloni optimizasyonu yaklaşımları kullanılmıştır. Farklı özellik alt kümelerine sahip veriler üzerinde yapılan deneylerde, özellik seçim süreçlerinden sonra yaklaşımların performans analizini yapabilmek için lojistik regresyon, rastgele orman, adaboost, karar ağacı ve derin sinir ağları gibi sınıflandırıcı algoritmaları kullanılmıştır. Genetik algoritmanın mutasyon oranı parametresi üzerinde yapılan deneyler, mutasyon oranının performansta etkili olduğunu ve %20 oranının kullanılmasıyla sonuçların iyileştirildiğini göstermektedir. Mutasyon oranı ‰1 olduğunda doğrusal destek vektör makineleri ile yaklaşık %87 doğruluk elde edilirken, %20 mutasyon oranında rastgele orman ile yaklaşık %96 doğruluk sağlanmıştır. Karınca koloni optimizasyonu ile doğrusal destek vektör makineleri birlikte kullanıldığında ise yaklaşık %99 duyarlılık oranı elde edilmiştir. Bu tez çalışması, özellik seçiminin sınıflandırma performansına doğrudan etki ettiğini ve hibrit yaklaşımların spam mesajlarının tespitinde başarıyı artırdığını ortaya koymaktadır.

Anahtar Kelimeler : Adaboost, derin sinir ağları, genetik algoritma, karınca koloni optimizasyonu, filtreleme yöntemleri, özellik seçimi