Yaygın sınıflandırıcıların Scikit-learn, Weka ve Matlabaraçları ile Twitter spam tespitinde karşılaştırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2019

Öğrenci: ANIL DÜZGÜN

Danışman: FECİR DURAN

Özet:

Bu çalışmada, Twitter'ın kullanıcı hesabı tabanlı özniteliklerden oluşan bir veri seti üzerinde makine öğrenmesi yöntemleri ile spam tespiti yapılmıştır. Twitter, günümüzde sosyal medya kullanıcıları tarafından en çok tercih edilen sosyal ağlardan biridir. Bu nedenle çok sayıda spam hesap içermektedir. Gün geçtikçe içeriklerini güncelleyen spam hesapları tespit etmek için akıllı sistemlere ihtiyaç duyulmaktadır. Çalışmada öncelikle Akademik kullanıma açık bir Twitter veri setinden performans açısından en uygun bulunan kullanıcı hesabı tabanlı öznitelikler seçilmiştir. Öznitelik seti üzerinden 7 farklı denetimli makine öğrenmesi yöntemi, Scikit-learn, Weka ve Matlab araçlarında varsayılan parametreleri ile koşturularak modeller oluşturulmuştur. Modeller test edilerek elde edilen skorlar 3 araç için karşılaştırılmıştır. Tüm sınıflandırıcılarda varsayılan parametreler ile en yüksek doğruluk ve kesinlik, F ölçütü oranları Scikit-Learn aracı ile elde edilmiştir. Araçlarda ortak varsayılan parametreler ile aynı algoritmalar uygulandığında farklı sonuçlar elde edilebildiği görülmüştür. Bunun üzerine sınıflandırıcılar aynı ortak parametrelerle tekrar çalıştırılarak elde edilen skorlar arasındaki farklılıklar tekrar analiz edilmiştir. Araçlar ve yöntemler, dokümantasyon, geliştirme kolaylığı, popülerlik açısından da değerlendirilmiştir. Son aşamada Scikit-Learn ile tüm algoritmalardan elde edilen sonuçlar karşılaştırılmıştır. Doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorlarında en iyi sonuçlar topluluk öğrenme yöntemleri olan ve alt modellerinde karar ağaçları kullanan AdaBoost, Rastgele Orman ve Bagging sınıflandırıcıları ile elde edilmiştir. Geleneksel yöntemlerde en yüksek doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorları karar ağaçları sınıflandırıcısı ile elde edilmiştir. Skorlar birbirine yakın olmakla birlikte topluluk yöntemlerinde karar ağaçlarından daha yüksek skorlar elde edilmiştir. Spam oranını yakalama skoru olan doğru negatif skorlarında en yüksek başarım oranı K en yakın komşu algoritması ile elde edilmiştir. En düşük yanlış hesap tespiti rastgele orman sınıflandırıcısı ile elde edilmiştir. Kesinlik, F ölçütü, yanlış pozitif skorlarda lojistik regresyon yöntemi ile başarılı skorlar elde edilmiştir.