Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği, Türkiye
Tezin Onay Tarihi: 2017
Tezin Dili: Türkçe
Öğrenci: Abdurrahman YILDIZ
Danışman: Mehmet Demirci
Özet:Bu çalışmada e-postaları, içeriklerine göre anlamlandıran ve sınıflandıran bir sistem geliştirilmiştir. Çalışmanın amacı, akıllı bir gelen kutusu geliştirip, kurumlarda e-posta hizmetlerini kullanan bütün personellere bilgi güvenliği farkındalığı konusunda yardımcı olmaktır. Tasarlanan akıllı gelen kutusu yapısına e-postaları almak için basit posta transfer protokolü (SMTP) ile bir istemci geliştirilmiştir. Geliştirilen istemciyle standart gelen kutusu gibi e-postalar alınabilmektedir. Gelen kutusuna alınan e-postalar üzerinde iki aşamalı bir analiz gerçekleştirilmektedir. Her iki aşama analizi için de e-postaların özgün kaynak içerikleri ayrıştırılmaktadır. Birinci aşamada e-postaların üstbilgileri üzerinde analiz yapmak için özgün kaynaktan başlık(üstbilgi) bilgileri çıkarılmaktadır. Bu üstbilgi paketlerinden e-postanın iletim geçmişi, uğradığı sunucular, gecikme süresi, mesaj kimliği gibi standart gelen kutularında kullanıcıların gözle göremeyecekleri detaylar görsel hale getirilmektedir. Bu bilgilerle; alınan e-postada meydana gelen teslim gecikmeleri, gecikmenin oluştuğu sunucu bilgileri, sorumlunun bulunması gibi tespitler yapılabilmektedir. İkinci aşamada üstbilgi paketlerinden e-postanın gövdesi seçilmektedir ve içerik, format bilgilerinden temizlenmektedir. Daha sonra temizlenmiş içerik üzerinde analizler yapılabilmektedir. Türkçe için özelleştirilen bu çalışmada içerikteki kelimelerden öncelikle rakamlar, işaretler, durak kelimeler çıkarılarak kıymetli kelimeler seçilmektedir. Seçilen bu kelimeler Türkçe için özelleşmiş olan dil işleme aracı Zemberek ile köklerine ayrıştırılıp kullanıcıdan alınan sınıf bilgisiyle kaydedilmektedir. Kaydedilen bu köklerden öznitelik çıkarımı yapmak için sözlük oluşturulmaktadır. Daha sonra her sınıfın özniteliklerini belirlemek için sözlük içinden modifiye edilen TF-IDF yöntemimiz ile sıklık analizi yapılıp veri seti oluşturulmaktadır. Oluşturulan veri seti WEKA uygulaması üzerinde birçok sınıflandırma algoritmasıyla denenmiş ve en başarılı sonucu veren Naive Bayes algoritması sistemde gerçekleştirilmiştir. Bu çalışma sayesinde e-postalar hakkında ortak bir bilinç oluşturulmaya ve bilgi sızıntısı önlemi alınmaya çalışılmaktadır. Aynı zamanda e-postaların içeriklerinin taşıdığı bilgilerin ölçülmesine yardımcı olunmaktadır. Sistemin bu çalışmadaki üç sınıf için genel sınıflandırma başarısı %96,31 olup kurumsal verileri dış ağlara paylaşmadan yerel ağda Türkçe gerçek verilerle sınıflandırma yapabilen bir masaüstü uygulama olması itibariyle de literatüre katkı sağlamaktadır.