Kurumsal e-posta sınıflandırma sistemi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği, Türkiye

Tezin Onay Tarihi: 2017

Tezin Dili: Türkçe

Öğrenci: Abdurrahman YILDIZ

Danışman: Mehmet Demirci

Özet:

Bu çalışmada e-postaları, içeriklerine göre anlamlandıran ve sınıflandıran bir sistem geliştirilmiştir. Çalışmanın amacı, akıllı bir gelen kutusu geliştirip, kurumlarda e-posta hizmetlerini kullanan bütün personellere bilgi güvenliği farkındalığı konusunda yardımcı olmaktır. Tasarlanan akıllı gelen kutusu yapısına e-postaları almak için basit posta transfer protokolü (SMTP) ile bir istemci geliştirilmiştir. Geliştirilen istemciyle standart gelen kutusu gibi e-postalar alınabilmektedir. Gelen kutusuna alınan e-postalar üzerinde iki aşamalı bir analiz gerçekleştirilmektedir. Her iki aşama analizi için de e-postaların özgün kaynak içerikleri ayrıştırılmaktadır. Birinci aşamada e-postaların üstbilgileri üzerinde analiz yapmak için özgün kaynaktan başlık(üstbilgi) bilgileri çıkarılmaktadır. Bu üstbilgi paketlerinden e-postanın iletim geçmişi, uğradığı sunucular, gecikme süresi, mesaj kimliği gibi standart gelen kutularında kullanıcıların gözle göremeyecekleri detaylar görsel hale getirilmektedir. Bu bilgilerle; alınan e-postada meydana gelen teslim gecikmeleri, gecikmenin oluştuğu sunucu bilgileri, sorumlunun bulunması gibi tespitler yapılabilmektedir. İkinci aşamada üstbilgi paketlerinden e-postanın gövdesi seçilmektedir ve içerik, format bilgilerinden temizlenmektedir. Daha sonra temizlenmiş içerik üzerinde analizler yapılabilmektedir. Türkçe için özelleştirilen bu çalışmada içerikteki kelimelerden öncelikle rakamlar, işaretler, durak kelimeler çıkarılarak kıymetli kelimeler seçilmektedir. Seçilen bu kelimeler Türkçe için özelleşmiş olan dil işleme aracı Zemberek ile köklerine ayrıştırılıp kullanıcıdan alınan sınıf bilgisiyle kaydedilmektedir. Kaydedilen bu köklerden öznitelik çıkarımı yapmak için sözlük oluşturulmaktadır. Daha sonra her sınıfın özniteliklerini belirlemek için sözlük içinden modifiye edilen TF-IDF yöntemimiz ile sıklık analizi yapılıp veri seti oluşturulmaktadır. Oluşturulan veri seti WEKA uygulaması üzerinde birçok sınıflandırma algoritmasıyla denenmiş ve en başarılı sonucu veren Naive Bayes algoritması sistemde gerçekleştirilmiştir. Bu çalışma sayesinde e-postalar hakkında ortak bir bilinç oluşturulmaya ve bilgi sızıntısı önlemi alınmaya çalışılmaktadır. Aynı zamanda e-postaların içeriklerinin taşıdığı bilgilerin ölçülmesine yardımcı olunmaktadır. Sistemin bu çalışmadaki üç sınıf için genel sınıflandırma başarısı %96,31 olup kurumsal verileri dış ağlara paylaşmadan yerel ağda Türkçe gerçek verilerle sınıflandırma yapabilen bir masaüstü uygulama olması itibariyle de literatüre katkı sağlamaktadır.