Twitter'da Türkçe veriler üzerinde hakaret suçu analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Bilişim Enstitüsü, Türkiye

Tezin Onay Tarihi: 2017

Öğrenci: NEVZAT ERÇOLAK

Danışman: HÜSEYİN ÇAKIR

Özet:

Sosyal medya insanların düşüncelerini ve günlük hayatta yaşadıklarını paylaştıkları, spor, siyaset, magazin ve buna benzer haber niteliği taşıyan içeriklerin bulunduğu bir platformdur. Sosyal medyada bu tür paylaşımlarla birlikte tehdit, şantaj, hakaret ve buna benzer birçok suç unsuru taşıyan paylaşımlarda yer almaktadır. Bu tezde, yaygın olarak kullanılan sosyal medya platformlarından Twitter ortamında yapılan paylaşımlar kullanılarak metin sınıflandırma kapsamında hakaret suçunun kategorilere ayrılması üzerinde çalışılmıştır. Sosyal medya ortamlarında yapılan paylaşımların, önceden tanımlanmış kategorilerle etiketleme işleminin gerçekleştirildiği metin sınıflandırma yöntemleriyle gruplandırılması mümkündür. Çalışma kapsamında kanunlar çerçevesinde insanların internet ve sosyal medya platformlarında maruz kalabileceği suçlardan hakaret suçunun incelenmesine karar verilmiştir. Hem metin sınıflandırma yöntemleri hem de sınıflandırma aşamasında makine öğrenmesi teknikleri kullanılarak hakaret suçu analizi için örnek bir sınıflandırma modeli oluşturulmuştur. Çalışma, belirlenen anahtar kelimelerle bulunan Türkçe tweetler kullanılarak hakaret ya da hakaret değil şeklinde iki kategoride yapılmıştır. Çalışma kapsamında farklı önişleme ve sınıflandırma yöntemleri uygulanarak bunların metin sınıflandırmadaki etkisi incelenmiştir. Farklı öznitelik ve sınıflandırma tekniklerinden elde edilen en iyi sonuç olarak Destek Vektör Makineleri yöntemiyle %95,4 oranındaki değer bulunmuştur. Çalışma kapsamında son olarak metin sınıflandırma ve dil işleme çalışmaları için uygulanan yöntemlerin otomatik olarak yapılması amacıyla Türkçe Twitter paylaşımların içeriklerini işleyebilen bir prototip geliştirilmiştir. Bu prototiple yeni veri setleri oluşturularak sınıflandırma başarı yüzdesinin iyileştirilmesi amaçlanmıştır.