Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi


Creative Commons License

ŞAHİNER YILMAZ Ş., ÖZER İ., GÖKÇEN H.

Mühendislik bilimleri ve araştırmaları dergisi (Online), cilt.4, sa.2, ss.304-316, 2022 (Hakemli Dergi)

Özet

Sosyal medya platformlarında kullanıcıların paylaşımlar arasında saldırgan dil barındıran içeriklerin önemli oranda arttığı gözlemlenmiştir. Çalışma Türkçe dilinde bu sorunun çözümüne katkı sağlamayı amaçlamaktadır. Bu çalışmada Twitter platformundan elde edilen bir veri seti oluşturulmuştur. 14752 Türkçe tweet metninden oluşan bu veri seti etiketleyiciler tarafından manuel olarak etiketlenmiş ve LSTM (Long ShortTerm Memory) ve GRU (Gated Recurrent Units) modellerinin sınıflandırma performansları karşılaştırılmıştır. Bilinebildiği kadarıyla saldırgan dil tespitine yönelik bu alanda yapılan çalışmalara bakıldığında çalışma Türkçe dilinde çoklu sınıflandırma yapılan ilk çalışmadır. Burada word2vec yöntemi ile kelime temsilleri elde edilmiştir. Böylelikle genişletilmiş derlem kullanımının sınıflandırma performanslarına katkısı karşılaştırılmıştır. Çalışmada yapılan ikili sınıflandırma da genişletilmiş derlem kullanımıyla en yüksek performans GRU modeli F1-makro değeri %94,49’dur. Çoklu sınıflandırmada elde edilen sınıflandırma performans değerleri genişletilmiş derlemin katkısıyla GRU F1-makro değeri %71,97 ve %54,10’dur. Bu alanda Türk dili literatürüne katkı sağlamak amacıyla mevcut çalışmanın veri setleri ve genişletilmiş derlem kelime vektörleri paylaşılacaktır.