Mühendislik bilimleri ve araştırmaları dergisi (Online), cilt.4, sa.2, ss.304-316, 2022 (Hakemli Dergi)
Sosyal medya platformlarında kullanıcıların paylaşımlar arasında saldırgan dil
barındıran içeriklerin önemli oranda arttığı gözlemlenmiştir. Çalışma Türkçe
dilinde bu sorunun çözümüne katkı sağlamayı amaçlamaktadır. Bu çalışmada
Twitter platformundan elde edilen bir veri seti oluşturulmuştur. 14752 Türkçe
tweet metninden oluşan bu veri seti etiketleyiciler tarafından manuel olarak
etiketlenmiş ve LSTM (Long ShortTerm Memory) ve GRU (Gated Recurrent
Units) modellerinin sınıflandırma performansları karşılaştırılmıştır.
Bilinebildiği kadarıyla saldırgan dil tespitine yönelik bu alanda yapılan
çalışmalara bakıldığında çalışma Türkçe dilinde çoklu sınıflandırma yapılan ilk
çalışmadır. Burada word2vec yöntemi ile kelime temsilleri elde edilmiştir.
Böylelikle genişletilmiş derlem kullanımının sınıflandırma performanslarına
katkısı karşılaştırılmıştır. Çalışmada yapılan ikili sınıflandırma da genişletilmiş
derlem kullanımıyla en yüksek performans GRU modeli F1-makro değeri
%94,49’dur. Çoklu sınıflandırmada elde edilen sınıflandırma performans
değerleri genişletilmiş derlemin katkısıyla GRU F1-makro değeri %71,97 ve
%54,10’dur. Bu alanda Türk dili literatürüne katkı sağlamak amacıyla mevcut
çalışmanın veri setleri ve genişletilmiş derlem kelime vektörleri paylaşılacaktır.