DENETİMLİ MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE TÜRKÇE SAHTE HABER TESPİTİ İÇİN BİR KARAR DESTEK SİSTEMİ

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Bilişim Enstitüsü, Yönetim Bilişim Sistemleri, Türkiye

Tezin Onay Tarihi: 2022

Tezin Dili: Türkçe

Öğrenci: YASİN ERDURAN

Danışman: Cevriye Gencer

Özet:

Sosyal medya ve çevrim içi platformlar aracılığı ile her geçen gün daha fazla habere çok daha hızlı ulaşmaktayız. Bu haberlerin birçoğu bizim için önemli ve faydalı bilgiler içerirken, içlerinden bazı haberler bireye ve topluma zarar verme amacı ile yayılmaktadır. Bu haberler gerçekle hiçbir bağı olmayan, bir kişi ya da kurumun itibarını zedelemeyi, bir ideolojiyi desteklemeyi, kar sağlamayı ve en tehlikelisi alıcısının fikir ve düşüncelerini manipüle etmeyi amaçlayan sahte haberlerdir. Özellikle toplumun bilgi ihtiyacının yüksek olduğu doğal afet, seçim ya da kriz dönemlerinde sosyal medya üzerinden sahte haber yayılımı artmaktadır. Ortaya çıkan enformasyon insan gücüyle teyit edilebilecek boyutları geçmekte ve sahte haberin ortaya çıkardığı hasar büyümektedir. Sahte haberlerin doğuracağı zararların minimize edilmesi için bilgisayar bilim dalı olan makine öğrenmesi algoritmaları kullanılabilmektedir. Makine Öğrenmesi, verilerden öğrenebilen, deneyimlerden bilgi edinebilen ve zaman içinde öğrenme davranışlarını iyileştirebilen algoritmalardır. Çalışmada, doğrudan teyit uzmanları aracılığı ile sahte ve gerçek olarak etiketlenmiş Türkçe haber veri seti oluşturulmuş; bu haberler BoW, TF-IDF ve Doc2Vec özellik çıkarım algoritmaları ile öznitelik vektörlerine dönüştürülmüş; MLP, DT, SVM ve LGR makine öğrenme algoritmaları bu öznitelik vektörleri ile eğitilerek, ortaya çıkan 12 farklı modelin doğrulukları Test/Eğitim ayrımı ve K-fold yöntemleri ile denetlenmiştir. Denemeler için 8 çekirdek işlemcili, 16 GB bellekli bir bilgisayar kullanılmış olup, Python programa dili ile kodlanmış ve makine öğrenmesi modelleri için SciKitLearn kütüphanesi kullanılmıştır, en iyi sonuç Test/Eğitim ayrımı ve K-fold doğrulama yönteminde TF-IDF özellik çıkartımı vektörleri ile beslenen LGR modeli olduğu tespit edilmiştir. En iyi sonuç veren TF-IDF özellik çıkarımı algoritmasının vektörleri ile beslenen LGR makine öğrenmesi modeli ve diğer elde edilen modeller ile Türkçe sahte haber tespitine yönelik web tabanlı karar destek sistemi oluşturulmuştur.