Tezin Türü: Doktora
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2023
Tezin Dili: Türkçe
Öğrenci: Aiman ABİBULLAYEVA
Danışman: Aydın Çetin
Özet:
Anahtar kelime çıkarımı; otomatik dizin oluşturma, özetleme, sınıflandırma, kümeleme ve otomatik filtreleme gibi birçok uygulama için çözülmesi gereken temel problemlerden biridir. Diğer dillerin yanı sıra, Kazakça'da internet üzerinden bilgiler her geçen gün muazzam bir şekilde artmaktadır. Büyük miktarda metni veya makaleyi işlemek için otomatik bir anahtar kelime çıkarımı sistemi büyük talep görmektedir. Bu tez çalışmasında Kazak haber sayfalarından anahtar kelime çıkarımı için yeni bir model önerilmektedir. Topluluk Token Sınıflandırma modülünde Rastgele Orman (Random Forest), Aşırı Gradyan Artırma (XgBoost), Oylama Sınıflandırması (Voting Classification) topluluk algoritmaları ve Karar Ağacı (Decision Tree) algoritması ayrı ayrı eğitilmiş ve test edilmiştir. Önerilen yöntem, anahtar kelime çıkarımı problemini bir dizi etiketleme problemi olarak çözüyor. Önerilen modelin eğitilmesi ve test edilmesi için Kazak ve Rusça haber sayfalarından veri setleri derlenmiştir. Bu veri kümeleri üzerinde istatistiksel ve grafik öznitelikler kullanılarak yeni Topluluk Anahtar Kelime Çıkarımı (T-AKÇ) modeli önerilmiştir. Modelin başarımını ölçmek için literatürde yaygın olarak kullanılan İngilizce dilinde haber içeriklerinden oluşan 500N-KPCrowd veri kümesi için sonuçlar alınmış ve yeni derlenmiş veri kümelerinden alınan sonuçlarla karşılaştırılmıştır. Önerilen model ile, 500N-KPCrowd ve Rus veri kümelerinde sırasıyla 0,71 ve 0,86 F1 skoru elde edilmiştir. Kazak veri kümesi için 0,97 en iyi F1 skoru ile literatürdeki en yüksek sonuca ulaşılmıştır.
Anahtar Kelimeler : Kazak dili, anahtar kelime çıkarımı, topluluk sınıflandırması, istatistiksel, grafik tabanlı.