Dizi etiketleme temelli yeni bir karma anahtar kelime çıkarım modeli


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2023

Tezin Dili: Türkçe

Öğrenci: Hüma KILIÇ

Danışman: Aydın Çetin

Özet:

Anahtar kelime çıkarımı, metin içeriğinin kümelenmesi ve bağlanmasındaki büyük zorluklardan biridir. Literatürde, anahtar kelime ve anahtar ifade çıkarımı için çeşitli makine öğrenmesi yaklaşımları önerilmiştir. Bu tezde ilk olarak literatürde önerilen modeller ve performans sonuçları iki ana başlık altında sunulmuştur. Ancak, anahtar kelime çıkarımı modellerinin performans sonuçları hala beklentilerin altındadır. Bu tez kapsamında, yeni bir hibrit anahtar kelime çıkarma modeli olan HibritAKÇ önerilmiştir. Önerilen yöntem, anahtar kelime çıkarım problemini bir dizi etiketleme görevi olarak ele almaktadır. Naive Bayes, Destek Vektör Makinesi, Çok Katmanlı Algılayıcı ve Rastgele Orman sınıflandırma algoritmaları, modelin Token Sınıflandırma modülünde ayrı ayrı eğitilmiştir. Modelde metin, grafik, gömme ve küme öznitelikleri kullanılarak Token Sınıflandırma işlemi gerçekleştirilmiştir. Modelin performansı literatürde yaygın olarak kullanılan Inspec, Semeval-2017, 500N-KPCrowd veri kümeleri ve yeni derlenen TRDizinEn ve DergiParkEn veri kümeleri kullanılarak değerlendirilmiştir. Model, tüm veri kümeleri için ortalama 0,664 F1 skoruna ulaşmıştır. En yüksek F1-skor (0,74) TRDizinEn veri seti ile elde edilmiştir.

Anahtar Kelimeler : Anahtar kelime çıkarımı, hibrit yöntem, dizi etiketleme