Bilimsel makalelerin metin işleme yöntemleri ile sınıflandırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2013

Öğrenci: SAMAL KALİYEVA

Danışman: HASAN ŞAKİR BİLGE

Özet:

Günümüzdeki teknolojik gelişmeler ile, kağıt üzerindeki metinlerin sayısal ortamlara aktarılması kolaylaşmıştır. Bu metinlere daha kolay erişilebilmesi için metin sınıflandırma yapılması gerekmektedir. Çok sayıdaki doğal dil metinlerini sınıflandırmadan önce metin işleme tekniklerinin uygulanması gereklidir. Metin işleme; dokümanlarda bulunan ham verileri sınıflandırmak için çeşitli teknikler ile analiz etme işlemidir. Bu çalışmada Türkçe bilimsel makalelerden bir veri kütüphanesi oluşturulmuştur ve değişik metin işleme ve sınıflandırma yöntemleri ile en yüksek başarı elde edilmeye çalışılmıştır. Bu amaçla sıra ile metin sınıflandırma süreçleri (ön işleme, indeksleme, öznitelik seçme, sınıflandırma ve performans değerlendirme) uygulanmıştır. Bu çalışmada metinleri ifade etmek için kelimeler doğrudan alınarak kelime kökleri ile birlikte karakter 2-gram ve 3-gram yöntemi kullanılmıştır. Bahsettiğimiz yöntemlerden elde ettiğimiz verileri sayısallaştırmak için vektör uzayı modelinin TF, ikili ve en yaygın olarak kullanılan TF-IDF ağırlıklandırma yöntemleri uygulanmıştır. Nitelikli özniteliklerin seçilip gereksiz olanlarının atılabilmesi için bilgi kazancı ve korelasyon tabanlı öznitelik seçme yöntemleri kullanılmıştır. En bilinen sınıflandırma yöntemleri olan K-NN, Naive Bayes, Multinominal Naive Bayes ve DVM Weka programının yardımı ile çalışmada önerilen yöntemin performansını karşılaştırmak üzere kullanılmıştır. Ayrıca diğer bir veri kümesi (internet üzerindeki Türkçe haberlerden oluşturulan 1150 haber) kullanılarak karşılaştırma yapılmıştır. Sonuç olarak kelime kökleri ile elde ettiğimiz öznitelik vektörleri için en iyi sonucu ikili ağırlıklandırma yöntemi vermiştir. Karakter 2-gram ve 3-gram yönteminde ise TF ağırlıklandırma yöntemi en yüksek başarı göstermiştir. Korelasyon tabanlı öznitelik seçme yöntemine göre bilgi kazancı yöntemi iyi sonuçlar vermiştir. Öznitelikler düzeyinde birleştirme işleminin performansı daha da arttığı ve iyi etkilediği belirlenmiştir. Tekil olarak en iyi sonucu %99,44 başarı ile ?kelime kökleri+bilgi kazancı+ikili+TF+TF-IDF? öznitelik vektörü vermiştir. Bu çalışmada açıklanan metin işleme yöntemlerini uygulayarak önceki çalışmadan daha başarılı sonuçlar elde edilmiştir.