Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2011

Öğrenci: OSMAN DURMAZ

Danışman: HASAN ŞAKİR BİLGE

Özet:

Metinlerin veya genel olarak verilerin sınıflandırılmasındaki amaç bilgiye erişim zamanının azaltılmasıdır. Verilerin sürekli artması sınıflandırma işlemini elle yapmayı olanaksız kılmaktadır. Bu durumda devreye otomatik metin sınıflandırma sistemleri girmektedir. Metin sınıflandırma sistemlerinde veri uzayının büyük boyutta olması önemli bir problemdir. Bu sistemlerde boyut azaltma teknikleri ve özellik seçim yöntemleri kullanılarak az bir veri ile doğru sınıflandırma yapmak mümkün olmaktadır. Bu çalışmada metinlerin tümü terim frekansı – ters doküman frekansı (TF–IDF) vektörleri ile temsil edilmiştir. Çalışmada uygulanan Ayrık Kosinüs Dönüşüm (AKD) yöntemi ve Varyans Oranı ile özellik seçim yöntemi metin vektörlerinden oluşturulan TF–IDF vektör uzayının boyutunun azaltılarak sınıflandırma için daha etkili sonuçların elde edilebilmesi amacıyla kullanılmıştır. Her iki yöntem de TF–IDF vektörleri üzerinde uygulanmıştır. Boyutları azaltılmış vektörlerle başarılı sonuçlar elde edilmiştir. Bunun yanında, boyut azaldığı için sistemin çalışma zamanı da azalmıştır. Veri kümesi olarak kendi hazırladığımız Milliyet, literatürde kullanılan R8 ve WebKB–4 veri kümeleri kullanılmıştır. Milliyet veri kümesi beş sınıf içermektedir. R8 veri kümesi Reuters–21578 içinde bulunmakta ve sekiz sınıf içermektedir. WebKB–4 veri kümesi çeşitli üniversitelerin bilgisayar bilimleri bölümlerinden toplanan web sayfaları kullanılarak oluşturulmuş ve dört sınıf içermektedir. Her üç veri kümesi için de metinler eğitim ve sınama metinleri olarak gruplanmış, eğitim metinleri kullanılarak sistem eğitilmiş ve sınama metinlerinin ait olduğu sınıf kullanılan yönteme göre tespit edilmiştir. Seçilen yönteme göre boyutu azaltılmış vektörlerle sınıflandırma başarısı %92'lere kadar çıkmıştır. Önerilen yöntemler Microsoft .Net ortamında C# dili kullanılarak uygulanmıştır.