Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2011
Öğrenci: OSMAN DURMAZ
Danışman: HASAN ŞAKİR BİLGE
Özet:Metinlerin veya genel olarak verilerin sınıflandırılmasındaki amaç bilgiye erişim zamanının azaltılmasıdır. Verilerin sürekli artması sınıflandırma işlemini elle yapmayı olanaksız kılmaktadır. Bu durumda devreye otomatik metin sınıflandırma sistemleri girmektedir. Metin sınıflandırma sistemlerinde veri uzayının büyük boyutta olması önemli bir problemdir. Bu sistemlerde boyut azaltma teknikleri ve özellik seçim yöntemleri kullanılarak az bir veri ile doğru sınıflandırma yapmak mümkün olmaktadır. Bu çalışmada metinlerin tümü terim frekansı – ters doküman frekansı (TF–IDF) vektörleri ile temsil edilmiştir. Çalışmada uygulanan Ayrık Kosinüs Dönüşüm (AKD) yöntemi ve Varyans Oranı ile özellik seçim yöntemi metin vektörlerinden oluşturulan TF–IDF vektör uzayının boyutunun azaltılarak sınıflandırma için daha etkili sonuçların elde edilebilmesi amacıyla kullanılmıştır. Her iki yöntem de TF–IDF vektörleri üzerinde uygulanmıştır. Boyutları azaltılmış vektörlerle başarılı sonuçlar elde edilmiştir. Bunun yanında, boyut azaldığı için sistemin çalışma zamanı da azalmıştır. Veri kümesi olarak kendi hazırladığımız Milliyet, literatürde kullanılan R8 ve WebKB–4 veri kümeleri kullanılmıştır. Milliyet veri kümesi beş sınıf içermektedir. R8 veri kümesi Reuters–21578 içinde bulunmakta ve sekiz sınıf içermektedir. WebKB–4 veri kümesi çeşitli üniversitelerin bilgisayar bilimleri bölümlerinden toplanan web sayfaları kullanılarak oluşturulmuş ve dört sınıf içermektedir. Her üç veri kümesi için de metinler eğitim ve sınama metinleri olarak gruplanmış, eğitim metinleri kullanılarak sistem eğitilmiş ve sınama metinlerinin ait olduğu sınıf kullanılan yönteme göre tespit edilmiştir. Seçilen yönteme göre boyutu azaltılmış vektörlerle sınıflandırma başarısı %92'lere kadar çıkmıştır. Önerilen yöntemler Microsoft .Net ortamında C# dili kullanılarak uygulanmıştır.