Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2007
Öğrenci: YILMAZ ALPDOĞAN
Danışman: HASAN ŞAKİR BİLGE
Özet:Đnternet üzerinde web sayfalarının sayısı, büyük bir hızla artmaktadır. Artık otomatik arama motorları, arama sorgularına isabetli cevaplar vermekte yetersiz kalmaktadırlar. Dizin siteleri, bütün web sayfalarını değerlendirmeye yetisememektedir, dolayısıyla dizinlerin kalitesi ve kapsamı azalmaktadır. Ayrıca, bağlantılar güncelliğini kaybetmektedir. Öte yandan, bilgisayarlarda saklanan dokümanların sayısı ve hiyerarsisi de artmaktadır. Sonuç olarak web sayfalarının ve dokümanların otomatik olarak sınıflandırılması daha fazla önem kazanmaktadır. Bu çalısmanın amacı, dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Bu amaçla, özellikle yüksek boyutlu verilerde basarılı olan ve danısmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) algoritması kullanılarak bir sınıflandırma sistemi gelistirilmistir. Kendinden düzenlenen haritalar algoritması ile elde edilen sonuçlar etkin bir sınıflandırma yöntemi olan hiyerarsik sınıflandırma ile karsılastırılmıstır. Her iki algoritmada da dokümanı ayırt edici kelimelerin ön plana çıkarılması için uygun bir etiketleme yöntemi uygulanmıstır. Sınıflandırma isleminden önce dokümanlardaki durak kelimelerinin temizlenmesi, çok ve az tekrar eden kelimelerin temizlenmesi, kelimelerin indekslenmesi, ağırlık vektörlerinin bulunması, ağırlık vektörlerinin aynı boyuta getirilmesi, normalizasyon islemleri yapılmıstır. Deneysel çalısmalarda 2 farklı doküman kütüphanesi ele alınmıstır. Đlk çalısmada bir Đnternet haber sitesinden rastgele alınmıs haber içerikleri sınıflandırılırken, ikinci çalısmada ise üniversitelerin web sayfalarından alınan ders içerikleri basarılı bir sekilde sınıflandırılmıstır. Gelistirilen sistemin farklı içeriklere sahip dokümanlarda da basarılı olarak çalısması beklenmektedir.