Kümeleme Analizinde Kullanılan Bazı Benzerlik İndekslerinin Karşılaştırılması

Hazan Kübra Hacıoğlu

Kümeleme Analizinde Kullanılan Bazı Benzerlik İndekslerinin Karşılaştırılması

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Türkiye

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: Hazan Kübra Hacıoğlu

Danışman: SEMRA ERBAŞ

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Araştırmacılar veri seti hakkında çıkarsama yapabilmek için, birçok çalışmada homojen ve uygun sayıda gruba ihtiyaç duyarlar. Kümeleme analizi, veri setinin altında yatan doğal grupları ortaya koyan ve birçok alanda yaygın olarak kullanılan çok değişkenli istatistiksel bir yöntemdir. Kümeleme analizinde, anlamlı ve geçerli sonuçlara ulaşmada uygun küme sayısının belirlenmesi birçok araştırmacının sıklıkla karşılaştığı önemli sorunlardan biridir. Kümeleme kalitesinin değerlendirilmesinde ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Ancak bazı karmaşık yapılar içeren verilerde, küme üyeliklerindeki kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bu çalışmada, en uygun küme sayısının belirlenmesinde kullanılan küme geçerlilik indeksleri tanıtılarak, R ortamında elde edilen yapay veri setleri ile karşılaştırılmıştır. Ayrıca İstatistiki Bölge Birimleri Sınıflandırması (İBBS) Düzey 2 bölgelerinin kadın işgücü ve eğitim istatistikleri kullanılarak bir uygulama çalışması sunulmuştur. Analiz sonuçlarına göre Silhouette indeksinin küme geçerliliği değerlendirilmesinde kullanılan geçerlilik indekslerinden daha başarılı sonuçlar verdiği saptanmıştır.