Küçük örneklem çaplı yüksek boyutlu verilerde klasik ve sağlam kümeleme yöntemlerinin performanslarının karşılaştırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2025

Tezin Dili: Türkçe

Öğrenci: GÜLŞAH KILIÇ

Danışman: Necla Gündüz Tekin

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Günümüzde, özellikle genom verisi gibi Küçük Örneklem Çaplı Yüksek Boyutlu (KÖÇYB) veri setleri üzerine yapılan çalışmalar önem kazanmıştır. Bu tür veri yapısında, değişken sayısının örnek çapından fazla olması (p>>n), analiz süreçlerinde çeşitli zorluklara yol açmakta; özellikle kümeleme analizlerinde uzaklık hesaplamalarının güvenilirliğini azaltarak kümelerin sağlıklı bir şekilde belirlenmesini güçleştirmektedir. Bu çalışmada, yapısal zorluklara ek olarak aykırı gözlemler ve karışma (kontaminasyon) gibi bozulmaların etkisi altında, klasik ve sağlam kümeleme algoritmalarının performansı değerlendirilmiştir. Kümeleme performansı ölçümü, dışsal doğrulama ölçütü olan Ayarlanmış Rand (AR) indeksi ve içsel doğrulama ölçütleri olan Calinski-Harabasz (CH), Silhouette ve Dunn indeksleri aracılığıyla yapılmıştır. Analizler, hem kanserle ilişkili genomik veri setleri hem de farklı aykırı gözlemler ve karışma oranları içeren simülasyonlar aracılığıyla, R programlama dili kullanılarak gerçekleştirilmiştir. Simülasyon çalışması sonucunda, sağlam kümeleme yöntemlerinden kırpılmış k-ortalamalar ve k-medyan algortimalarının KÖÇYB veri yapılarında klasik algoritmalardan daha başarılı olduğu gözlemlenmiştir. Kümeleme algoritmalarının başarısı yanlızca yöntemsel yeterliliğe değil, aynı zamanda veri yapısının özelliklerine de bağlı olması nedeniyle, başarı ölçütlerinin yorumlanmasında veri setinin yüksek boyutluluğu, örnek çapı, içerdiği aykırı gözlemler ve karışma durumu gibi faktörler dikkate alınarak değerlendirilmiştir.