Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2025
Tezin Dili: Türkçe
Öğrenci: GÜLŞAH KILIÇ
Danışman: Necla Gündüz Tekin
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Özet:
Günümüzde, özellikle genom verisi gibi Küçük Örneklem Çaplı Yüksek Boyutlu (KÖÇYB) veri setleri üzerine yapılan çalışmalar önem kazanmıştır. Bu tür veri yapısında, değişken sayısının örnek çapından fazla olması (p>>n), analiz süreçlerinde çeşitli zorluklara yol açmakta; özellikle kümeleme analizlerinde uzaklık hesaplamalarının güvenilirliğini azaltarak kümelerin sağlıklı bir şekilde belirlenmesini güçleştirmektedir. Bu çalışmada, yapısal zorluklara ek olarak aykırı gözlemler ve karışma (kontaminasyon) gibi bozulmaların etkisi altında, klasik ve sağlam kümeleme algoritmalarının performansı değerlendirilmiştir. Kümeleme performansı ölçümü, dışsal doğrulama ölçütü olan Ayarlanmış Rand (AR) indeksi ve içsel doğrulama ölçütleri olan Calinski-Harabasz (CH), Silhouette ve Dunn indeksleri aracılığıyla yapılmıştır. Analizler, hem kanserle ilişkili genomik veri setleri hem de farklı aykırı gözlemler ve karışma oranları içeren simülasyonlar aracılığıyla, R programlama dili kullanılarak gerçekleştirilmiştir. Simülasyon çalışması sonucunda, sağlam kümeleme yöntemlerinden kırpılmış k-ortalamalar ve k-medyan algortimalarının KÖÇYB veri yapılarında klasik algoritmalardan daha başarılı olduğu gözlemlenmiştir. Kümeleme algoritmalarının başarısı yanlızca yöntemsel yeterliliğe değil, aynı zamanda veri yapısının özelliklerine de bağlı olması nedeniyle, başarı ölçütlerinin yorumlanmasında veri setinin yüksek boyutluluğu, örnek çapı, içerdiği aykırı gözlemler ve karışma durumu gibi faktörler dikkate alınarak değerlendirilmiştir.