Erzurum 1st Internatıonal Conference On Applıed Scıences, Erzurum, Türkiye, 9 - 11 Mayıs 2025, ss.4-5, (Özet Bildiri)
Genomik verilerde sıklıkla karşılaşılan yüksek boyutlu ve düşük örneklem sayılı (HDLSS) yapı, klasik kümeleme algoritmalarının performansını düşürmekte, özellikle uzaklık temelli ölçütlerin güvenilirliğini güçleştirmektedir. azaltmakta ve kümeler arasındaki ayrımın yapılmasını Bu çalışmada, HDLSS özellik taşıyan popüler genomik kanser veri setleri üzerinde aykırı gözlem varlığında klasik kümeleme yöntemlerinden k-ortalamalar (k-means) ile sağlam kmedyan (k-median) kümeleme algoritmasının başarısı detaylı biçimde değerlendirilmiştir. Elde edilen sonuçlar popüler kümeleme başarı değerlendirme metrikleri ile analiz edilmiş; kümelenen grupların biyolojik olarak anlamlı alt grupları temsil edip etmediği geçerlilik metrikleri (Adjusted Rand Index, Silhouette indeksi, Dunn indeksi ve Calinski-Harabasz skoru) aracılığıyla değerlendirilmiştir. Gerçek veri analizine ek olarak, aykırı gözlemlerin varlığı dikkate alınarak oluşturulan sentetik HDLSS veri setleri üzerinde bir simülasyon çalışması gerçekleştirilmiştir. Bu simülasyonlar aracılığıyla, algoritmaların aykırı gözlemler içeren zorlayıcı koşullar altındaki dayanıklılığı karşılaştırmalı olarak değerlendirilmiştir. Bu analiz, klasik yöntemlerin sınırlılıklarını ortaya koymakta ve HDLSS genomik veriler için daha sağlam alternatiflerin geliştirilmesine yönelik ihtiyaçlara ışık tutmaktadır.