Evaluation of the application success of classical and robust clustering methods on HDLSS datasets.


Kılıç G., Gündüz Tekin N.

Erzurum 1st Internatıonal Conference On Applıed Scıences, Erzurum, Türkiye, 9 - 11 Mayıs 2025, ss.4-5, (Özet Bildiri)

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Erzurum
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.4-5
  • Gazi Üniversitesi Adresli: Evet

Özet

Genomik verilerde sıklıkla karşılaşılan yüksek boyutlu ve düşük örneklem sayılı (HDLSS) yapı, klasik kümeleme algoritmalarının performansını düşürmekte, özellikle uzaklık temelli ölçütlerin güvenilirliğini güçleştirmektedir.  azaltmakta ve kümeler arasındaki ayrımın yapılmasını Bu çalışmada, HDLSS özellik taşıyan popüler genomik kanser veri setleri üzerinde aykırı gözlem varlığında klasik kümeleme yöntemlerinden k-ortalamalar (k-means) ile sağlam kmedyan (k-median) kümeleme algoritmasının başarısı detaylı biçimde değerlendirilmiştir. Elde edilen sonuçlar popüler kümeleme başarı değerlendirme metrikleri ile analiz edilmiş; kümelenen grupların biyolojik olarak anlamlı alt grupları temsil edip etmediği geçerlilik metrikleri (Adjusted Rand Index, Silhouette indeksi, Dunn indeksi ve Calinski-Harabasz skoru) aracılığıyla değerlendirilmiştir. Gerçek veri analizine ek olarak, aykırı gözlemlerin varlığı dikkate alınarak oluşturulan sentetik HDLSS veri setleri üzerinde bir simülasyon çalışması gerçekleştirilmiştir. Bu simülasyonlar aracılığıyla, algoritmaların aykırı gözlemler içeren zorlayıcı koşullar altındaki dayanıklılığı karşılaştırmalı olarak değerlendirilmiştir. Bu analiz, klasik yöntemlerin sınırlılıklarını ortaya koymakta ve HDLSS genomik veriler için daha sağlam alternatiflerin geliştirilmesine yönelik ihtiyaçlara ışık tutmaktadır.