İkili Kümeleme Algoritmalarının Karşılaştırılmasında Ve Parametrelerinin Seçiminde Veri Zarflama Analizinin Kullanımı


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: İngilizce

Öğrenci: Ammar Homaida

Danışman: BÜLENT ALTUNKAYNAK

Özet:

İkili kümeleme yöntemi, veri madenciliğinde en önemli yöntemlerden biridir. İkili kümeleme, veri kümelerinde, özellikle gen ifade veri kümelerinde veya matrisler olarak sunulabilecek herhangi bir veri kümesinde benzer kalıpları keşfetmek için kullanılabilir. 1972'de Blok Kümeleme Algoritması ile başlayarak bugüne kadar çok sayıda algoritma tanıtılmıştır. Bu algoritmaların her biri verideki belli yapıları keşfetmek üzere önerilmiştir. Buna ilaveten, tanıtılan algoritmaların özellikleri birbirlerinden farklıdır. Şimdiye kadar, en iyi algoritmayı seçmek için yardımcı olacak bir kılavuzun olmadığı söylenebilir. Diğer bir problem, her algoritma için en uygun parametrelerin seçilmesidir. Bazı değerlendirme ölçütlerine göre çok aşamalı algoritmaların karşılaştırılmasını amaçlayan birçok çalışma yapılmıştır. Ancak, belirli koşullar altında, algoritmaların en iyi parametrelerinin nasıl seçileceğini belirlemek için çalışma yapılmamıştır. Bu çalışmada, ikili kümeleme algoritmalarının karşılaştırılması için iki aşamalı bir yaklaşım önerilmiştir. Birinci aşama, her bir algoritma için en iyi parametreleri seçmek amacıyla Veri Zarflama Analizinin (DEA) kullanılmasıdır. İkinci aşama, ilk aşamadan elde edilen en iyi parametrelere sahip algoritmaların boyut ve homojenlik ölçümlerine göre karşılaştırılmasıdır.