Çok değişkenli veride aykırı değerlerin tespiti için MVV yöntemi ve diğer yöntemlerle karşılaştırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2010

Öğrenci: KÜBRA TURGUT

Danışman: OSMAN UFUK EKİZ

Özet:

Çok değişkenli veri setlerinde aykırı değerleri tespit etmek özellikle değişken sayısı ikiyi geçtiğinde zor olabilmektedir. Bu nedenle konum ve kovaryans matrisinin sağlam tahminine dayanan çeşitli yöntemler önerilmiştir. Bu yöntemler etkili olmalarına rağmen geniş ve büyük boyutlu veri setleri için kullanışsızdırlar. Bu yöntemlerin hesaplama karmaşıklığı veri setlerinin boyutu arttığı zaman artmaktadır. Bu çalışmanın amacı, çok değişkenli veride çoklu aykırı değerlerin belirlenmesinde kullanılan En Küçük Hacimli Elipsoid, En Küçük Kovaryans Determinantı ve Hızlı En Küçük Kovaryans Determinantı gibi yöntemlere alternatif olarak geliştirilen En Küçük Vektör Varyansı yöntemini tanıtmaktır. Bu tezde öncelikle aykırı değer(outlier) ve bozulma noktası(breakdown point) kavramları ele alınmış, daha sonra yukarıda bahsedilen yöntemler tanıtılmış ve son olarak bir simülasyon çalışması ile En Küçük Vektör Varyansı ve diğer yöntemlerin aykırı değer belirleme oranı ve yöntemlerin hesaplama hızı bakımından karşılaştırması yapılmıştır. Sonuçta, En Küçük Vektör Varyansı yönteminin geniş ve büyük boyutlu veri setlerine uygulanabilir olduğu görülmüştür ve bu algoritmanın hesaplama karmaşıklığı önemli derecede diğer yöntemlerden azdır.