AYKIRI DEĞERLERİN TESPİT YÖNTEMLERİ


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2022

Tezin Dili: Türkçe

Öğrenci: Mahmut ATEŞ

Danışman: Jale Balibeyoğlu

Özet:

Verilerin analiz edilmeye ve yorumlanmaya başlandığı dönemlerden bu yana aykırı değerlerin varlığı, analize dahil edilip edilmemesi gibi noktalar tartışma konusu olmuştur. Aykırı değerlerin tespit edilmesi ve veri setinden çıkarılıp çıkarılmaması kararları bir temele dayandırılmaya çalışılmıştır. Bu sebeple zamanla birçok aykırı değer tespit yöntemi ortaya çıkmıştır. Bu doğrultuda bu çalışmanın amacı, ortaya çıkan bu tespit yöntemlerinden bazılarını açıklayıp veri seti üzerinde uygulamalar yaparak aykırı değer tespiti konusunda hassasiyetini ölçmektir. Çalışmada yöntemler tek değişkenli ve çok değişkenli olmak üzere iki ana gruba ayrılmıştır. Seçilen yöntemler araştırmacı tarafından R programlama dili ile üretilen yapay veri setlerine ve gerçek veri setlerine R programlama dili kullanılarak uygulanmıştır. Yapılan analizler sonucu simülasyonla üretilen simetrik veri setinde tek değişkenli aykırı değer tespit yöntemlerinden kutu grafiği yöntemi, düzeltilmiş kutu grafiği yöntemi ve 2 MADE yönteminin; simetrik olmayan veri setinde tek değişkenli aykırı değer tespit yöntemlerinden kutu grafiği yöntemi ve MADE yöntemlerinin en hassas aykırı değer tespit etme yöntemleri olduğu bulunmuştur. Tek değişkenli yöntemlerin gerçek ve simetrik veri setine uygulanması sonucunda ise standart sapma yöntemlerinden 2S yönteminin diğer yöntemlere göre daha hassas olduğu; gerçek ve simetrik olmayan veri setinde ise 2S yönteminin ve düzeltilmiş kutu grafiği yönteminin aykırı değer tespiti açısından daha duyarlı yöntemler oldukları belirlenmiştir. Çok değişkenli simetrik ve simetrik olmayan ve simülasyonla üretilen her iki veri setinde çok değişkenli aykırı değer tespit yöntemlerinden Mahalanobis MCD yönteminin en hassas aykırı değer tespit etme yöntemi olduğu bulunmuştur. Çok değişkenli aykırı değer tespit yöntemleri, gerçek veri setine uygulandığında simetrik veri setlerinde Cook uzaklığı yönteminin ve simetrik olmayan veri setinde ise Mahalanobis MCD yönteminin aykırı değerlerin belirlenmesinde daha hassas yöntemler olduğu tespit edilmiştir.

Anahtar Kelimeler : Aykırı değer, aykırı değer tespiti, tek değişkenli aykırı değer tespit yöntemleri, çok değişkenli aykırı değer tespit yöntemleri