Sınıflandırmada kullanılan veri madenciliği yöntemlerinin performanslarının veri seti özelliklerine göre karşılaştırılması


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Eğitim Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: GÖRKEM CEYHAN

Danışman: İSMAİL KARAKAYA

Özet:

Bu çalışmanın amacı, PISA (2015) fen başarıları puanlarına göre Yapay Sinir Ağları, Rastgele Orman Algoritması, Destek Vektör Makinesi, Sınıflandırma ve Regresyon Ağaçları ve Lojistik Regresyon yöntemlerinin sınıflandırma performanslarının bağımlı değişkenin kategori sayısı, bağımsız değişken sayısı ve örneklem büyüklüğü açısından incelenmesidir. Araştırmada PISA (2015) uygulamasına katılan 15 yaş grubundaki öğrencilere ait veriler arasından bütün ülkelere uygulanmayan anketlere ilişkin değişkenlere bağlı olarak ilgili öğrencilerin veri setinden çıkarılması ile geriye kalan 169326 öğrenciye ait veri kullanılmıştır. Sınıflama modellerinde kullanılacak bağımsız değişkenler belirlenirken bağımlı değişkenin sürekli puanlarına göre hesaplanan korelasyon analizi ve VIF değerlerinden yararlanılmıştır. Elde edilen sonuçlar doğrultusunda bağımsız değişken olarak seçilen değişkenler matematik başarı puanı, ekonomik, sosyal ve kültürel statü indeksi, epistomolojik inançlar, evde bulunan kültürel eşyalar, feni sevme, evdeki eğitim kaynakları, evde sahip olunan eşyalar, çevresel farkındalık, öğrenme süresi ve fen özyeterlik inancıdır. Yöntemlerin performansları öncelikle bağımlı değişkenin kategori sayısına göre incelenmiştir. Bunun için bağımlı değişkenin 2, 3 ve 6 adet sınıfa sahip olduğu durumlara ait sınıfların öğrenci yüzdeleri göz önünde tutularak, rastgele seçim yöntemiyle veri setinden büyüklüğü 5000 olan 25’er adet çalışma grubu seçilmiştir. Ardından 10 bağımsız değişkenin yer aldığı sınıflandırma modellerine YSA, RO, DVM, SVRA ve LR yöntemleri uygulanmıştır. Sonuçlar, bütün yöntemlerin sınıflandırma performanslarının bağımlı vii değişkenin sınıf sayısının azalması durumunda artış gösterdiğini göstermektedir. Yöntemlerin performansları bağımsız değişken sayısının değişimine göre incelenirken, yöntemlerin en iyi sınıflandırma performansını gösterdiği bağımlı değişkenin 2 kategoriye sahip olma durumu ele alınmıştır. Sırasıyla 10, 7 ve 4 bağımsız değişkenin yer aldığı sınıflandırma modellerine YSA, RO, DVM, SVRA ve LR yöntemleri uygulanmıştır. Bütün yöntemlerin sınıflandırma performanslarının bağımsız değişkenin sayısına göre anlamlı bir değişim göstermediği tespit edilmiştir. Ardından fen başarı puanı ile yüksek ilişkiye sahip olan matematik başarı puanı değişkeni modellerden çıkarılmış ve bağımsız değişkenin 9, 6 ve 3 olması koşulunda sınıflandırma modellerine YSA, RO, DVM, SVRA ve LR yöntemleri tekrar uygulanmıştır. Elde edilen sonuçlara göre bağımlı değişkenle yüksek korelasyona sahip matematik başarı puanı değişkeninin modellerde yer almadığı durumda bağımsız değişken sayısı arttıkça bütün yöntemlerin sınıflandırma performansının da artış gösterdiği tespit edilmiştir. Yöntemlerin performansları örneklem büyüklüğüne göre incelenirken, yöntemlerin en iyi sınıflandırma performansını gösterdiği bağımlı değişkenin 2 kategorili ve 10 bağımsız değişkenin yer aldığı sınıflandırma modelleri ele alınmıştır. Veri setinden 100, 250, 500, 1000, 2500 ve 5000 örneklem büyüklüğünün her biri için rastgele seçim yöntemiyle 25’er adet çalışma grubu oluşturulmuştur. Sonuçlar, bütün yöntemlerin sınıflandırma performanslarının örneklem büyüklüğüne göre değiştiğini göstermektedir. YSA, DVM ve LR yöntemlerinin 500 ve daha fazla örneklem büyüklüğünde 100 ve 250 örneklem büyüklüğüne göre daha yüksek ve birbirine benzer değerler ürettiği dolayısıyla daha iyi bir sınıflama performansı sergilediğini sonucuna ulaşılmıştır. RO ve SVRA yöntemlerinin ise 1000 ve üzeri örneklem büyüklüklerinde 100, 250 ve 500 örneklem büyüklüğüne göre daha yüksek bir sınıflama performansına sahip olduğu tespit edilmiştir. Öte yandan bütün koşullar altında yöntemlerin birbirlerine göre performansları da karşılaştırılmış ve elde edilen sonuçlar doğrultusunda YSA, DVM ve LR yöntemlerinin sınıflandırma performanslarının RO ve SVRA yöntemlerine göre daha iyi olduğu sonucuna ulaşılmıştır. Ayrıca YSA, DVM ve LR yöntemlerinin birbirlerine göre benzer RO yönteminin ise SVRA yöntemine göre daha iyi sınıflandırma performansı gösterdiği belirlenmiştir.