Çoklu bağlantı durumunda makine öğrenimi tabanlı regresyon analizi yöntemleri


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2023

Tezin Dili: Türkçe

Öğrenci: Tuba BENEK ARSLAN

Danışman: Meltem Ekiz

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Bu çalışmanın amacı, çoklu regresyon analizinde değişkenler arasında çoklu bağlantı olması durumunda kullanılan ridge, LASSO ve Elastik Net yöntemlerini karşılaştırmalı olarak incelemektir. Çoklu bağlantı, modelde yer alan bir ya da fazla değişken arasında doğrusal ilişki olması durumudur. Çoklu bağlantı durumunda basit doğrusal regresyon katsayı tahmininde kullanılan EKK güvenilir sonuçlar vermez. Aynı zamanda, modelde yer alan değişken ve gözlem sayısı artıkça model karmaşıklığı artmaktadır. Bu da modelin aşırı öğrenmesi (overfitting) olasılığını artırmakta ve modelin yorumlanmasını zorlaştırmaktadır. Literatürde, çoklu bağlantının varlığından daha az etkilenen ve modelin daha kolay yorumlanmasını sağlayan regresyon analizi yöntemleri önerilmiştir. Bu yöntemler, çok değişkenli bir tahmin probleminin çözülebilmesi amacıyla makine öğrenimi tekniklerini kullanan düzenlileştirilmiş doğrusal modeller olarak da bilinmektedir. Bu çalışma kapsamında, çoklu bağlantı durumunda ridge, LASSO ve Elastik Net tahmin edicilerinin performanslarını kestirim HKO’su ve model parametre tahminlerinin HKO’ları bakımından kıyaslamak amacıyla Monte-Carlo simülasyonu R Program’da yapılmıştır. Simülasyon çalışması ile çoklu bağlantı varlığında, değişken sayısının gözlem sayısından küçük olduğu (pn) durumlar ele alınmıştır. Her senaryo için simülasyon tekrar sayısı 1000 ve 5000 olmak üzere gözlem sayısı ve değişken sayısı arttırılarak sonuçların ne yönde etkilendiği incelenmiştir. Elde edilen sonuçlara göre Elastik Net kestirim HKO bakımından her senaryo için en iyi performansı göstermiştir. Fakat model parametre tahminlerinin HKO’su bakımından her senaryo için Elastik Net dışında en iyi performansı gösteren tahmin edicilerin olduğu görülmüştür. Tekrar sayısı 1000 ile 5000 olduğu durumlarda kestirim HKO ve model parametre tahminlerinin HKO değerlerinin birbirine yakın değerler aldığı gözlenmiştir.

Anahtar Kelimeler : Çoklu doğrusal bağlantı, çoklu regresyon, elastik net, LASSO, makine öğrenmesi, ridge regresyon