Eğilim skorları tahmininde veri madenciliği yöntemleri: Madencilik sektöründe bir uygulama


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2023

Tezin Dili: Türkçe

Öğrenci: Hazal BADEMCİ

Danışman: Hülya Olmuş

Özet:

Gözlemsel araştırmalarda nedensel etkiyi tahmin etmek, nedensel çıkarım yapabilmek için araştırmaya dâhil olan birimlerin rastgele seçilmesi ile bu birimlerin işlem ve kontrol gruplarına atanmasında rastgeleliğin sağlanması gerekmektedir. Rastgeleliğin sağlanamadığı yarı deneysel veya gözlemsel çalışmalarda işlem ve kontrol grupları ortak değişkenler bakımından farklılaştığı için işlem gruplarına atama yapmada dengesizlik oluşmaktadır. Bu dengesizlik, işlem etkinliğinin belirlenmesinde yanlılığa sebep olmaktadır. Bu çalışmada, söz konusu dengesizliği ortadan kaldırmak amacıyla lojistik regresyon, CART algoritması, rastgele orman algoritması, yapay sinir ağları, CHAID algoritması ve Naive Bayes algoritmasıyla eğilim skorları tahmin edilmiştir. Kullanılan her bir yöntem için En Yakın Komşu (1:1) eşleştirmesi ve En Yakın Komşu Caliper eşleştirmesi yapılarak yanlılığın olabildiğince azaltılması amaçlanmıştır. Eşleştirmeler yapıldıktan sonra ortak değişkenler arasındaki denge değerlendirilmiştir. Denge değerlendirmesinin ardından yöntemlere göre uygulanan işlemin çıktı değişkeni üzerindeki etkisi incelenmiştir. Araştırmanın uygulama kısmında Maden ve Petrol İşleri Genel Müdürlüğü’nde kayıtlı kömür ruhsatına sahip işletmelerin bilgilerini içeren gerçek bir veri seti kullanılmıştır. Elde edilen sonuçlara göre yanlılık azaltmada CART ve rastgele orman algoritmasıyla elde edilen eğilim skorlarıyla yapılan Caliper eşleştirmesinin etkin olduğu bulunmuştur. Denge değerlendirmesinde lojistik regresyon ile tahmin edilen eğilim skorlarıyla yapılan Caliper eşleştirmesinin en iyi dengeyi sağladığı görülmüştür. Nedensel etki tahmininde ise Caliper eşleştirmesiyle elde edilen yeni veri setlerine göre gruplar karşılaştırılmıştır. Rastgele orman algoritması ve yapay sinir ağları yöntemleriyle elde edilen tahminler, bağımsız örneklem t testine göre istatistiksel olarak anlamlı sonuçlar vermiştir.

Anahtar Kelimeler : Eğilim skoru, eşleştirme, denge, nedensel etki, yanlılık, veri madenciliği yöntemleri