Telekomünikasyon Verilerinde Hadoop ve Spark Teknolojileri İle Özellik Seçimi Uygulaması

Gencer C.

ISMS International Symposium on Academic Studies in Science, Engineering and Architecture Studies, Ankara, Türkiye, 13 - 15 Haziran 2019, (Tam Metin Bildiri)

Yayın Türü: Bildiri / Tam Metin Bildiri
Basıldığı Şehir: Ankara
Basıldığı Ülke: Türkiye
Gazi Üniversitesi Adresli: Evet

Özet

Veri kavramı literatürde veri, enformasyon ve bilgi olmak üzere üç farklı şekilde kullanılmaktadır. Veri, kaynağından elde edilen ham veriyi; enformasyon, verinin işlenmesi ile elde edilen sonuçları; bilgi ise işlenmiş veriden elde edilen sonuçların birbirleri ile ilişkilendirilip, çeşitli yöntemlerle analiz edilerek, geçmiş ve günümüzü aydınlatmakla birlikte geleceğe dair planlamalar yapabilmemizi sağlayan değerler olarak tanımlanabilir. Teknolojide yaşanan değişimler verinin miktarını, çeşitliliğini, akış hızını ön görülemez derecede değiştirirken, aynı zamanda bu veriyi işlemek ve veriden bilgi elde etmek isteyen her organizasyon için bir fırsat haline gelmiştir. Veri konusunda meydana gelen değişimler, veri işleme ile ilgili teknoloji paradigmalarının da yeniden tanımlanmasına neden olmuştur. Bugün “Big Data” olarak tanımlanan büyük veri teknolojileri sıradan donanımlar üzerine kurulabilen, ölçeklenebilir, hata toleranslı, paralel işleme özellikli veri işleme sitemleri olarak bilişim dünyasında yerlerini almışlardır. Böylece veriden bilgi elde etme sürecinin alt yapı sorununa verimli bir çözüm bulunmuş ve makine öğrenmesi çalışmaları konusunda büyük bir ivme sağlanmıştır. Veriden bilgi keşfinin kritik süreçlerinden birisi de veriden özellik seçme konusudur. Özellik seçme kavramı veri madenciliğinin süreçlerinden biri olmakla birlikte “Büyük Veri” çalışmalarında kritik bir öneme sahiptir. Bu çalışmada bir telekomünikasyon firması verileri üzerinde “Filter Method” ile özellik seçme uygulaması yapılmıştır. Çalışmada Hadoop büyük veri sistemi ve Spark Makine öğrenmesi çatısı üzerinde özellik seçme işlemi yapılmadan ve yapıldıktan sonraki başarımlar “F-score”, “Precision”, “Recall”, “Accuracy” kriterlerine göre karşılaştırılmıştır. Hedef değeri en iyi temsil eden, birbirleri ile korelasyonu en düşük özelliklerin başarımı düşürmeden seçilebileceği görülmüştür.