Aykırı veri yönelimli fayda temelli büyük veri anonimleştirme modeli

Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: YAVUZ CANBAY

Danışman: ŞEREF SAĞIROĞLU

Özet:

Veri mahremiyeti, mahremiyet seviyesi ile veri faydası arasındaki en iyi dengeyi bulmaya çalışan, zor ve güncel bir problemdir. Her ne kadar ilk bakışta veri sahiplerinin mahremiyetini korumak olarak anlaşılsa da, sadece bununla sınırlı olmayıp verinin fayda boyutunu da veri mahremiyeti koruma sürecine dâhil eder. Veri faydası, veri mahremiyeti sürecindeki en önemli unsurlardan biri olup, mahremiyeti korunmuş veri üzerinde yapılacak analizlerin ve geliştirilen modellerin doğruluğunu doğrudan etkiler. Veri mahremiyeti kapsamında, toplam veri faydasını düşüren veri grubu olarak tanımlanan aykırı verilerin mahremiyet koruma sürecinde yönetilmesi gerekir. Literatürde veri mahremiyeti kapsamında aykırı verileri dikkate alan ve bunları yöneten çeşitli çalışmalar mevcuttur. Ancak bu çalışmalar, aykırı verileri kısmen veya tamamen veri kümesinden çıkardığı veya aykırı verilerin değerini değiştirdiği için hem veri faydası hem de veri güvenilirliği açısından yeterli çözüm sunamamaktadır. Bu tezde, aykırı verileri yöneterek toplam veri faydasını arttıran geleneksel mimari tabanlı iki yeni anonimleştirme modeli (u-Mondrian ve u-Canon), Mondrian modelinden daha üstün yeni bir anonimleştirme modeli (Canon) ve büyük veri mimarisinde SMondrian modeline aykırı veri konsepti uygulayarak daha yüksek veri faydası sunan yeni bir anonimleştirme modeli (Su-Mondrian) ilk defa önerilmiş, geliştirilmiş, uygulanmış ve test edilmiştir. Elde edilen test sonuçlarına göre; DM, GCP ve AECS metrikleri için u-Mondrian modelinin Mondrian modeline göre sırasıyla %15,30-%49,75, %16,02-%44,50 ve %13,76-%48,98 aralıklarında daha yüksek veri faydası sunduğu; u-Canon modelinin Canon modeline göre ise sırasıyla %15,30-%49,08, %5,18-%32,43 ve %13,76-%48,99 aralıklarında daha yüksek veri faydası sunduğu, Canon modelinin Mondrian modeline göre GCP metriği için %43,01-%45,47 aralığında daha yüksek veri faydası sunduğu ve son olarak Su-Mondrian modelinin SMondrian modeline göre DM, GCP ve AECS metrikleri için sırasıyla %25,55-%33,12, %22,83-%29,16 ve %9,29-%17,29 aralıklarında daha yüksek veri faydası sunduğu görülmüştür.