Derin Öğrenme Kullanarak Büyük Boyutlu Dokümanlarda İçerik Tabanlı Benzerlik İle Kümeleme


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: Kevser ÖZDEM

Danışman: Muhammet Ali Akcayol

Özet:

Günümüzde veri boyutu büyük bir hızla artmaktadır. Çok büyük boyuttaki veri üzerinde günümüz teknolojisiyle bile kısa sürede işlem yapmak mümkün olmamaktadır. Bu yüzden, çok sayıdaki büyük boyutlu dokümanı az sayıda birbiriyle ilişkili ve anlamlı küme halinde düzenleme gerektiren kümeleme önemli bir araştırma konusu haline gelmiştir. Son yıllarda birçok alanda başarılıyla uygulanan derin öğrenme yöntemleri denetimsiz öğrenme uygulamalarında da başarılı bir şekilde kullanılabilmektedir. Bu çalışmada, büyük boyutlu dokümanlarda içerik benzerliğine göre kümeleme için derin öğrenme tabanlı bir model geliştirilmiştir. Geliştirilen derin öğrenme modelinde CNN ve LSTM ağları birlikte kullanılmıştır. Geliştirilen modeli test etmek için 386 adet İngilizce ders kitabından oluşan toplam 7,61 GB boyutundaki bir veri kümesi kullanılmıştır. Deneysel çalışmalarda ortalama doğruluğu %66 olan 18 farklı küme elde edilmiştir. Deneysel sonuçlar, geliştirilen model ile elde edilen kümelerin, literatürde yaygın olarak kullanılmakta olan k-means ve CURE kümeleme algoritmalarına göre daha yüksek başarıya sahip olduklarını göstermiştir. Geliştirilen model ile oluşturulan kümeler, 0,65 NMI ve 0,59 AMI değerlerine sahiptir. Ayrıca, Silhouette ve Davies-Bouldin iç değerlendirme ölçütlerinde de sırasıyla 0,81 ve 0,95 değerleri elde edilmiştir.