Derin üretici ağlar ile ölçeklenebilir ikili görüntü oluşturma ve tek görüntüden üç boyutlu nesne yapılandırma


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: CEREN GÜZEL TURHAN

Danışman: HASAN ŞAKİR BİLGE

Özet:

Derin ağ konusunda son gelişmeler, görüntü oluşturma, tamamlama, sahne değiştirme gibi bilgisayar görü problemleri için Üretici Çekişmeli Ağ (GAN) ve Otokodlayıcıya (AE) dayalı modellerin ortaya çıkmasına neden olmuştur. Bu modeller incelendiğinde daha kısa süren eğitim süreleri ve maliyetleri nedeniyle genellikle düşük boyutlu görüntüler oluşturabildiği değerlendirilmiştir. Bu nedenle, ölçeklenebilir bir üretici ağ modeli oluşturmak öncelikli olarak hedeflenmiştir. Diğer bir taraftan, üretici modellerin görüntü oluşturma performanslarından etkilenilerek bu modelleri üç boyutlu alana aktarmaya odaklanılmıştır. Gerçek problemler için daha kritik olan görüntülerden nesne oluşturma ve yeniden yapılandırma problemi ele alınmıştır. Gerçek nesnelerin üç boyutlu yer gerçekliği verilerinin elde edilmesinin güçlüğü nedeniyle sentetik veriler üzerinde eğitilen modelleri gerçek veriler üzerinde de kullanabilmek üzere RGB görüntüler yerine silüet tabanlı çalışmalar yürütülmüştür. Nesnelerin birden fazla açıdan çekilmiş görüntülerinin her zaman mevcut olamaması nedeniyle ise tek açıdan görüntülere dayalı kategori-bağımsız modeller benimsenmiştir. Tez kapsamında, ilk olarak, VAE/CPGAN ölçeklenebilir bir üretici ağ modeli oluşturmak üzere önerilmiştir. Önerilen model ile ikili görüntülerde istenen boyutlarda görüntülerin, düşük boyutlu görüntülerden elde edilebildiği görülmüştür. Tez kapsamında devam eden çalışmalarda tek açıdan görüntülerden nesne yapılandırmak üzere önerilen VoxCAE/GAN, VoxAE, VoxCAE, SkipVoxCAE ve FusedVoxCAE modelleri, literatürdeki diğer çalışmalardan farklı olarak, türevlenebilir olarak tanımlanan Bileşim üzerinde Kesişim (IoU) maliyetine dayalı olarak eğitilmiştir. Literatürde daha önce nesne yapılandırma için kullanılan amaç fonksiyonları ile analiz çalışmaları yürütülmüştür. Gerçekleştirilen niteliksel ve niceliksel değerlendirmelere göre, tez kapsamında önerilen IoU maliyetine dayalı eğitilen modellerin daha iyi performans sergilediği görülmüştür. Adım adım iyileştirilen modeller ile önde gelen çalışmalara benzer, bazı kategoriler için ise daha iyi sonuçların elde edilebildiği ortaya koyulmuştur