TÜRKÇE KONUŞMA TANIMA SİSTEMLERİ İÇİN DERİN ÖĞRENME TABANLI MODELLERİN GELİŞTİRİLMESİ


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: SAADİN OYUCU

Danışman: Hüseyin Polat

Özet:

Kelime Hata Oranı (KHO) düşük Otomatik Konuşma Tanıma (OKT) sistemlerinde, büyük miktarda konuşma ve bu konuşmalar ile eşleştirilmiş metin veri kümesine ihtiyaç duyulmaktadır. Bu nedenle çalışma kapsamında Türkçe OKT veri kümesi hazırlamaya yönelik farklı bir yaklaşım sunulmuştur. Sunulan yaklaşımda üç farklı yöntem kullanılmıştır. İlk yöntemde, işitme güçlüğü çeken kişiler için hazırlanan altyazı belgeleri filmlerden elde edilen konuşma bilgisi ile eşleştirilmiştir. İkinci yöntemde, veriler bir mobil uygulama aracılığıyla gerçek kullanıcılardan elde edilmiştir. Üçüncü yöntemde ise transfer öğrenme yaklaşımı kullanılmıştır. Elde edilen veriler gerçek kullanıcıların onayına sunulmuştur. Türkçe OKT sistemi için gerekli Akustik Model (AM), Dil Modeli (DM) ve Okunuş Sözlüğü (OS) hazırlanan veri kümesi kullanılarak geliştirilmiştir. Yapay sinir ağı, Gauss Karışım Modeli ve Saklı Markov Modeli tabanlı akustik modellerin ilk konuşma tanıma sonuçları verilmiştir. Ayrıca OKT sistemlerinin başarımını düşürecek akustik bilgilerin ortadan kaldırılması için konuşma içerisinde geçen sessizliklerin kaldırılması ve konuşmaların parçalara ayrılması gerçekleştirilmiştir. OS’nin oluşturulmasındaki sesbirim kuralları belirlenmiştir. Günlük konuşma içerisinde sıklıkla kullanılan yabancı kelimeler ve Türkçede birden fazla okunuşa sahip olan kelimelerin farklı okunuşları OS’ye eklenmiştir. OKT için iyi dizayn edilmiş bir DM’nin AM ile birlikte kullanılması KHO’yu düşürmektedir. Bu nedenle çalışmada, Türkçe OKT’nin KHO başarımını arttırmak için cümle düzeyinde bir DM iyileştirme yöntemi önerilmiştir. Sonuç olarak, Türkçe için literatürdeki yetersiz kaynak durumu telafi edilmiştir. Ayrıca, AM, DM ve OS gerçekleştirilen iyileştirmeler ile KHO düşük ve geniş kelime dağarcığına sahip bir Türkçe OKT sistemi geliştirilmiştir. Geliştirilen OKT sistemine erişimi kolaylaştırmak için web servis tabanlı bir platform hazırlanmıştır. Kullanıcıların platforma erişimi, platform ile birlikte hazırlanan web arayüzü üzerinden gerçekleştirilmiştir. Ayrıca geliştirilen uygulama programlama arayüzleri sayesinde farklı uygulama ve servislerin platforma erişimi sağlanmıştır. Böylelikle mobil cihazlarda ve nesnelerin interneti ekosisteminde sorunsuz çalışabilen geniş kelime dağarcığına sahip bir Türkçe OKT platformu geliştirilmiştir.