Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2023
Tezin Dili: Türkçe
Öğrenci: MUSTAFA SAMİ CÜCEN
Danışman: Hüseyin Polat
Özet:
Konuşma sentezleme sistemi, insan benzeri doğal konuşmaları üretmek için
geliştirilen bir yapay zeka teknolojisidir. Bu sistem, metin
girdilerini alır ve bunları gerçekçi ve akıcı sesli çıktılara
dönüştürmek için derin öğrenme algoritmalarını kullanır. Bu çalışmada
öncelikle derin öğrenme modelini eğitmek için, Türkçe doğal konuşma
örnekleri üzerinde kapsamlı bir veri toplama süreci
gerçekleştirilmiştir. Bu veriler, bir genç erkek konuşmacı tarafından
İstanbul Türkçesi olarak kaydedilen konuşma örneklerini içermektedir. Bu
veriler yaklaşık 13 saat uzunluğundadır. Daha sonra veri kümesi
kullanılarak GlowTTS mimarisi ile her biri 261 adım olan 500 çevrimlik
model ile eğitilerek derin öğrenme tabanlı bir Türkçe konuşma sentezleme
sistemi geliştirilmiştir. Geliştirilen konuşma sentezleme sisteminin
performansı farklı ölçütlerle değerlendirilmiştir. Ortalama görüş puanı
deneyi, spektrogramların değerlendirilmesi, çapraz korelasyon ve sanal
konuşma kalitesi nesnel dinleyici (SKKND) testleri kullanılarak sistemin
başarısı analiz edilmiştir. Elde edilen sonuçlara göre, sistemin OGP
2,79, çapraz korelasyon değeri 51,09 ve SKKND puanı 2,32 olarak
belirlenmiştir. OGP, kullanıcıların konuşma kalitesini
değerlendirmesiyle ortaya çıkan bir ölçüt olarak sistemin tatmin edici
bir performans sergilediğini göstermektedir. Çapraz korelasyon değeri
ise orijinal ses ve sentezlenen ses arasındaki benzerliğin ortalama
olduğunu göstermektedir. SKKND puanı ise konuşmanın algısal kalitesini
değerlendiren bir ölçüt olarak sistem tarafından üretilen konuşmanın
tatmin edici olduğunu göstermektedir.
Bu çalışma, Türkçe konuşma sentezleme sistemlerinin performansını
değerlendirmek için nesnel ölçütlerin kullanılabileceğini
göstermektedir. Sonuçlar, gelecekteki çalışmalarda sistem
iyileştirmelerine ve kullanıcı deneyimini artırmaya yönelik önemli
bilgiler sağlamaktadır. Bu sistemin daha önceki Türkçe konuşma
sentezleme çalışmalarında karşılaşılan doğallık ve anlaşılırlık
sorunlarına çözüm getirmesi amaçlanmıştır.