Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2023
Tezin Dili: Türkçe
Öğrenci: Mustafa Sami CÜCEN
Danışman: Hüseyin Polat
Özet:
Konuşma sentezleme sistemi, insan benzeri doğal konuşmaları üretmek için geliştirilen bir yapay zeka teknolojisidir. Bu sistem, metin girdilerini alır ve bunları gerçekçi ve akıcı sesli çıktılara dönüştürmek için derin öğrenme algoritmalarını kullanır. Bu çalışmada öncelikle derin öğrenme modelini eğitmek için, Türkçe doğal konuşma örnekleri üzerinde kapsamlı bir veri toplama süreci gerçekleştirilmiştir. Bu veriler, bir genç erkek konuşmacı tarafından İstanbul Türkçesi olarak kaydedilen konuşma örneklerini içermektedir. Bu veriler yaklaşık 13 saat uzunluğundadır. Daha sonra veri kümesi kullanılarak GlowTTS mimarisi ile her biri 261 adım olan 500 çevrimlik model ile eğitilerek derin öğrenme tabanlı bir Türkçe konuşma sentezleme sistemi geliştirilmiştir. Geliştirilen konuşma sentezleme sisteminin performansı farklı ölçütlerle değerlendirilmiştir. Ortalama görüş puanı deneyi, spektrogramların değerlendirilmesi, çapraz korelasyon ve sanal konuşma kalitesi nesnel dinleyici (SKKND) testleri kullanılarak sistemin başarısı analiz edilmiştir. Elde edilen sonuçlara göre, sistemin OGP 2,79, çapraz korelasyon değeri 51,09 ve SKKND puanı 2,32 olarak belirlenmiştir. OGP, kullanıcıların konuşma kalitesini değerlendirmesiyle ortaya çıkan bir ölçüt olarak sistemin tatmin edici bir performans sergilediğini göstermektedir. Çapraz korelasyon değeri ise orijinal ses ve sentezlenen ses arasındaki benzerliğin ortalama olduğunu göstermektedir. SKKND puanı ise konuşmanın algısal kalitesini değerlendiren bir ölçüt olarak sistem tarafından üretilen konuşmanın tatmin edici olduğunu göstermektedir. Bu çalışma, Türkçe konuşma sentezleme sistemlerinin performansını değerlendirmek için nesnel ölçütlerin kullanılabileceğini göstermektedir. Sonuçlar, gelecekteki çalışmalarda sistem iyileştirmelerine ve kullanıcı deneyimini artırmaya yönelik önemli bilgiler sağlamaktadır. Bu sistemin daha önceki Türkçe konuşma sentezleme çalışmalarında karşılaşılan doğallık ve anlaşılırlık sorunlarına çözüm getirmesi amaçlanmıştır.
Anahtar Kelimeler : Derin Öğrenme, Konuşma Sentezleme, Doğal Dil İşleme, Yapay
Zeka, Konuşma Veri Kümesi, GlowTTS, Mel Spektrogram,
Konuşma Sentezleme Değerlendirmesi, Çapraz Korelasyon