Derin öğrenme tabanlı uçtan uca Türkçe konuşma sentezleme sistemi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2023

Tezin Dili: Türkçe

Öğrenci: MUSTAFA SAMİ CÜCEN

Danışman: Hüseyin Polat

Özet:

Konuşma sentezleme sistemi, insan benzeri doğal konuşmaları üretmek için geliştirilen bir yapay zeka teknolojisidir. Bu sistem, metin girdilerini alır ve bunları gerçekçi ve akıcı sesli çıktılara dönüştürmek için derin öğrenme algoritmalarını kullanır. Bu çalışmada öncelikle derin öğrenme modelini eğitmek için, Türkçe doğal konuşma örnekleri üzerinde kapsamlı bir veri toplama süreci gerçekleştirilmiştir. Bu veriler, bir genç erkek konuşmacı tarafından İstanbul Türkçesi olarak kaydedilen konuşma örneklerini içermektedir. Bu veriler yaklaşık 13 saat uzunluğundadır. Daha sonra veri kümesi kullanılarak GlowTTS mimarisi ile her biri 261 adım olan 500 çevrimlik model ile eğitilerek derin öğrenme tabanlı bir Türkçe konuşma sentezleme sistemi geliştirilmiştir. Geliştirilen konuşma sentezleme sisteminin performansı farklı ölçütlerle değerlendirilmiştir. Ortalama görüş puanı deneyi, spektrogramların değerlendirilmesi, çapraz korelasyon ve sanal konuşma kalitesi nesnel dinleyici (SKKND) testleri kullanılarak sistemin başarısı analiz edilmiştir. Elde edilen sonuçlara göre, sistemin OGP 2,79, çapraz korelasyon değeri 51,09 ve SKKND puanı 2,32 olarak belirlenmiştir. OGP, kullanıcıların konuşma kalitesini değerlendirmesiyle ortaya çıkan bir ölçüt olarak sistemin tatmin edici bir performans sergilediğini göstermektedir. Çapraz korelasyon değeri ise orijinal ses ve sentezlenen ses arasındaki benzerliğin ortalama olduğunu göstermektedir. SKKND puanı ise konuşmanın algısal kalitesini değerlendiren bir ölçüt olarak sistem tarafından üretilen konuşmanın tatmin edici olduğunu göstermektedir. Bu çalışma, Türkçe konuşma sentezleme sistemlerinin performansını değerlendirmek için nesnel ölçütlerin kullanılabileceğini göstermektedir. Sonuçlar, gelecekteki çalışmalarda sistem iyileştirmelerine ve kullanıcı deneyimini artırmaya yönelik önemli bilgiler sağlamaktadır. Bu sistemin daha önceki Türkçe konuşma sentezleme çalışmalarında karşılaşılan doğallık ve anlaşılırlık sorunlarına çözüm getirmesi amaçlanmıştır.