Ayrışık Sözcük Tabanlı Türkçe Konuşmacı Tanıma Sistemi Geliştirme Ve Anahtar Kelime Seçiminin Konuşmacı Tanıma Performansına Etkisinin İncelenmesi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Türkiye

Tezin Onay Tarihi: 2015

Tezin Dili: Türkçe

Öğrenci: Zekeriya ŞENTÜRK

Danışman: ÖZGÜL SALOR DURNA

Özet:

Bu tez çalışması kapsamında, ayrışık sözcük kullanımıyla bir konuşmacı tanıma sistemi geliştirilmiştir. Geliştirilen sistemde öznitelik olarak Mel Frekans Kepstrum Katsayıları (Mel Frequency Cepstrum Coefficient - MFCC) ve kodlanmış çizgisel frekans spektrumu (Line Spectral Frequency - LSF) kullanılmıştır. Çalışma kapsamında, geliştirilen konuşmacı tanıma sisteminin başarımı, seçilen özniteliklere ve kullanılan anahtar kelimelere göre değerlendirilmiştir. Çalışmanın yapılabilmesi için, 12 erkek ve 4 kadın konuşmacının 48 farklı kelimeyi 6'şar kez tekrarladığı bir veri tabanı oluşturulmuştur. Kayıtlar, ses yalıtımı olan gürültüsüz bir kayıt stüdyosunda; 16 kHz örnekleme frekansı ve Logitech marka kablosuz bir mikrofon ile alınmıştır. Kayıtlar bir konuşmacı için günün farklı saatleri seçilen üç ya da dört oturumda yapılmış ve kişinin ses değişkenliğinin veri tabanına yansıtılması sağlanmıştır. Tezin ilk bölümünde, konuşmacı veri tabanı oluşturulduktan sonra, ikinci bölümde öznitelik olarak MFCC'ler kullanılarak konuşmacı tanıma sistemi oluşturulmuş ve sistemin başarımı ölçülmüştür. Üçüncü bölümde ise, MELP ile kodlanmış ve kod çözülerek tekrar oluşturulmuş konuşma sinyali sisteme giriş olarak uygulanarak, geliştirilen sistemin konuşmacı tanıma başarımının kodlamaya karşı gürbüzlüğü değerlendirilmiştir. Dördüncü olarak, kodlanmış ve kod çözülmüş sözcüklerin konuşmacı tanıma sisteminde yol açtığı başarım düşüşünü azaltmak üzere, öznitelik olarak MELP konuşma kodlama algoritmasının kod sözcüklerini kullanan bir konuşmacı tanıma sistemi geliştirilmiştir. Yalnızca MFCC'ler öznitelik olarak kullanıldığı zaman %96 olarak elde edilen başarımın, kodlanmış ve kod çözülmüş sözcükler sisteme giriş olarak verildiğinde başarımın %60'a düştüğü görülmüştür. Kodlanmaya karşı dayanıklı bir sistem geliştirmek için oluşturulan ve MELP kod sözcüklerinin kullanan sistemin konuşmacı tanıma başarımının ise %71'e yükseldiği gözlenmiştir. Son bölümde ise, geliştirilen temel sistemin seçilen anahtar sözcüğe göre başarımı ölçülmüştür. Yapılan testler sonucunda, sesletimi kolay, yabancı kökenli olmayan sözcüklerde konuşmacı tanıma başarımının, diğer sözcüklere göre daha yüksek olduğu gözlenmiştir.