Örüntü tanıma yöntemleri kullanarak konuşmacı bağımlı ayrışık sözcük tanıma


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2015

Öğrenci: BETÜL KESKİN

Danışman: ÖZGÜL SALOR DURNA

Özet:

Bu tez çalışması kapsamında, sesli komut uygulamalarına yönelik, örüntü tanıma tekniklerine dayalı bir ayrışık sözcük tanıma sistemi geliştirilmiştir. Mevcut konuşma tanıma algoritmalarından farklı olarak, geliştirilen yazılımın, kumanda gibi cihazların üzerinde çalışabilecek hızlı ve basit bir yapıda olması hedeflendiğinden dolayı, örüntü tanıma teknikleri kullanılarak konuşmacı bağımlı, metne dayalı, ayrışık sözcük tanıma için bir yazılım geliştirilmiş ve bu yazılımın başarıyla çalıştığı gösterilmiştir. Konuşma tanımadaki hız problemine çözüm aranan bu süreçte, öznitelik olarak Mel Frekans Kepstral Katsayıları (Mel Frequency Cepstral Coefficients - MFCC) kullanılmıştır. Bu öznitelikler, Ana Bileşen Çözümleme (Principle Component Analysis - PCA), Tekil Değer Ayrıştırma (Singular Value Decomposition SVD) ve Lineer Diskriminant Analizi (Linear Discriminant Analysis - LDA) yöntemleri ile dönüştürülmüş ve dönüştürülmüş öznitelikler Öklid, Manhattan ve Chebyshev uzaklık belirleme yöntemleriyle değerlendirilerek, ayrışık sözcük tanıma gerçekleştirilmiştir. Konuşma tanımanın pek çok uygulaması için çok yaygın olarak ve başarıyla kullanılan bir yöntem olan Saklı Markov Modelleri (Hidden Markov Models - HMM) ile önerilen yöntemler ayrışık sözcük tanıma başarımı ve hız açısından karşılaştırılmıştır. Herhangi bir bilgisayar uygulaması için kullanılabilecek dokuz komut sözcük anahtar sözcükler olarak belirlenmiş ve bu sözcüklerin tanınması ile bu kümenin dışındaki sözcüklerin belirlenmesi, 13'ü kadın 7'si erkek 20 geniş yaş dağılımına sahip konuşmacı kullanılarak, yüksek bir başarı ile sağlanmıştır. LDA kullanılarak ve Öklid uzaklık belirleme yöntemi ile en yüksek tanıma başarımı elde edilmiş ve bu başarımın sadece dokuz sözcük ile %97,22 olduğu gösterilmiştir. Üç liste dışı sözcüğün tanınması dahil edildiğinde ise en yüksek başarım LDA ve Manhattan uzaklık ölçütü ile %90,00 olarak elde edilmiştir. Hız olarak karşılaştırıldığında HMM yöntemi ile sözcük tanıma yaklaşık 36 milisaniye sürerken, önerilen yöntemle bu süre 0,5 - 0,6 milisaniye olmuştur. Herhangi bir konuşmacının sisteme dahil edilebilmesi için bir ara yüz oluşturulmuş ve bu ara yüz ile üç kez okuma ile eğitim yapılabilmekte ve yeni konuşmacı için sistem çalışmaya başlamaktadır.