Makine öğrenmesi tekniği ile konuşma kayıtlarının hızlandırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2017

Öğrenci: PINAR DELUL ÇELEN

Danışman: FIRAT HARDALAÇ

Özet:

İnsan beynindeki temel bilgi işleme sistemlerinden biri olan dinleme için yapılan çalışmalar göstermiştir ki insanlar konuştuklarından çok daha hızlı dinleyebilirler. Bazı insanlar çok yavaş konuşurken bazıları ise çok hızlı konuşur ve siz çoğu zaman ikisini de anlayabilirsiniz. Özellikle daha önce dinlenilen bir konuşma, tekrar dinleme ihtiyacı duyulduğunda çok daha hızlı bir şekilde dinleyerek de anlaşılabilir. Sunulan çalışmadaki amaç, konuşmaların anlaşılabilir bir şekilde hızlandırılmasıdır. Ses sinyali bir dizi sayısal veri olarak düşünülür ise; dizideki elemanlardan bir kısmını atıp, bir kısmını tutarak ses hızlandırabilir. Asıl önemli olan kısım ses verisinin neresinde insan sesinin olup neresinde olmadığını bulabilmektir. Çalışmada, bunu kural tabanlı olarak tanımlamak yerine sistemin kendisinin öğrenmesi istenilmiştir ve sisteme konuşma olan ve olmayan bölgeler işaretlenmiş veriler ve orijinalleri verilmiştir. Ses verisi, üzerinde pencereleme işlemi yapılarak küçük parçalara ayrılmıştır. Bunun için konuşma verileri pencerelere ayrılıp, her bir pencere için frekans uzayında FFT ( Fast Fourier Transform ), zaman uzayında ise entropi, ortlama standart sapma, tepe noktası, çarpıklık, ZCR (Zero Crossing rate), AR(autoregressive ) ve RMS (Root Mean Square ) olmak üzere 10 adet öznitelik üretilmiştir. Çok boyutluluğun lanetinden dolayı, ses sinyallerini en iyi ayıran k-ortalama yöntemi ile 3 adet öznitelik seçilmiştir. DVM tabanlı sınıflandırıcı eğitim verileri ile eğitilip, test verisindeki her bir pencerenin konuşma ile konuşma dışı alanlara sınıflandırılmıştır. Konuşma var olarak işaretlenen pencerelerdeki veriler birleştirilip hızlandırılmış ses verisi üretilmiştir. Hızlandırılmış ses verisi konuşma sentezleme programları ile metine dökülüp sistemin başarımı ölçülmüştür. Bu çalışma ile görülmüştür ki çeşitli yöntemler kullanılarak konuşmalar, insan beyninin anlayabileceği sınırlara kadar hızlandırılabilmektedir. Bu çalışmada konuşmalar yaklaşık anlaşılabilirlik oranı ile iki kat hızlandırılmıştır. Hızlı dinleme sistemlerini test etmek için konuşma tanıma yöntemleri kullanılan bir sistem geliştirilmiştir.