Gen ifade verilerinde öznitelik seçimi ve sınıflandırma

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2014

Öğrenci: MAHMUT KAYA

Danışman: HASAN ŞAKİR BİLGE

Özet:

Biyoloji bilimi ile bilgisayar biliminin bir araya gelmesi sonucu çok disiplinli bir bilim dalı olan biyoinformatik bilimi ortaya çıkmıştır. Hastalık teşhisinde hastalıkla doğrudan ilişkili genleri tespit etmek büyük önem arz etmektedir. Gen ifadeleri içerisinde binlerce öznitelik vardır, fakat bunun yanında az sayıda örnek bulunmaktadır. Örnek sayısının az olması ve öznitelik sayısının fazla olması sınıflandırıcının iyi eğitilememesi problemini ortaya çıkarmaktadır. Bu sebeple büyük veri kümelerinden olan gen ifadelerinde öznitelik seçimi çok önemlidir. Gen ifadelerinde öznitelik seçimi için üç yaklaşım bulunmaktadır. Bunlar istatistiksel yöntemler, sarmal yöntemler ve gömülü yöntemlerdir. İstatistiksel yöntemler öznitelik alt uzayını elde etmede hızlı bir şekilde çözüme ulaşmasına karşın sınıflandırma başarımı açısından yeterince iyi değildir. Sarmal yöntemler bir sınıflandırıcı algoritmasına bağlı olduğundan dolayı algoritma yavaş çalışmakta; ancak en iyi çözüme ulaşmada istatistiksel yöntemlere göre daha başarılı olmaktadır. Gömülü yöntemler ise sınıflandırıcı ve ölçüm kriterini birlikte içinde barındırmaktadır. Gen ifadelerinde öznitelik seçimi için istatistiksel ve sarmal yöntemin birlikte kullanıldığı hibrit yapılar önerilmiştir. Bu tez çalışmasında öncelikle tüm veri kümesinde k en yakın komşu sınıflandırıcısının performansını arttırma amacıyla ağırlıklandırılmış k en yakın komşu yöntemi kullanılmıştır. Ağırlıklandırma katsayıları olarak Fisher korelasyon skor değerleri kullanılmıştır. Yapılan deneyler sonrasında k=3 komşu için başarı oranı %74,14'ten %86,29'a artmıştır. Öznitelik seçme amacıyla öncelikle Fisher korelasyon skor yöntemi ile 500 gen seçilmiştir. Daha sonra ardışık ileri aramanın performansını iyileştirme amacıyla iki adım sonra bir geri arama işlemi uygulanmıştır. Geri arama işlemi için iki farklı yaklaşımdan yararlanılmıştır. Yaklaşımın birinde sınıflandırma doğruluğu kullanılırken, diğerinde FKS değerinden yararlanılmıştır. Önerilen yöntemlerle Destek Vektör Makineleri ile öznitelik seçim işlemi sonucunda başarı oranı %81,00'den %95,14'e artarken; Naive Bayes ile öznitelik seçim işlemi sonucunda başarı oranı %78,14'ten %95,43'e artmıştır. Önerilen yöntem sarmal yöntemlere göre en iyi çözüme daha hızlı bir şekilde ulaşmıştır. Ayrıca hibrit modeller ile daha iyi bir sınıflandırma doğruluğu elde edilmiştir.