Fuzzy Rough Set Theory For Feature Selection in Gene Data


Creative Commons License

Özdemir B., Gündüz Tekin N.

15TH INTERNATIONAL ISTANBUL SCIENTIFIC RESEARCH CONGRESS ON LIFE, ENGINEERING, AND APPLIED SCIENCES, İstanbul, Türkiye, 9 - 11 Aralık 2023, ss.45-46

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: İstanbul
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.45-46
  • Gazi Üniversitesi Adresli: Evet

Özet

ABSTRACT Data mining methods, also known as knowledge discovery, knowledge mining and machine learning, are applied to large data sets. Big data is data that contains a lot of diversity and whose volume is rapidly increasing. Big data also refers to 3V (Volume, Velocity, Variety), that is, volume, velocity and variety. Examples of large data sets include determining customer behavior and product strategies in marketing; assisting with transportation, GPS navigation, traffic and weather alerts; in public administration, analysis of tax, defense and public health data; in business, streamlining management operations and optimizing costs; Regarding cyber security, detection and solutions of system vulnerabilities and cyber threats; In healthcare, examples include rapid access to medical records, accelerating treatment development, and identifying diseases and treatment methods with gene data. Gene data provides important information about cancers, tumors and genetic diseases (Giordani, 2009; Kasim et al., 2016; Vicente, 2009). However, in gene data analysis, which has a very large data structure and a wide variety of features, feature selection must be made first in order to reach more reliable and summary information, as in other large data groups. Genetic algorithms in data mining, information gain, symmetric uncertainty, Chi-square, An efficient feature selection algorithm (ERGS), improved feature selection based on effective range (IFSER) and Relief- F methods are some of the methods used in feature selection. In this study, it is aimed to compare the Relief-F and Chi-square algorithms, which are filtering methods for feature selection on gene data, and the Quick-Reduct algorithm, which is a fuzzy rough set method. Open source statistical program R-project v4.3.2 was used to analyze the data. FSelector was used for the Relief-F and Chi-square algorithms, and Rcpp and RoughSets packages were used for the Quick-Reduct algorithm.

Keywords: Machine learning, big data, gene data, feature selection, fuzzy rough set


ÖZET Bilgi keşfi, bilgi madenciliği ve makine öğrenmesi gibi adlarla da anılan veri madenciliği yöntemleri büyük veri setlerine uygulanmaktadır. Büyük veri, fazla çeşitlilik içeren ve hacmi hızla artan verilerdir. Büyük veri aynı zamanda 3V (Volume, Velocity, Variety) yani hacim, hız ve çeşitliliği ifade eder. Büyük 46 15th International Istanbul Scientific Research Congress on Life, Engineering, and Applied Sciences Proceedings Book ISBN: 978-625-6879-40-9 veri setlerine örnek olarak pazarlama konusunda, müşteri davranışı ve ürün stratejilerinin belirlenmesi; ulaşım konusunda, GPS navigasyonuna, trafik ve hava durumu uyarılarına yardımcı olunması; kamu yönetimi konusunda, vergi, savunma ve halk sağlığı verilerinin analizi; iş konusunda, yönetim operasyonlarının kolaylaştırılması ve maliyetlerin optimize edilmesi; siber güvenlik konusunda, sistem açıkları ve siber tehditlerin tespit edilmesi ve çözümleri; sağlık hizmetleri konusunda, tıbbi kayıtlara hızlıca erişim, tedavi gelişiminin hızlandırılması ve gen verileri ile hastalık ve tedavi yöntemlerinin belirlenmesi gibi örnekler verilebilir. Gen verileri, kanserler, tümörler ve genetik hastalıklar hakkında önemli bilgiler sunmaktadır (Giordani, 2009; Kasim vd., 2016; Vicente, 2009). Ancak çok büyük bir veri yapısına ve çok çeşitli özelliklere sahip olan gen veri analizlerinde, diğer büyük veri gruplarında olduğu gibi, daha güvenilir daha özet bilgilere ulaşabilmek amacıyla, öncelikle özellik seçimi yapılmalıdır. Veri madenciliği konusunda genetik algoritmalar, bilgi kazancı, simetrik belirsizlik, Ki-kare, etkili özellik seçim algoritması(An efficient feature selection algorithm, ERGS), etkili aralığa dayalı geliştirilmiş özellik seçimi (improved feature selection based on effective range, IFSER) ve Relief-F yöntemleri özellik seçiminde kullanılan yöntemlerden bazılarıdır. Bu çalışmada, gen verileri üzerinde özellik seçimi için filtreleme yöntemlerinden Relief-F ve Ki-kare algoritmaları ile bulanık kaba küme yönteminden Quick-Reduct algoritmasının karşılaştırılması amaçlanmıştır. Verilerin analiz edilmesinde açık kaynak kodlu istatistik programı R-project v4.3.2 kullanılmıştır. Relief-F ve Ki-kare algoritmaları için FSelector, Quick-Reduct algoritması için Rcpp ve RoughSets paketlerinden yararlanılmıştır.

Anahtar Kelimeler: Makine öğrenmesi, büyük veri, gen verileri, özellik seçimi, bulanık kaba küme