Evaluasi Kinerja Algoritma Machine Learning (ML) Menggunakan Seleksi Fitur pada Klasifikasi Diabetes
Keywords:
Algoritma, Machine Learning, Seleksi Fitur, DiabetesAbstract
Diabetes Mellitus (DM) merupakan salah satu penyakit kronis yang prevalensinya terus meningkat secara global, termasuk di Indonesia. Deteksi dini dan diagnosis yang akurat sangat penting untuk mencegah komplikasi serius. Dalam beberapa tahun terakhir, pendekatan berbasis Machine Learning (ML) telah banyak digunakan untuk meningkatkan akurasi prediksi diabetes. Salah satu dataset yang sering digunakan dalam penelitian ini adalah Pima Indians Diabetes Dataset (PIDD). Dataset ini memiliki delapan fitur dan satu kelas. Tantangan utama dalam pemodelan ML untuk prediksi adalah adanya fitur yang tidak relevan dalam dataset, yang dapat menurunkan kinerja model. Kami menggunakan pendekatan seleksi fitur teknik Informasion Gain (IG) dan Gain Ratio (GR). Hasil eksperimen seleksi fitur menggunakan IG didapatkan empat fitur yang memiliki bobot >0.05 yaitu Glucose Plassma (0.190), BMI (0.074), Age (0.072), dan Insulin (0.059). Namun hasil yang berbeda ketika menggunakan teknik GR yaitu Glucose Plassma (0.986), BMI (0.086), Age (0.078), Pregnancies (0.051). Hasil seleksi fitur dan semua fitur digunakan untuk menguji algoritma ML seperti Naive Bayes, J48, AdaBoost, Random Tree, Random Forest, dan Super Vector Machine (SVM). Hasil evaluasi kinerja algoritma ML menunjukkan algoritma SVM memiliki kinerja terbaik menggunakan semua fitur PIDD. Temuan ini berbeda dengan penelitian lain yang menggunakan seleksi fitur justru meningkatkan kinerja algoritma ML. Selain itu, kami melakukan evaluasi terhadap waktu eksekusi model. Kami menemukan bahwa algoritma Naïve Bayes dan Random Tree memiliki waktu komputasi terbaik. Temuan ini memberikan gambaran umum tentang kemampuan ML untuk memprediksi diabetes menggunakan seleksi fitur yang dihasilkan oleh teknik IG dan GR maupun tanpa seleksi fitur.
Downloads
References
Bashir, S., Khan, Z. S., Khan, F. H., Anjum, A., & Bashir, K. (2019). Improving Heart Disease Prediction Using Feature Selection Approaches. 2019 16th International Bhurban Conference on Applied Sciences and Technology (IBCAST), 619–623. https://doi.org/10.1109/IBCAST.2019.8667106
Bhat, P., & Dutta, K. (2022). A multi-tiered feature selection model for android malware detection based on Feature discrimination and Information Gain. Journal of King Saud University - Computer and Information Sciences, 34(10, Part B), 9464–9477. https://doi.org/https://doi.org/10.1016/j.jksuci.2021.11.004
Guan, H., Wang, Y., Niu, P., Zhang, Y., Zhang, Y., Miao, R., Fang, X., Yin, R., Zhao, S., Liu, J., & Tian, J. (2024). The role of machine learning in advancing diabetic foot: a review. Frontiers in Endocrinology, 15(April), 1–15. https://doi.org/10.3389/fendo.2024.1325434
Ibrahim, F. A., & Shiba, O. A. (2019). Data Mining : WEKA Software ( an Overview ). Journal of Pure & Applied Sciences, 18(3), 54–58. www.Suj.sebhau.edu.ly
Miao, F., Wu, Y., Yan, G., & Si, X. (2025). Dynamic multi-swarm whale optimization algorithm based on elite tuning for high-dimensional feature selection classification problems. Applied Soft Computing, 169, 112634. https://doi.org/https://doi.org/10.1016/j.asoc.2024.112634
Ohsaki, M., Wang, P., Matsuda, K., Katagiri, S., Watanabe, H., & Ralescu, A. (2017). Confusion-matrix-based kernel logistic regression for imbalanced data classification. IEEE Transactions on Knowledge and Data Engineering, 29(9), 1806–1819. https://doi.org/10.1109/TKDE.2017.2682249
Ratna Septia Devi, Triando Hamonangan Saragih, & Mohammad Reza Faisal. (2024). Seleksi Fitur Hybrid Grey Wolf Optimization dan Particle Swarm Optimization pada Distance Biased Naive Bayes untuk Klasifikasi Kanker Payudara. Jurnal Informatika Polinema, 10(2), 307–314. https://doi.org/10.33795/jip.v10i2.4737
Setiawan, D., Nugraha, A., & Luthfiarta, A. (2024). Komparasi Teknik Feature Selection Dalam Klasifikasi Serangan IoT Menggunakan Algoritma Decision Tree. Jurnal Media Informatika Budidarma, 8(1), 83. https://doi.org/10.30865/mib.v8i1.6987
Shams, M. Y., Tarek, Z., & Elshewey, A. M. (2025). A novel RFE-GRU model for diabetes classification using PIMA Indian dataset. Scientific Reports, 15(1), 1–22. https://doi.org/10.1038/s41598-024-82420-9
Sulistiani, H., Syarif, A., Muludi, K., & Warsito. (2024). Performance evaluation of feature selections on some ML approaches for diagnosing the narcissistic personality disorder. Bulletin of Electrical Engineering and Informatics, 13(2), 1383–1391. https://doi.org/10.11591/eei.v13i2.6717
Trabelsi, M., Meddouri, N., & Maddouri, M. (2017). A New Feature Selection Method for Nominal Classifier based on Formal Concept Analysis. Procedia Computer Science, 112, 186–194. https://doi.org/10.1016/j.procs.2017.08.227
Wang, J., Zhou, S., Yi, Y., & Kong, J. (2014). An improved feature selection based on effective range for classification. The Scientific World Journal, 2014. https://doi.org/10.1155/2014/972125
Yan, T., Shen, S.-L., Zhou, A., & Chen, X. (2022). Prediction of geological characteristics from shield operational parameters by integrating grid search and K-fold cross validation into stacking classification algorithm. Journal of Rock Mechanics and Geotechnical Engineering, 14(4), 1292–1303. https://doi.org/https://doi.org/10.1016/j.jrmge.2022.03.002
Yang, Z., Ye, Q., Chen, Q., Ma, X., Fu, L., Yang, G., Yan, H., & Liu, F. (2020). Robust discriminant feature selection via joint L2,1-norm distance minimization and maximization. Knowledge-Based Systems, 207, 106090. https://doi.org/https://doi.org/10.1016/j.knosys.2020.106090