Evaluasi Kinerja Algoritma Machine Learning (ML) Menggunakan Seleksi Fitur pada Klasifikasi Diabetes

Agus Wantoro; Zulkifli; Aviv Fitria Yulia; Dwi Yana Ayu; Syazili Mustofa

Authors

Agus Wantoro Universitas Teknokrat Indonesia https://orcid.org/0000-0002-0314-7492
Zulkifli Universitas Aisyah Pringsewu
Aviv Fitria Yulia Universitas Aisyah Pringsewu
Dwi Yana Ayu Universitas Aisyah Pringsewu
Syazili Mustofa Universitas Lampung

Keywords:

Algoritma, Machine Learning, Seleksi Fitur, Diabetes

Abstract

Diabetes Mellitus (DM) merupakan salah satu penyakit kronis yang prevalensinya terus meningkat secara global, termasuk di Indonesia. Deteksi dini dan diagnosis yang akurat sangat penting untuk mencegah komplikasi serius. Dalam beberapa tahun terakhir, pendekatan berbasis Machine Learning (ML) telah banyak digunakan untuk meningkatkan akurasi prediksi diabetes. Salah satu dataset yang sering digunakan dalam penelitian ini adalah Pima Indians Diabetes Dataset (PIDD). Dataset ini memiliki delapan fitur dan satu kelas. Tantangan utama dalam pemodelan ML untuk prediksi adalah adanya fitur yang tidak relevan dalam dataset, yang dapat menurunkan kinerja model. Kami menggunakan pendekatan seleksi fitur teknik Informasion Gain (IG) dan Gain Ratio (GR). Hasil eksperimen seleksi fitur menggunakan IG didapatkan empat fitur yang memiliki bobot >0.05 yaitu Glucose Plassma (0.190), BMI (0.074), Age (0.072), dan Insulin (0.059). Namun hasil yang berbeda ketika menggunakan teknik GR yaitu Glucose Plassma (0.986), BMI (0.086), Age (0.078), Pregnancies (0.051). Hasil seleksi fitur dan semua fitur digunakan untuk menguji algoritma ML seperti Naive Bayes, J48, AdaBoost, Random Tree, Random Forest, dan Super Vector Machine (SVM). Hasil evaluasi kinerja algoritma ML menunjukkan algoritma SVM memiliki kinerja terbaik menggunakan semua fitur PIDD. Temuan ini berbeda dengan penelitian lain yang menggunakan seleksi fitur justru meningkatkan kinerja algoritma ML. Selain itu, kami melakukan evaluasi terhadap waktu eksekusi model. Kami menemukan bahwa algoritma Naïve Bayes dan Random Tree memiliki waktu komputasi terbaik. Temuan ini memberikan gambaran umum tentang kemampuan ML untuk memprediksi diabetes menggunakan seleksi fitur yang dihasilkan oleh teknik IG dan GR maupun tanpa seleksi fitur.

Downloads

Download data is not yet available.

Author Biography

Agus Wantoro, Universitas Teknokrat Indonesia

Lecturer at the Faculty of Engineering and Computer Science at Teknokrat University of Indonesia with research areas in expert systems, artificial intelligence, decision support systems, information systems, and information technology.

References

Bashir, S., Khan, Z. S., Khan, F. H., Anjum, A., & Bashir, K. (2019). Improving Heart Disease Prediction Using Feature Selection Approaches. 2019 16th International Bhurban Conference on Applied Sciences and Technology (IBCAST), 619–623. https://doi.org/10.1109/IBCAST.2019.8667106

Bhat, P., & Dutta, K. (2022). A multi-tiered feature selection model for android malware detection based on Feature discrimination and Information Gain. Journal of King Saud University - Computer and Information Sciences, 34(10, Part B), 9464–9477. https://doi.org/https://doi.org/10.1016/j.jksuci.2021.11.004

Guan, H., Wang, Y., Niu, P., Zhang, Y., Zhang, Y., Miao, R., Fang, X., Yin, R., Zhao, S., Liu, J., & Tian, J. (2024). The role of machine learning in advancing diabetic foot: a review. Frontiers in Endocrinology, 15(April), 1–15. https://doi.org/10.3389/fendo.2024.1325434

Ibrahim, F. A., & Shiba, O. A. (2019). Data Mining : WEKA Software ( an Overview ). Journal of Pure & Applied Sciences, 18(3), 54–58. www.Suj.sebhau.edu.ly

Miao, F., Wu, Y., Yan, G., & Si, X. (2025). Dynamic multi-swarm whale optimization algorithm based on elite tuning for high-dimensional feature selection classification problems. Applied Soft Computing, 169, 112634. https://doi.org/https://doi.org/10.1016/j.asoc.2024.112634

Ohsaki, M., Wang, P., Matsuda, K., Katagiri, S., Watanabe, H., & Ralescu, A. (2017). Confusion-matrix-based kernel logistic regression for imbalanced data classification. IEEE Transactions on Knowledge and Data Engineering, 29(9), 1806–1819. https://doi.org/10.1109/TKDE.2017.2682249

Ratna Septia Devi, Triando Hamonangan Saragih, & Mohammad Reza Faisal. (2024). Seleksi Fitur Hybrid Grey Wolf Optimization dan Particle Swarm Optimization pada Distance Biased Naive Bayes untuk Klasifikasi Kanker Payudara. Jurnal Informatika Polinema, 10(2), 307–314. https://doi.org/10.33795/jip.v10i2.4737

Setiawan, D., Nugraha, A., & Luthfiarta, A. (2024). Komparasi Teknik Feature Selection Dalam Klasifikasi Serangan IoT Menggunakan Algoritma Decision Tree. Jurnal Media Informatika Budidarma, 8(1), 83. https://doi.org/10.30865/mib.v8i1.6987

Shams, M. Y., Tarek, Z., & Elshewey, A. M. (2025). A novel RFE-GRU model for diabetes classification using PIMA Indian dataset. Scientific Reports, 15(1), 1–22. https://doi.org/10.1038/s41598-024-82420-9

Sulistiani, H., Syarif, A., Muludi, K., & Warsito. (2024). Performance evaluation of feature selections on some ML approaches for diagnosing the narcissistic personality disorder. Bulletin of Electrical Engineering and Informatics, 13(2), 1383–1391. https://doi.org/10.11591/eei.v13i2.6717

Trabelsi, M., Meddouri, N., & Maddouri, M. (2017). A New Feature Selection Method for Nominal Classifier based on Formal Concept Analysis. Procedia Computer Science, 112, 186–194. https://doi.org/10.1016/j.procs.2017.08.227

Wang, J., Zhou, S., Yi, Y., & Kong, J. (2014). An improved feature selection based on effective range for classification. The Scientific World Journal, 2014. https://doi.org/10.1155/2014/972125

Yan, T., Shen, S.-L., Zhou, A., & Chen, X. (2022). Prediction of geological characteristics from shield operational parameters by integrating grid search and K-fold cross validation into stacking classification algorithm. Journal of Rock Mechanics and Geotechnical Engineering, 14(4), 1292–1303. https://doi.org/https://doi.org/10.1016/j.jrmge.2022.03.002

Yang, Z., Ye, Q., Chen, Q., Ma, X., Fu, L., Yang, G., Yan, H., & Liu, F. (2020). Robust discriminant feature selection via joint L2,1-norm distance minimization and maximization. Knowledge-Based Systems, 207, 106090. https://doi.org/https://doi.org/10.1016/j.knosys.2020.106090

Evaluasi Kinerja Algoritma Machine Learning (ML) Menggunakan Seleksi Fitur pada Klasifikasi Diabetes

Authors

Keywords:

Abstract

Downloads

Author Biography

Agus Wantoro, Universitas Teknokrat Indonesia

References

Downloads

Published

How to Cite

Issue

Section

Informasi

SK Kemenristekdikti Nomor 28/E/KPT/2019

JIP telah diindeks oleh:

Tools