Perbandingan Kinerja Naive Bayes dan Random Forest dengan Penanganan Imbalance Data

Fortunatus Adhiethera Tuah Putra; Arif Bijaksana Putra Negara; Helen Sastypratiwi

doi:10.33795/jip.v12i2.8424

Authors

Fortunatus Adhiethera Tuah Putra Universitas Tanjungpura
Arif Bijaksana Putra Negara Universitas Tanjungpura
Helen Sastypratiwi Universitas Tanjungpura

DOI:

https://doi.org/10.33795/jip.v12i2.8424

Keywords:

Data mining, Klasifikasi, Naive Bayes, Random Forest, SMOTE

Abstract

Data mining merupakan proses penting untuk mengekstraksi informasi berharga dari kumpulan data besar dan kompleks. Salah satu teknik utamanya adalah klasifikasi, yang digunakan untuk memprediksi kategori data berdasarkan fitur tertentu. Penelitian ini membandingkan performa algoritma Naïve Bayes dan Random Forest dalam mengatasi klasifikasi pada data tidak seimbang. Dataset yang digunakan adalah Bank Marketing dari UCI Machine Learning Repository yang memiliki distribusi kelas tidak seimbang, dengan perbandingan signifikan antara label “yes” dan “no”. Penelitian ini mengevaluasi pengaruh dua teknik penyeimbangan data, yaitu Synthetic Minority Oversampling Technique (SMOTE) dan undersampling, terhadap kinerja kedua algoritma dengan metrik akurasi, presisi, recall, dan F1-score. Pada Naïve Bayes, model default memberikan hasil terbaik (akurasi 91,78%, presisi 90,59, recall 91,78, F1-Score 90,93), sedangkan penggunaan SMOTE atau undersampling justru menurunkan seluruh metrik, dengan penurunan terbesar pada SMOTE (−9,25%). Pada Random Forest, SMOTE meningkatkan akurasi, recall, dan F1-Score secara signifikan, yaitu 5,18% pada akurasi, menghasilkan kombinasi terbaik (akurasi 93,08%, presisi 93,35, recall 93,08, F1-Score 93,07). Hal ini menunjukkan bahwa SMOTE efektif untuk algoritma berbasis pohon, sementara Naïve Bayes lebih optimal tanpa penyeimbangan data tambahan.

Downloads

Download data is not yet available.

References

Asassfeh, M. R., Rasmi, M., Alqammaz, A., Doumi, A. B., Al-Qawasmi, K., & Al-Shaikh, A. (2023). Enhancing Imbalanced Data Classification: A Case Study of Portuguese Bank Marketing. Journal of Southwest Jiaotong University, 58(6). https://doi.org/10.35741/issn.0258-2724.58.6.21

Byeon, H. (2021). Predicting the Depression of the South Korean Elderly Using SMOTE and an Imbalanced Binary Dataset. International Journal of Advanced Computer Science and Applications, 12(1).

Fitriani, M. A., & Febrianto, D. C. (2021). Data Mining for Potential Customer Segmentation In The Marketing Bank Dataset. JUITA: Jurnal Informatika, 9(1), 25–32.

Halasz, G., Sperti, M., Villani, M., Michelucci, U., Agostoni, P., Biagi, A., Rossi, L., Botti, A., Mari, C., & Maccarini, M. (2021). Predicting Clinical Outcomes in the Machine Learning era: The Piacenza Score a Purely Data Driven Approach for Mortality Prediction in COVID-19 Pneumonia. MedRxiv, 2021–2023.

Indaryono, N. A. P. (2024). Analisa Perbandingan Algoritma Random Forest dan Naïve Bayes Untuk Klasifikasi Curah Hujan Berdasarkan Iklim di Indonesia. JIPI (Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika), 9(1), 158–167.

Leonardo, R., Pratama, J., & Chrisnatalis, C. (2020). Perbandingan Metode Random Forest dan Naïve Bayes dalam Prediksi Keberhasilan Klien Telemarketing. Jurnal Teknologi Dan Ilmu Komputer Prima (Jutikomp), 3(2), 455–459.

Liu, X.-Y., Wu, J., & Zhou, Z.-H. (2008). Exploratory Undersampling for Class-Imbalance Learning. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 39(2), 539–550.

Meidina, A., & Abidin, Z. (2023). Diagnosis of Heart Disease Using Optimized Naïve Bayes Algorithm with Particle Swarm Optimization and Gain Ratio. Recursive Journal of Informatics, 1(2), 47–54.

Momole, G. M. (2022). Perbandingan Naïve Bayes dan Random Forest dalam Klasifikasi Bahasa Daerah. JATISI (Jurnal Teknik Informatika Dan Sistem Informasi), 9(2), 855–863.

Puspa, S. D., Puspitasari, F., Riyono, J., Pujiastuti, C. E., Bijlsma, D. L., & Leo, J. A. (2023). Customer Segmentation Analysis Using Random Forest & Naïve Bayes Method in the Case of Multi-Class Classification at PT. XYZ. Mathline: Jurnal Matematika Dan Pendidikan Matematika, 8(4), 1359–1372.

Saepudin, S., Widiastuti, S., & Irawan, C. (2023). Sentiment Analysis of Social Media Platform Reviews Using the Naïve Bayes Classifier Algorithm. Jurnal Sisfokom (Sistem Informasi Dan Komputer), 12(2), 236–243.

Saputra, D., Irmayani, W., Purwaningtias, D., Sidauruk, J., & Gurbuz, B. (2021). A Comparative Analysis of C4. 5 Classification Algorithm, Naïve Bayes and Support Vector Machine Based on Particle Swarm Optimization (PSO) for Heart Disease Prediction. International Journal of Advances in Data and Information Systems, 2(2), 84–95.

Singh, P., & Singh, N. (2024). Role of Data Mining Techniques in Bioinformatics. In Research Anthology on Bioinformatics, Genomics, and Computational Biology (pp. 1406–1417). IGI Global Scientific Publishing.

Wibowo, R., Soeleman, M. A., & Affandy, A. (2023). Hybrid Top-K Feature Selection to Improve High-Dimensional Data Classification Using Naïve Bayes Algorithm. Scientific Journal of Informatics, 10(2), 113–120.

Yang, Z., Cui, X., & Song, Z. (2023). Predicting Sepsis Onset in ICU Using Machine Learning Models: A Systematic Review and Meta-Analysis. BMC Infectious Diseases, 23(1), 635.