Pengelompokan Dokumen Berita Berbahasa Indonesia Menggunakan Reduksi FiturInformation Gain dan Singular Value Decomposition dalam Fuzzy C-MeansClustering
DOI:
https://doi.org/10.33795/jim.v10i1.598Abstract
Koran dan berita online merupakan media informasi digital saat ini yang proses pembaruan informasinya sangat mudah dan fleksibel. Kemudahan ini memungkinkan penulis berita untuk mengunggah informasi baru di waktu kapanpun dan dimanapun. Hal ini menyebabkan data dokumen berita sangat banyak dan tidak teratur sehingga perlu dilakukan pengelompokan berita sesuai dengan kontennya. Pengelompokanberita sesuai content dapat membantu pembaca untuk membaca berita dengan topiktertentu sesuai dengan minatnya. Proses pengelompokan informasi berita diimplementasikan denganbeberapa tahap, yaitu preprocessing dan pengelompokan dokumen. Preprocessing dilakukan dengan mengimplementasikan metode kombinasi reduksi fitur Document Frequency (DF) dan Information Gain (IG) Thresholding dalamSingular Value Decomposition (SVD). Algoritme SVD dipilih karena memiliki kemampuan untuk melakukan dekomposisi pada matriks dokumen-term, sehingga diperoleh matriks yang masih menyimpan informasi penting dengan ukuran dimensi yang lebih kecil.Pada tahap pengelompokan dokumen berita dilakukandengan algoritme Fuzzy C-Means. Hasil uji coba akurasipengelompokan dokumen berita menunjukkan bahwa pengelompokan yang dilakukan memberikan hasil pengkategorian yang cukup akurat dengan tingkat akurasi rata-rata 74,5 % (IG threshold 0.5, k = 5). Hal tersebut menunjukkan bahwa pengelompokan dokumen menggunakan IG dan SVD dengan FUZZY C-MEANS adalah sesuai dengan kebutuhan.