STRATEGI RESAMPLING BERBASIS CENTROID UNTUK MENANGANI KETIDAKSEIMBANGAN KELAS PADA PREDIKSI CACAT PERANGKAT LUNAK
Abstract
Dataset yang digunakan pada penelitian prediksi cacat perangkat lunak umumnya
bersifat tidak seimbang, sehingga dapat menurunkan kinerja model prediksi cacat perangkat lunak. Ketidakseimbangan kelas dapat ditangani dengan dua pendekatan, yaitu pada aras data dan aras algoritma. Pendekatan aras data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan aras algoritma ditujukan untuk memperbaiki algoritma pengklasifikasi agar lebih sensitif terhadap kelas minoritas. Pada penelitian ini diusulkan pendekatan aras data dengan metode resampling yang menggunakan jarak terhadap centroid kelas minoritas sebagai dasar pemilihan data sampel baru. Algoritma klasifikasi yang digunakan adalah Naϊve Bayes. Hasil penelitian menunjukkan bahwa kombinasi
metode resampling baru dan Naïve Bayes, yang kemudian disebut dengan model
farCentro+NB merupakan model pendekatan yang lebih baik untuk memprediksi cacat perangkat lunak karena nilai Akurasi, Sensitivitas, Fmeasure, dan Area Under Curve (AUC) model farCentro+NB meningkat secara signifikan, sedangkan model RUS+NB tidak meningkat secara signifikan.
bersifat tidak seimbang, sehingga dapat menurunkan kinerja model prediksi cacat perangkat lunak. Ketidakseimbangan kelas dapat ditangani dengan dua pendekatan, yaitu pada aras data dan aras algoritma. Pendekatan aras data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan aras algoritma ditujukan untuk memperbaiki algoritma pengklasifikasi agar lebih sensitif terhadap kelas minoritas. Pada penelitian ini diusulkan pendekatan aras data dengan metode resampling yang menggunakan jarak terhadap centroid kelas minoritas sebagai dasar pemilihan data sampel baru. Algoritma klasifikasi yang digunakan adalah Naϊve Bayes. Hasil penelitian menunjukkan bahwa kombinasi
metode resampling baru dan Naïve Bayes, yang kemudian disebut dengan model
farCentro+NB merupakan model pendekatan yang lebih baik untuk memprediksi cacat perangkat lunak karena nilai Akurasi, Sensitivitas, Fmeasure, dan Area Under Curve (AUC) model farCentro+NB meningkat secara signifikan, sedangkan model RUS+NB tidak meningkat secara signifikan.
Keywords
Ketidakseimbangan Kelas; Klasifikasi; Resampling; Cacat; Perangkat Lunak