STRATEGI RESAMPLING BERBASIS CENTROID UNTUK MENANGANI KETIDAKSEIMBANGAN KELAS PADA PREDIKSI CACAT PERANGKAT LUNAK

Utomo Pujianto

Abstract


Dataset yang digunakan pada penelitian prediksi cacat perangkat lunak umumnya
bersifat tidak seimbang, sehingga dapat menurunkan kinerja model prediksi cacat perangkat lunak. Ketidakseimbangan kelas dapat ditangani dengan dua pendekatan, yaitu pada aras data dan aras algoritma. Pendekatan aras data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan aras algoritma ditujukan untuk memperbaiki algoritma pengklasifikasi agar lebih sensitif terhadap kelas minoritas. Pada penelitian ini diusulkan pendekatan aras data dengan metode resampling yang menggunakan jarak terhadap centroid kelas minoritas sebagai dasar pemilihan data sampel baru. Algoritma klasifikasi yang digunakan adalah Naϊve Bayes. Hasil penelitian menunjukkan bahwa kombinasi
metode resampling baru dan Naïve Bayes, yang kemudian disebut dengan model
farCentro+NB merupakan model pendekatan yang lebih baik untuk memprediksi cacat perangkat lunak karena nilai Akurasi, Sensitivitas, Fmeasure, dan Area Under Curve (AUC) model farCentro+NB meningkat secara signifikan, sedangkan model RUS+NB tidak meningkat secara signifikan.

Keywords


Ketidakseimbangan Kelas; Klasifikasi; Resampling; Cacat; Perangkat Lunak

Full Text:

PDF