Teorema Bayes adalah teorema yang
digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis. Bayes
Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing
kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.
Pengklasifikasian menggunakan
Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu prosessor dan
ukuran memory yang besar) karena kebutuhan untuk menghitung nilai probabilitas
untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap
nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian
kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan ada 16
atribut yang masing-masingnya berjenis boolean tanpa missing value, maka data
latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam
klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan
tersebut maka digunakan Naïve Bayes.
Naïve Bayes
Classifier merupakan sebuah metoda klasifikasi yang
berakar pada teorema
Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris
Thomas Bayes, yaitu memprediksi peluang
di masa depan
berdasarkan pengalaman di masa sebelumnya sehingga
dikenal sebagai Teorema
Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang
sangat kuat (naïf) akan
independensi dari masing-masing kondisi atau kejadian.
Menurut Olson dan Delen (2008) menjelaskan
Naïve Bayes untuk setiap
kelas keputusan, menghitung
probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor
informasi obyek. Algoritma ini mengasumsikan
bahwa atribut obyek adalah
independen. Probabilitas
yang terlibat dalam memproduksi perkiraan akhir dihitung
sebagai jumlah frekuensi dari "master" tabel keputusan.
The
Naive Bayes Classifier bekerja sangat
baik dibanding dengan model classifierlainnya. Hal ini
dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs.
Decision Trees vs. Neural Networks in the Classification of
Training Web Pages”
mengatakan bahwa “Naïve
Bayes Classifier memiliki tingkat akurasi yang lebih baik dibandingmodel
classifier lainnya”.
Berikut ini skema yang sering digunakan
dalam proses klasifikasi, yang tentunya juga menyertakan Naïve Bayes Classifier.
Apabila nilai p
di substitusi kedalam x yang bersifat
independen tidak saling terkait, maka didapatkan formula baru sebagai berikut
Bila p(x|i) dapat diketahui melalui perhitungan diatas, maka kelas
(label) dari data sampel X adalah
kelas (label) yang memiliki p(x|i) * p(i) maksimum.
Contoh perhitungan
klasifikasi menggunakan Naïve Bayesian Classifier ditunjunkan dalam tabel
berikut
Hitung
P(x|i) untuk setiap class i :
P(age=“<30” | buys_computer=“yes”) =
2/9=0.222
P(age=“<30” | buys_computer=“no”) =
3/5 =0.6
P(income=“medium” |
buys_computer=“yes”)= 4/9 =0.444
P(income=“medium” | buys_computer=“no”)
= 2/5 = 0.4
P(student=“yes” | buys_computer=“yes)=
6/9 =0.667
P(student=“yes” | buys_computer=“no”)=
1/5=0.2
P(credit_rating=“fair” |
buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair” |
buys_computer=“no”)=2/5=0.4
Bila
data baru yang belum memiliki class adalah:
X =(age<=30, Income=medium, Student=yes,
Credit_rating= Fair)
Hitung P(x|i) untuk class ‘yes’ dan
‘no’:
P(X|buys_computer=“yes”) = 0.222 x
0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=“no”) = 0.6 x 0.4 x
0.2 x 0.4 =0.019
P(x|i) * P(i) :
P(x | buys_computer = ‘yes’) *
P(buys_computer=’yes’)
= 0.044 * 0.667 = 0.029
P(x | buys_computer = ‘no’) *
P(buys_computer=’no’)
= 0.019 * 0.4 = 0.007
Maka dapat disimpulkan X memiliki klas “buys_computer=yes”
karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di
atas.