NAÏVE BAYES CLASSIFIER



Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis. Bayes Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.
Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis boolean tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan tersebut maka digunakan  Naïve  Bayes.
Naïve  Bayes  Classifier merupakan  sebuah  metoda klasifikasi  yang  berakar  pada  teorema  Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas  dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas  Bayes,  yaitu memprediksi  peluang  di  masa  depan  berdasarkan pengalaman di  masa sebelumnya  sehingga  dikenal  sebagai  Teorema  Bayes.  Ciri utama dari  Naïve Bayes Classifier ini adalah asumsi yang sangat kuat  (naïf)  akan  independensi  dari  masing-masing kondisi atau kejadian.
Menurut Olson dan Delen (2008)  menjelaskan  Naïve  Bayes untuk  setiap  kelas  keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma  ini  mengasumsikan  bahwa atribut  obyek  adalah  independen. Probabilitas  yang  terlibat  dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan.
The  Naive  Bayes  Classifier bekerja  sangat  baik  dibanding  dengan model classifierlainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification  of  Training  Web  Pages”  mengatakan  bahwa  “Naïve  Bayes Classifier memiliki tingkat akurasi yang lebih baik dibandingmodel classifier lainnya”.
Berikut ini skema yang sering digunakan dalam proses klasifikasi, yang tentunya juga menyertakan Naïve  Bayes Classifier.

 Apabila nilai  p di substitusi kedalam x yang bersifat independen tidak saling terkait, maka didapatkan formula baru sebagai berikut


Bila p(x|i) dapat diketahui melalui perhitungan diatas, maka kelas (label) dari data sampel X adalah kelas (label)  yang memiliki p(x|i) * p(i) maksimum.
Contoh perhitungan klasifikasi menggunakan Naïve Bayesian Classifier ditunjunkan dalam tabel berikut
   Hitung P(x|i) untuk setiap class i :
P(age=“<30” | buys_computer=“yes”) = 2/9=0.222
P(age=“<30” | buys_computer=“no”) = 3/5 =0.6
P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444
P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4
P(student=“yes” | buys_computer=“yes)= 6/9 =0.667
P(student=“yes” | buys_computer=“no”)= 1/5=0.2
P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4
Bila data baru yang belum memiliki class adalah:
X =(age<=30, Income=medium, Student=yes, Credit_rating= Fair)
Hitung P(x|i) untuk class ‘yes’ dan ‘no’:
P(X|buys_computer=“yes”) = 0.222 x 0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=“no”) = 0.6 x 0.4 x 0.2 x 0.4 =0.019
P(x|i) * P(i) :
P(x | buys_computer = ‘yes’) * P(buys_computer=’yes’)
= 0.044 * 0.667 = 0.029
P(x | buys_computer = ‘no’) * P(buys_computer=’no’)
= 0.019 * 0.4 = 0.007
Maka dapat disimpulkan X memiliki klas “buys_computer=yes” karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di atas.