naive bayes ve frekans ağırlıklandırma etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
naive bayes ve frekans ağırlıklandırma etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

25.1.11

Naive Bayes Sınıflandırma Algoritması


Naive Bayes algoritması sınıflandırıcı bir algoritmadır. Metin dökümanlarının sınıflandırılmasında yaygın olarak kullanılır. Uygulanabilirliği ve performansı ile ön plana çıkan bir algoritmadır. İstatistiksel yöntemler yardımı ile sınıflandırma yapar.

Naive Bayes algoritmasının uygulanmasında bir takım kabuller yapılır. Bunlardan en önemlisi niteliklerin birbirinden bağımsız olduğudur. Eğer nitelikler birbirini etkiliyorsa burada olasılık hesaplamak zordur. Niteliklerin hepsinin aynı derecede önemli olduğu kabul edilir.

Naive Bayes algoritması bit ağırlıklandırma yöntemi ile ve frekans ağırlıklandırma yöntemi ile kullanılabilir.

Naive Bayes algoritmasının bit ağırlıklandırma ile kullanımı:









Denklem 1








Denklem 2

Yukarıdaki denklemler ile d vektörünün cj kategorisinde olma olasılığı hesaplanır.

|V|: Sözlükteki kelime sayısı
Bjt: cj kategorisinde bulunan ve wt kelimesini içeren eğitim dokümanı sayısı
|Cj|: cj sınıfında bulunan eğitim dokümanı sayısı
Xt: Kelimenin ağırlığı(1veya0)







Denklem 3

Doküman, M(C) değeri en büyük olan kategoriye aittir.

Naive Bayes algoritmasının frekans ağırlıklandırma ile kullanımı:









Denklem 4







Denklem 5

d: Kategori Sayısı
Njt: j sınıfındaki dokümanlar için de t kelimesinin görülme sıklığı
Nj: j sınıfındaki toplam kelime sayısı
P(|d|): Kategori olasılığı
Xt: Kelimenin frekansı
|V|: Kelime sayısı

Daha sonra bir önceki hesaplamada olduğu gibi M(C) değerleri hesaplanır. Doküman, M(C) değeri en büyük olan kategoriye ait olarak belirlenir.

Doküman içindeki kelimelerin tekrar sayılarını hesaplarımızda kullanmanın multivariate naive bayes algoritmasına göre daha iyi çalıştığı bulunmuştur . Burada dikkat edilmesi gereken nokta  her  bir  kelimenin  tekrar  etme  sayısı  diğer kelimelerin  tekrar  etme  sayılarından bağımsızdır  (Schneider, 2004)

Aşağıdaki linkte örnek bir proje var incelenebilir. Ben de bitirme projemde spam maillerin tespitinde sınıflandırıcı algoritmalardan olan naive bayes'i de kullanmıştım, aşağıdaki örneği yeni buldum, bitirme projemi bitirmeden önce bulsaydım belki işler biraz daha kolay olurdu, olsun yine de problem yok ;)

Related Posts Plugin for WordPress, Blogger...