6.12.10

K-NN Algoritması

Arkadaşlar bitirme projesinde bu algoritmayı kullandık, aşağıdaki yazı da bitirme projemin ara raporunda kullandığım, son raporda da kullanacağım bir yazıdır, Oktay Hoca'dan proje alan arkadaşların yazıyı raporlarında kullanmamasını rica ediyorum. 

Bu algoritmayı C#'da kodladık, ileride kısaca kodları da paylaşmak istiyorum. Umarım faydalı olur..
K-NN (En Yakın Komşuluk) Algoritması

KNN, eğitimli öğrenme algoritmasıdır ve amacı, yeni bir örnek geldiğinde varolan öğrenme verisi üzerinde sınıflandırma yapmaktır. Algoritma, yeni bir örnek geldiğinde, onun en yakın K komşusuna bakarak örneğin sınıfına karar verir. [1]

Bu algoritma ile yeni bir vektörü sınıflandırabilmek için doküman vektörü ve eğitim dokümanları vektörleri kullanılır. Tüm eğitim dökümanları ve kategorisi belirlenecek olan doküman vektörel olarak ifade edildikten sonra bu vektörler K-NN algoritması ile karşılaştırılırlar. 

Kategorisi belirlenmek istenen metnin vektörü, öğrenme kümesindeki metinlerin vektörleri ile karşılaştırılır. 

K-NN algoritmasında terim ağırlıklandırma için 3 çeşit yöntem kullanılabilir.
1-Bit ağırlıklandırma yöntemi,
2-Frekans ağırlıklandırma yöntemi,
3-Tf-IDF ağırlıklandırma yöntemi.

Algoritma En yakın komşuluk prensibine dayanır. Tüm dokümanlar vektörel olarak temsil edilir. Sorgu dokümanı ile diğer dokümanlar arasındaki cosinüs benzerliği hesaplanır. Benzerlik oranı 1’e en yakın olan n tane vektörün kategorisinden çok olanı dokümana atanır.
Uygulamada K-NN algoritmasının kullanılmasındaki nedenler aşağıdaki gibi sıralanabilir:
Uygulanabilirliği basit bir algoritma olması.
Gürültülü eğitim dokümanlarına karşı dirençli olması.
Eğitim dokümanları sayısı fazla ise etkili olması
Bu metot ölçeklendirilebilir bir metottur ve çok geniş veritabanları üzerinde de uygulanabilir.[4]

Her bir kelime vektörel uzayda bir boyuta karşılık gelmektedir. Her bir metin bu sayede vektörel uzayda ifade edilebilmektedir. K-NN algoritması ile vektörel uzayda bu metinlerin birbirlerine ne kadar benzedikleri tespit edilebilir. Bir başka ifadeyle birbirine en yakın metinler bulunabilir.

 Şekil 1  İki Boyutlu Vektör Uzayı

Yukarıdaki şekilde iki kelimeden oluşan bir ortak sözlüğe sahip dört metnin vektörel uzayda ifadesi gösterilmiştir. Eğer sözlük üç kelimeden oluşsaydı grafiğimiz de üç boyutlu olacaktı. Burada d1, d2 ve d3 eğitim dokümanlarımızdan oluşan vektörler, q ise sınıfını bulmak istediğimiz dökümanın vektörüdür.

Q dökümanının d1, d2 ve d3 eğitim dokümanlarından hangisine daha fazla benzediğini bulmak için aralarındaki açının cosinüs değerine bakılır. Aralarındaki açı ne kadar küçükse elde edilen cos(açı) değeri o kadar 1’e yakın olacaktır. Elde edilen değerin 1’e yakın olması, iki dökümanın birbirine ne kadar benzediğini ifade eder. 

Örneğin yukarıdaki örnekte q ile d2 arasındaki açı en küçüktür. Bu nedenle de q dökümanının en yakın olduğu doküman d2 dökümanıdır. Aralarındaki açının cosinüs degeri de 1’e yakın bir değer olarak karşımıza çıkmaktadır.

K-NN algoritmasında temel olarak aşağıdaki adımlar gerçekleştirilir:
1. K değerinin belirlenmesi.
2. Tüm öğrenme örnekleri ile olan uzaklığının hesaplanması.
3. Minimum uzaklıkğa göre sıralama işleminin yapılması.
4. Ait oldukları sınıf değerlerinin bulunması.
5. Değeri baskın olan sınıfın seçilmesi.

Burada k değerinin belirlenmesi, bize en yakın kaç vektöre bakılması gerektiğini ifade etmektedir. Örneğin k değerimiz 3 olsun. Bu durumda öğrenme kümesindeki dökümanlardan en yakın 3 tanesi alınarak dökümanın hangi sınıfa ait olduğuna karar verilir. Örneğin aşağıdaki gibi iki boyutlu kordinat sistemine yerleştirilmiş örneklerimiz olsun.

 
Şekil 2 Örnekler[2]

Yukarıdaki örneklerden maviye mi yoksa kırmızıya mı benzediğini tespit etmemiz gereken bir de yeşil örneğimiz olsun.

 
Şekil 3 Örnekler ve Sınıflandırılacak Veri[2]

K değerimizi 3 aldığımızdan yeşil örneğe en yakın olan 3 örneğe bakarız. K değeri 4 olsaydı en yakın 4 örneğe bakacaktık.

 
Şekil 4 En Yakın Üç Komşu[2]

En yakın 3 örnekten 2 tanesi kırmızı olduğundan yeşil örnek için de kırmızı sınıfına aittir diyebiliriz.

K-NN algoritmasında benzerlik hesabı aşağıdaki formülden yararlanılarak yapılabilir.

Denklem 1: K-NN Denklemi[4]
 

Yukarıdaki formülde: Wij terimin doküman içerisindeki ağırlığı, di eğitim dokümanı vektörüdür. q ise kategorisi bulunması istenen vektördür.

Kaynaklar

1.     http://ab.org.tr/ab08/bildiri/71.pdf (Erişim Tarihi: Kasım 2010)
3.     P. Hall; B. U. Park; R. J. Samworth (2008). "Choice of neighbor order in nearest-neighbor classification".
4.   http://www.metinmadenciligi.com/kaynaklar/mm1.pdf (Erişim Tarihi: Kasım 2010)


5.12.10

Hadis Veritabanı


Hadis Programı başlıklı yazımda bahsettiğim hadis veritabanını aşağıdaki linkten indirebilirsiniz. Veritabanını www.muhaddis.org adresinden txt formatında aldım, aşağıdan indirebileceğiniz dosyada bu txt orjinal formatı da var. Bir de txt formatı access formatına çevirdim, bunu da dosyaya ekledim.

Bu veri tabanı Kütüb-i Sitte hadislerini içermektedir. Veritabanında hadis metninin yanında, fasıl, konu, ravi gibi bilgilerin bulunduğu alanlar da mevcuttur.


Kütüb-i Sitte: Altı Kitap anlamına gelmektedir. Altı sahih hadis kitabı, hadis kitapları içinde en sahihleri olarak kabul edilir. Bunlar: Buhârî ve Müslim'in el-Câmiu's-Sahih'leri ile Ebu Davud, Tirmizi, Nesâî ve ibn Mâce'nin Sünen'leridir. Hadis tasnifinin altın çağı olan Hicrî üçüncü yüzyılda hazırlanmıştır. Mümkün mertebe sahih hadisleri içerirler. 


Hadis ilimleri ile ilgili bir yazıyı buradan okuyabilirsiniz.

Hadis Veritabanını(access ve txt formatlarında) buradan indirebilirsiniz. (Hadis Veritabanı indir.)

Google'da hadis veritabanı olarak aratıldığında insanların veritabanına daha rahat ulaşabilmeleri için bu şekilde bir yazıyla siteme eklemek istedim, umarım faydalı olur, hayırlara vesile olur.



4.12.10

Yılbaşı Gecesinin Talihsiz Talihlisi

Yılbaşı gecesinin en talihsiz kişilerinden birini açıklıyorum, hem de haftalar öncesinden. Bu kişi öyle bir kişi ki, bilmeden sırtına o gece çok ağır bir yük yüklenecek. Bu yükün ağırlığını ölçen bir tartı da (zannediyorum) bu dünyada yok.

2009 - 2010 sezonunda Fenerbahçe son maçta şampiyonluğu kazandığını zannederek seviniyordu. Talihsiz kişi de kazandığını zannedecek, sevinecek. Belki havalara uçacak, Fenerbahçeliler gibi timsah yürüyüşü yapacak. Ama tüm sevinci boşuna. Çok kısa bir zaman sonra, o yükün ağırlığını ölçen bir terazinin karşısında kendisini bulduğunda, kaybettiklerini anlayacak. Ve diyecek ki; yanlış anons yapmışlar. Ben aslında kazanmamışım, kaybetmişim, yazıklar olsun bana. Bir de o kadar sevinmişim ağlanacak halime.


Ne acı. Yılbaşındaki talihsiz insanın durumu, Sülün Osman’ın Galata Köprüsü’nü sattığı adamınkinden bile kötü. Her ikisi de başta çok karlı bir ticaret yaptığını, az bir karşılığa çok şey kazandığını zanneder. Ancak gerçek açıkça belirdiğinde, neyin ne olduğu kalplerde şüpheye yer kalmayacak şekilde görüldüğünde, her ikisi de aslında satın aldıkları şeyin ne olduğunu anlarlar. Birisi sadece bir hayali satın almıştır, hayal kırıklığı da hayalin yanında hediyesi olarak gelmiştir. Diğeri ise dağlar kadar, milyonlarca YTL günahı satın almıştır, hediyesi ise çetin bir azaptır. (Allah dilerse affeder ancak affetmezse; kumar Allah’ın yasakladığı bir iştir ve Allah’ın, emirlerini dinlemeyenlere vaadi açıktır.)

Bir de o talihsiz kişi olmak için sırada bekleyenler var.

Yılbaşında asıl talihli kişiler; ikramiye çıkıp da kazandığını zannedenler değil, Allah’ın merhameti ile hiçbir ikramiye kazanamayanlardır. Bunların zararı yalnızca bilete verdikleri paradır. O gözlerine görünmeyen az miktardaki paraya da sonradan çok üzülecekler, o ayrı. Ancak ikramiyenin çıkması durumuna göre izafi olarak daha şanslıdırlar. Bunlardan da şanslısı (gösteriş için yapmadıkları sürece) bilet almayıp bu işten uzak duranlar ve yakınlarını sakındıranlardır.

Yılbaşına az bir zaman kala bilet kuyruğunda bekleyen talihsize yaklaşıp röportaj yapan muhabir “kazanırsanız ne yapacaksınız?” diye sorduğunda talihsizin cevabı: “bir kısmıyla hayır yapacağım” olur. Ve bunu öyle bir söyler ki, zannedersin elinin emeğiyle hayır yapıyor. Paranın tamamını bağışlasa, yine de helal kazanılmış 1 kuruşun bağışlanması gibi olmaz, olamaz. Ancak vatandaş bunu unutarak ya da bilmeyerek kendince, kendi çapında lütufta bulunuyor, yapacağı bağışla kendini aklayacağını zannediyor.



Piyangodan çıkan paranın haram olduğu gibi, piyango bileti almak da haramdır.(Kaynak: İslam Fıkhı Ansiklopedisi) (Bakın: Prof. Dr. Hayrettin Karaman)


Gelin biz kaybedeblerden olmayalım. Medyanın gazına gelip koşarak piyango bileti almaya gitmeyelim. Herkesin yaptığı şeyi, babalarımızdan gördüğümüz şeyi yapmayalım. Milli Piyango bileti almayalım, yakınlarımıza da aldırmayalım. 
Related Posts Plugin for WordPress, Blogger...