veri madenciliği etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
veri madenciliği etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

27.2.11

Konulu Hadis Projesi ve Metin Madenciliği

Metin madenciliği tekniklerinin kullanılabileceği ve daha önce hiçbir araştırmacının üzerinde çalıştığını görmediğim bir alandan bahsetmek istiyorum.

Metin madenciliği algoritmaları hadislerin ve dini metinlerin üzerinde kullanılabilir. Araştırmacılara duyurulur..

(Not: Bu yazıyı Veri Madenciliği dersinden 4 üzerinde 2 almış bir öğrenci yazıyor, bilgilerinize. :) )

Diyanet işleri başkanlığının "Konulu Hadis Projesi" adı altında bir projesi var, bu proje yıllardan beri devam eden bir proje. 2011 Ramazan'ına yetiştirilmeye çalışılıyor diye biliyorum. Bu proje kapsamında yanlış bilmiyorsam 203000' e yakın hadis elektronik ortama aktarılıp sınıflandırılıyor ve hocalar tarafından açıklamaları yapılıyor. Bu hadisler konularına göre tasnif ediliyorlar. 105 kişilik bir çalışma grubu ile belirlenen 371 konu başlığı altında hadisler toplanıyor.

Bu proje içindeki dini metinler ve veritabanı veri madenciliği uygulamaları için son derece elverişli. Buradan bir değil, bir kaç bilimsel araştırma ve makale rahatlıkla çıkar. Neler yapılabilir diyecek olursak aklıma gelenleri kısaca yazayım:

1-) Hadisler sınıflandırma algoritmaları kullanılarak önceden belirlenen konulara göre sınıflandırılabilirler(di). Örneğin sınıflandırılmış 10-15 bin hadis bizim için öğrenme dökümanı(kümesi) olurdu, bu öğrenme kümesi kullanılarak geri kalan 190 bin civarında hadis bilgisayar yardımıyla konularına göre ayrılabilirdi. Elbette daha sonra, yapılan bu sınıflandırma işlemi yetkili ve yeterli kişiler tarafından gözden geçirilebilir, bu sayede son derece hassas bir konuda her şey bilgisayara bırakılmamış olur, öte yandan sınıflandırma işleminde zaman kazanılır.

2-) Hadislerin konuları belirlenirken veri madenciliğinin demetleme algoritmaları kullanılabilir. Bu demetleme algoritmaları ile hadisler tamamen kendi yapıları nasıl demetlenmeleri gerekiyorsa o şekilde demetlenebilirlerdi. Örneğin demetleme algoritmalarında kullanılacak çeşitli katsayılar değiştirilerek hadisler ister 10 ayrı demete, isterse 400 ayrı demete bölünebilir. Bu şekilde hadislerin konularına göre ayrılması işlemi yine hadislerin içindeki geçen kelimelerin sıklığı ve dağılımına göre bilgisayar tarafından otomatik olarak yapılabilir. Bu çalışma sonucunda ortaya çıkacak sonuç da ilim adamları için aydınlatıcı olabilir. Örneğin günün ihtiyaçlarına göre konu başlıkları belirlenirken bu çalışmanın sonuçlarından faydalanılabilir.

3-) Yine hadislerin demetleme algoritmalarına sokulmasının ardından sapan veriler(outliers) rahatlıkla tespit edilebilir. Bu sapan veriler diğer demetlenen hadislere oranla daha farklı hadisler olacaklardır ve aynı zamanda herhangi bir gruba yakınlık bakımından diğer hadislere göre daha zayıf hadisler olacaktır. İşte bu ulaşılan sonuç da din alimlerine hadislerin sıhhati ve sahihliğinin tespiti noktasında farklı bir bakış açısı getirebilir.

4-) Yaygın öğe setlerinin bulunduğu algoritmalar da yine bu alanda kullanılabilir. Bazı hadisler birden fazla muhaddisin kitabında yer alabilmektedir. Hadisler veri tabanından, birden fazla muhaddisin kitabında bulunan hadislerin hangi kitaplarda bulunduğu bilgileri alınır ve bunlarla yaygın öğe setleri bulunur. Bulunan bu yaygın öğe setleri üzerine uygulanacak ilişkilendirme algoritmaları ile aralarındaki ilişki ortaya konulur. Sonuç olarak A,B,C,D muhaddisler olsun, A>B,C ya da C,B>D gibi sonuçlar elde edilecektir. Burada A>B,C sonucunun anlamı bizim için; "bir hadis A kitabında geçiyorsa büyük ihtimalle B ve C kitaplarında da geçiyordur" demek olacak. Aynı şekilde C,B>D sonucunun anlamı da bizim için; bir hadis C ve B kitaplarında birlikte geçiyorsa büyük ihtimalle D kitabında da geçiyordur olacak. Şöyle bir sonuca da ulaşılabilirdi: F>G, yani "bir hadis F kitabında geçiyorsa G kitabında da büyük ihtimalle geçiyordur". Eğer F ve G kitaplarının yazarları aynı zamanda ve aynı yerde yaşamışlarsa bu sonuç çok da şaşırtıcı olmaz. Ancak bizim için asıl kıymetli olan F ve G yazarlarının aynı zamanda ve aynı yerde yaşamadıkları halde aynı hadisin kitaplarında geçmesi olacaktır. Bu durumun, hadisin doğruluk oranının belirlenmesi noktasında son derece önemli olduğunu düşünüyorum. 

Bu çalışmanın bir başka faydası da şu yönde olacaktır. Örneğin hadisler üzerine çalışan bir bilim adamı A ve B kitapları üzerinde çalışmışsa ve üzerinde çalışacağı bir sonraki hadis kitabının ne olacağı üzerinde düşünüyorsa yukarıda anlattığım çalışma ile çıkartılacak kurallar hocanın işine yarayabilir. Örneğin A,B>C şeklinde bir kuralımız varsa hocamız buna bakarak C kitabı üzerinde çalışma yapmaktan (daha önce üzerinde çalıştığı kitaplarda benzer hadisler olduğundan) vazgeçebilir ve başka bir alternatife yönelebilir. 

Dini metinler üzerinde metin madenciliği konusunun araştırmaya açık bir alan olduğunu düşünüyorum. Bir bilgisayarcı ile bir ilahiyatçı ortak çalışırsa son derece güzel sonuçlara ulaşılabilir...


25.1.11

Naive Bayes Sınıflandırma Algoritması


Naive Bayes algoritması sınıflandırıcı bir algoritmadır. Metin dökümanlarının sınıflandırılmasında yaygın olarak kullanılır. Uygulanabilirliği ve performansı ile ön plana çıkan bir algoritmadır. İstatistiksel yöntemler yardımı ile sınıflandırma yapar.

Naive Bayes algoritmasının uygulanmasında bir takım kabuller yapılır. Bunlardan en önemlisi niteliklerin birbirinden bağımsız olduğudur. Eğer nitelikler birbirini etkiliyorsa burada olasılık hesaplamak zordur. Niteliklerin hepsinin aynı derecede önemli olduğu kabul edilir.

Naive Bayes algoritması bit ağırlıklandırma yöntemi ile ve frekans ağırlıklandırma yöntemi ile kullanılabilir.

Naive Bayes algoritmasının bit ağırlıklandırma ile kullanımı:









Denklem 1








Denklem 2

Yukarıdaki denklemler ile d vektörünün cj kategorisinde olma olasılığı hesaplanır.

|V|: Sözlükteki kelime sayısı
Bjt: cj kategorisinde bulunan ve wt kelimesini içeren eğitim dokümanı sayısı
|Cj|: cj sınıfında bulunan eğitim dokümanı sayısı
Xt: Kelimenin ağırlığı(1veya0)







Denklem 3

Doküman, M(C) değeri en büyük olan kategoriye aittir.

Naive Bayes algoritmasının frekans ağırlıklandırma ile kullanımı:









Denklem 4







Denklem 5

d: Kategori Sayısı
Njt: j sınıfındaki dokümanlar için de t kelimesinin görülme sıklığı
Nj: j sınıfındaki toplam kelime sayısı
P(|d|): Kategori olasılığı
Xt: Kelimenin frekansı
|V|: Kelime sayısı

Daha sonra bir önceki hesaplamada olduğu gibi M(C) değerleri hesaplanır. Doküman, M(C) değeri en büyük olan kategoriye ait olarak belirlenir.

Doküman içindeki kelimelerin tekrar sayılarını hesaplarımızda kullanmanın multivariate naive bayes algoritmasına göre daha iyi çalıştığı bulunmuştur . Burada dikkat edilmesi gereken nokta  her  bir  kelimenin  tekrar  etme  sayısı  diğer kelimelerin  tekrar  etme  sayılarından bağımsızdır  (Schneider, 2004)

Aşağıdaki linkte örnek bir proje var incelenebilir. Ben de bitirme projemde spam maillerin tespitinde sınıflandırıcı algoritmalardan olan naive bayes'i de kullanmıştım, aşağıdaki örneği yeni buldum, bitirme projemi bitirmeden önce bulsaydım belki işler biraz daha kolay olurdu, olsun yine de problem yok ;)

5.10.10

Bazı Sektörlerde Veri Madenciliği

FİNANS SEKTÖRÜNDE VERİ MADENCİLİĞİ
            Veri madenciliğinin en yaygın kullanıldığı sektörlerden biri finans sektörü diyebiliriz. Gerek bankacılık gerekse sigortacılık faaliyetlerinde geniş uygulama alanı vardır. Günümüzde bankalar müşterilerine ait bir çok bilgiyi veri tabanlarında tutmaktalar. Bu veri tabanlarındaki bilgileri kullanarak yaptıkları veri madenciliği ile yeni kampanyalar oluşturabilmekteler. Bu sayede müşteri memnuniyetinin arttırılması hedeflenmektedir. Diğer taraftan yapılan kredi başvurularının risk analizlerinde de veri madenciliği kullanılır. Örneğin bir müşteri bankaya kredi kullanmak için başvurduğunda o müşteriye ait veriler içinde yapılan veri madenciliği ile müşteriye kredinin verilip verilemeyeceği tespit edilebilir. Bunların yanında veri madenciliğini finans sektörüne getirdiği artılardan bir tanesi de hızlı hizmet sağlama imkanı doğurmasıdır. Örneğin cep telefonundan TC kimlik numaranı mesaj atıyorsun, 5 dakika içinde kredi alıp alamayacağın, alabiliyorsan ne kadar alabileceğin sana bildiriliyor. Tüm bu hizmetler veri madenciliği uygulamaları kullanılarak gerçekleştiriliyor. Aynı şekilde sigorta şirketleri de müşterilerinin risk değerlerini veri madenciliği teknikleriyle tahmin edebiliyorlar. Borsada işlem gören hisse senetlerinin gelecekte izleyecekleri rota da önceki verilere bakılarak tahmin edilebilmektedir. Hisse senedi işlemleri de veri madenciliğinin uygulama alanına girer.

PAZARLAMA SEKTÖRÜNDE VERİ MADENCİLİĞİ
            Veri madenciliği pazarlama sektöründe de çok geniş kullanım alanına sahiptir. Özellikle büyük marketler kampanyalarında ve fiyat belirleme politikalarında veri madenciliğinden faydalanırlar. Örneğin bir market belli ürünlerde indirime gittiğinde karını düşürmemek için diğer ürünlerde fiyat artışına gidebilmektedir. Genellikle marketin fiyat artışına gittiği ürünler, fiyat indirimine gittiği ürünlerle birlikte alınan ürünler olmaktadır. İşte bu noktada veri madenciliği devreye girmektedir. Hangi ürünün hangi ürünle alındığının tespiti günümüzde veri madenciliği yöntemleriyle mümkündür. Diğer taraftan market müşterilerine özel kampanya yapmak istediğinde de o müşterisinin alışveriş alışkanlıklarını veri madenciliği kullanarak tespit edebilir ve bu sayede kişiye özel kampanyalar geliştirebilir. Ayrıca ürünlerin market raflarında dizilme şekli de yine veri madenciliği ile belirlenebilir. Market için birlikte satılan ürünleri yan yana koymak akıllıca bir davranış olacaktır. bir ürünü alan müşteri yakınındaki diğer ürünü de alma eğilimine girdiğinde aradığı ürünün göz hizasında olması o ürünü de almasını sağlayabilir. Pazarlama sektöründe yapılan kampanyaların başarı ve geri dönüş oranlarının hesaplanmasında da veri madenciliği tekniklerinden faydalanılır.

SAĞLIK SEKTÖRÜNDE VERİ MADENCİLİĞİ
Bilgisayarlar hasta bakım hizmetlerinin destekleme, sağlık bakım hizmetlerinin kalitesinin değerlendirilmesi gibi doğrudan sağlık bakım hizmetlerinin sunulmasında kullanılmasının yanı sıra, karar verme, yönetim, planlama ve tıbbi araştırmalar gibi yönetsel ve akademik fonksiyonların yerine getirilmesinde daha fazla kullanılmaya başlanılmıştır. Tıp alanında bulunan mevcut veri oldukça fazla ve hayati öneme sahiptir.  Hastane bilgi sistemleri sayesinde bu veriler düzenli olarak tutulmaktadır. Hayati öneme sahip olan bu verilerden daha fazla yaralanmak mümkündür. Hastane Bilgi sistemlerinden veya diğer tıbbi veri toplayan sistemlerden alınan veriler üzerinde yapılan veri madenciliği çalışmaları hem uzmanlar için hem hastane yönetimi için hem de hastaların daha kaliteli bir hizmet almalarında etkin rol alabilir.

HABERLEŞME SEKTÖRÜNDE VERİ MADENCİLİĞİ
Telekom sektöründe özellikle de ülkemizde yüksek rekabet yaşanmaktadır. Bu da firmaları sürekli olarak müşteri kaybetme riskiyle karşı karşıya bırakmaktadır. Firmalar da müşterilerini kaybetmemek için veri madenciliğinden yararlanırlar. Kaybetme olasılıklarının yüksek olduğu müşterilerini belirleyip onlara özel fırsatlar sunabilirler. Kaybetme olasılıklarının düşük olduğu müşterilerine ise bu şekilde kampanyalar sunmayarak kar marjlarını yüksek tutmaya çalışırlar. Ayrıca pazarda kendilerini öne çıkaracak kampanyaları da oluştururken veri madenciliğinden yararlanırlar. Örneğin öğrencilerin konuşma alışkanlıklarını belirlerler ve öğrencilere özel kampanya düzenlediklerinde bu bilgilerden yararlanırlar.

                                                                                                                                     M.Ali

4.10.10

Veri Madenciliği (Data Mining)

Günümüzde bilgisayarlar ucuzlamakta ve günden güne daha yaygın kullanılmaktadır. Bunun sonucu olarak da bilgisayarlarla işlenen verilerin büyüklüğü her geçen gün artmaktadır. Bu veri yığınlarından anlamlı bilgilerin çıkartılması bu noktada önem kazanan bir olgudur. İçinden bizim için anlam ifade eden bilgiyi çıkartmadığımız sürece büyük data yığınları bizim için anlam ifade etmezler. Bu iş günümüzde veri madenciliği ile yapılmaktadır.



VERİ MADENCİLİĞİ NEDİR?

Büyük veritabanlarından gizli kalmış örüntüleri çıkarma sürecine veri madenciliği adı verilmektedir. Geleneksel yöntemler kullanılarak çözülmesi çok zaman olan problemlere veri madenciliği süreci kullanılarak daha hızlı bir şekilde çözüm bulunabilir. Veri madenciliğinin ana amacı elimizde bulunan veriden gizli kalmış örüntüleri (patterns) çıkarmak, elimizdeki verinin değerini arttırmak ve veriyi bilgiye dönüştürmektir.

VERİ MADENCİLİĞİ UYGULAMA ALANLARI

•  Bankacılık:

·         Risk analizleri ve usulsüzlük tespiti,
·          Farklı finansal göstergeler arasında gizli korelasyonların bulunması,
·          Kredi kartı dolandırıcılıklarının tespiti,
·          Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,
·          Kredi taleplerinin değerlendirilmesi.

•  Pazarlama:
  •   Çapraz satış analizleri,
  • -Müşteri segmentasyonu,
  •  Pazar Araştırması;
o   Hedef pazar araştırması,
o   Müşteriler arası benzerliklerin bulunması.
  • Müşterilerin satın alma örüntülerinin belirlenmesi;

o   - Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması,
o   - Posta kampanyalarında cevap verme oranının artırılması,
o   - Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması,
o   - Pazar sepeti analizi (Market Basket Analysis),
o   - Müşteri ilişkileri yönetimi (Customer Relationship Management),
o   - Müşteri değerlendirme (Customer Value Analysis),
o   - Satış tahmini (Sales Forecasting).

•  Sigortacılık:
  • Müşteri kaybı sebeplerinin belirlenmesi,
  •  Usulsüzlüklerin önlenmesi,
  • Yeni poliçe talep edecek müşterilerin tahmin edilmesi,
  • Sigorta dolandırıcılıklarının tespiti,
  •  Riskli müşteri örüntülerinin belirlenmesi.
•  Telekomünikasyon:
  • Hile tespiti,
  • Hatların yoğunluk tahminleri.
•  Borsa:
  •    Hisse senedi fiyat tahmini,
  •   Genel piyasa analizleri.
•  Tıp:
·         Tıbbi teşhis,
·         Uygun tedavi sürecinin belirlenmesi.

•  Bilim ve Mühendislik:
  • Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi,
  •   DGA(dissolved gas analysis),
  • Trafik analizi
  •  DNA analizi[4]
•  Endüstri:
  •   Kalite kontrol
  •  Lojistik.
  •   Veri tabanı analizi ve karar verme desteği
  •  Risk Analizi : Kalite kontrol, rekabet analizi, öngörü, sahtekarlıkların saptanması
  • Belgeler arası benzerlik : haber kümeleri, e-posta
  • Müşteri kredi risk araştırmaları
  • Kurum kaynaklarının en optimal biçimde kullanımı
  • Geçmiş ve mevcut yapı analiz edilerek geleceğe yönelik tahminlerde bulunma.


Related Posts Plugin for WordPress, Blogger...