Veri madenciliği, büyük miktarda veriden bilginin çıkarılması veya madenciliği anlamına gelir. Başka bir deyişle, Veri madenciliği, yararlı kalıpları keşfetmek için büyük ve karmaşık veri kütlelerini keşfetme bilimi, sanatı ve teknolojisidir. Günümüzde büyük miktarda verinin depolandığı ve işlendiği hemen hemen her yerde veri madenciliği kullanılmaktadır.
Verilerden Bilgi Keşfinin Adımları
Verilerden bilgi keşfi verilerden yararlı bilgilerin çıkarılmasını içeren çok adımlı bir süreçtir.
Veri Seçimi
Verilerden bilgi keşfinin ilk adımıdır. Bu adım , analiz için ilgili verilerin seçilmesidir.
Verinin Ön İşlemesi
Farklı kaynaklardan elde edilen veriler farklı formatlarda olabilir, hata ve tutarsızlıklar içerebilir. Veriyi ön işleme adımı, verilerin analize uygun hale getirilmesi için temizlenmesini ve dönüştürülmesini içerir.
Veri Dönüşümü
Veriler ön işlemeden sonra analiz için daha anlamlı hale getirilmek üzere dönüştürülmeleri gerekebilir. Bu, verinin veri madenciliği algoritmalarına uygun bir forma dönüştürülmesini içerir.
Veri Madenciliği
Veri madenciliği adımı, verilerdeki kalıpları ve ilişkileri tanımlamak için çeşitli veri madenciliği tekniklerinin uygulanmasını içerir. Bu, verilere ve ele alınan soruna uygun uygun algoritmaların ve modellerin seçilmesini içerir.
Örüntü Değerlendirme
Veri madenciliği adımından sonra, verilerde tanımlanan örüntülerin ve ilişkilerin kullanışlılığının belirlenmesi için değerlendirilmesi gerekir. Bu, anlamlı olup olmadıklarını ve tahmin veya karar vermek için kullanılıp kullanılamayacaklarını belirlemek için kalıpların incelenmesini içerir.
Bilgi Temsili
Verilerde tanımlanan kalıpların ve ilişkilerin son kullanıcı için anlaşılır ve faydalı bir biçimde temsil edilmesi gerekir. Bu, sonuçların anlamlı ve karar vermek için kullanılabilecek bir şekilde sunulmasını içerir.
Bilginin İyileştirilmesi
Veri madenciliği sürecinden elde edilen bilginin kullanışlılığının arttırılması için daha da geliştirilmesi gerekebilir. Bu, sonuçların doğruluğunu ve kullanışlılığını geliştirmek için son kullanıcılardan gelen geri bildirimlerin kullanılmasını içerir.
Bilginin Yayılması
Verilerden bilgi keşfetme adımının son basamağı olan bilginin yayılması,analizden elde edilen bilginin son kullanıcılara yayılmasını içerir. Bu, sonuçların anlaşılması kolay ve karar vermek için kullanılabilecek bir şekilde sunulmasını içerir.
Veri Madenciliği Teknikleri
1.Birliktelik
Birliktelik analizi, belirli bir veri kümesinde sıklıkla ortaya çıkan nitelik-değer koşullarını gösteren birliktelik kurallarının bulunmasıdır. Birliktelik analizi, pazar sepeti veya işlem verileri analizi için yaygın olarak kullanılır. Birliktelik kuralı madenciliği, veri madenciliği araştırmalarının önemli ve son derece dinamik bir alanıdır.
2. Sınıflandırma
Sınıflandırma,sınıf etiketi bilinmeyen nesnelerin sınıfını tahmin etmek için kullanabilmek amacıyla, veri sınıflarını veya kavramları tanımlayan ve ayırt eden bir dizi model (veya işlev) bulma işlemidir. Belirlenen model, bir dizi eğitim veri bilgisinin (yani sınıf etiketi bilinen veri nesnelerinin) araştırılmasına bağlıdır. Türetilmiş model, sınıflandırma (eğer – öyleyse) kuralları, karar ağaçları ve sinir ağları gibi çeşitli biçimlerde temsil edilebilir.
3. Tahmin
Veri Tahmini, veri sınıflandırmasına benzer iki adımlı bir süreçtir. Ancak tahmin için "Sınıf etiketi özelliği" ifadesini kullanmıyoruz çünkü değerleri tahmin edilen özellik kategorik (ayrık değerli ve sırasız) yerine tutarlı bir şekilde değerleniyor (sıralanıyor). Nitelik basitçe tahmin edilen nitelik olarak adlandırılabilir.
4. Kümelenme
Sınıf etiketli veri nesnelerini veya niteliklerini analiz eden sınıflandırma ve tahminden farklı olarak kümeleme, veri nesnelerini tanımlanmış bir sınıf etiketine başvurmadan analiz eder. Genel olarak sınıf etiketleri, başlangıçta bilinmedikleri için eğitim verilerinde mevcut değildir. Bu etiketleri oluşturmak için kümeleme kullanılabilir. Nesneler, sınıf içi benzerliğin maksimuma çıkarılması ve sınıflar arası benzerliğin minimuma indirilmesi prensibine göre kümelenir.
Yani, nesne kümeleri, bir kümenin içindeki nesnelerin birbirleriyle kontrast olarak yüksek benzerliğe sahip olacağı, ancak diğer kümelerde farklı nesneler olacak şekilde oluşturulur. Oluşturulan her Küme, kuralların çıkarılabileceği bir nesne sınıfı olarak görülebilir. Kümeleme ayrıca sınıflandırma oluşumunu, yani gözlemlerin benzer olayları bir arada gruplandıran bir sınıflar hiyerarşisi halinde organize edilmesini de kolaylaştırabilir.
5. Regresyon
Regresyon, önceden elde edilen verilerin yeni gözlemler için sürekli bir niceliği tahmin etmek amacıyla kullanıldığı bir istatistiksel modelleme yöntemi olarak tanımlanabilir. Bu sınıflandırıcı aynı zamanda Sürekli Değer Sınıflandırıcısı olarak da bilinir. İki tür regresyon modeli vardır: Doğrusal regresyon ve çoklu doğrusal regresyon modelleri.
6. Yapay Sinir Ağı (YSA) Sınıflandırıcı Yöntemi
Sinir ağı, her bağlantının kendisiyle ilişkilendirilmiş bir ağırlığa sahip olduğu, birbirine bağlı giriş/çıkış birimleri kümesidir. Bilgi aşamasında ağ, girdi örneklerinin doğru sınıf etiketini tahmin edebilmek için ağırlıkları ayarlayarak elde eder. Sinir ağı öğrenmesi, birimler arasındaki bağlantılardan dolayı bağlantıcı öğrenme olarak da adlandırılır.
7. Aykırı Değer Tespiti
Bir veritabanı, verilerin genel davranışına veya modeline uymayan veri nesneleri içerebilir. Bu veri nesneleri Aykırı Değerlerdir. OUTLIER verilerinin araştırılması outlier madenciliği olarak da bilinir.
8) Genetik Algoritma
Genetik algoritmalar, evrimsel algoritmaların büyük bir kısmına ait olan uyarlanabilir sezgisel arama algoritmalarıdır.
Veri Madenciliğinin Avantajları veya Dezavantajları
Avantajları
Geliştirilmiş pazarı vardır
Verimliliği yüksektir
Dolandırıcılığa karşı önlemleri vardır
Müşteri kaybını engeller.
Hastalıkları önceden teşhiş edebilir.
Dezavantajları
Bulunan hassas veriler yanlış ellere geçebilir.
Mahramiyeti delebilir. Manipülatif şekilde kullanılabilir
Pahalıdır
Teknoljiye bağımlılığı artıttır.