Python ile Veri Ön İşleme Nedir?

H3llC0me

Üye
17 May 2018
63
1
Merhaba, bu yazımda Python ile Veri Ön İşlemenin ne olduğunu anlatacağım.

Öncelikle temelden başlayalım.

Veri Nedir?

“Veri, ham gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.”

Veri Ön İşleme Nedir?

Veri Ön İşleme temel anlamda;
Elimizde bulunan milyonlarca verinin anlamlandırılıp temiz bir sonuç çıkarılabilmesi adına yapılan işlemdir.

Veri Ön İşleme yapılırken uygulanacak belli başlı yöntemler vardır ve bu yöntemler daha hızlı ve güvenli sonuç almamıza yardımcı olabilir.

- Veri Temizleme
- Veri Birleştirme
- Veri İndirgeme

Veri Temizleme Nedir?

Veri Madenciliği sonrası elimizdeki verileri derleme işlemi yaparken bulduğumuz veri yığınında yanlış veya tutarsız veriler olabilir. Bu durumda temizleme işlemleri için aşağıdaki adımlar kullanılabilir.

- Eksik veya hatalı kayıtlar kaldırılabilir.
- Gürültülü verilerin arındırılması
- NaN veya Null verilerin temizlenmesi ya da duruma göre doldurulması.

Not: Gürültülü veri nedir bilmeyenler için;

Yanlış veriler bütününe gürültü denir.
Ne kadar gürültülü veri var ise veriler güvenilirliğini o kadar kaybeder.

Veri Birleştirme Nedir?

Veri madenciliğinde elimizde tek bir veri tabanı olmayabilir ve elimizdeki birden fazla veri tabanını (veya CSV dosyası) birleştirmek isteyebiliriz. Bunun bize getirisi ise veri bütünlüğü sağlamak ve her bir veri tabanında veri ön işleme aşamalarını tekrar tekrar yapmak yerine tek bir seferde tamamlamak olacaktır.

Veri İndirgeme Nedir?

Veri indirgeme tekniği elimizdeki verinin (CSV dosyası ya da veri tabanı) boyutunun düşürülmesi ya da birden fazla veri tabanı veya CSV dosyasının birleştirtilmesi ya da sıkıştırılması gibi adımlara denir.

Python'da Veri Ön İşleme Nasıl Yapılır?

Gelelim asıl konumuza. Python ile Veri Ön İşleme nasıl yapabiliriz?

Öncelikle Bilgisayarımızda Python kurulu olması gerekiyor.

Python kurulu ise herhangi bir IDE açılarak kodlama işlemine geçilebilir.

Python dosyamızı oluşturduktan sonra hemen gerekli kütüphaneleri import ediyoruz.

Kod:
import numpy as np
import pandas as pd

Not: Bu kütüphaneler bilgisayarınızda kurulu değilse cmd ekranını açıp aşağıdaki komutları yazarak kurabilirsiniz.

Kod:
pip numpy install
pip pandas install

Kütüphaneleri import ettikten sonra artık elimizde bulunan veri dosyasını işlememiz adına içeri aktarabiliriz.

Kod:
data1 = pd.read_csv(“veridosyasi.csv”)

Artık veri dosyamızdaki verileri işleyebiliriz.

Tekrarlanmış Verileri Temizlemek;

Aşağıdaki komut, veri dosyanızdaki tekrarlanan tüm verileri temizler.

Kod:
data1.drop_duplicates()

Veri Setlerini Birleştirmek;

Birden fazla veri dosyanız var ise bu yol ile birleştirebilmeniz mümkün.

Kod:
df = pd.contact([data1,data2])

Tüm bu kodların topluca hali ise aşağıdaki gibidir.

oCepix.jpg


Bu yazımda temel anlamda Veri Ön İşleme ’den ve Python’da Veri Ön İşleme’nin nasıl yapılacağından bahsettim.

Sorularınız ve önerileriniz için tarafıma ulaşabilirsiniz.

Sağlıklı Günler.
 
Son düzenleme:

TebriZz

Üye
7 Nis 2020
152
1
İskenderun
Elinize sağlık , keşke konuyu biraz daha derinleştirseydiniz yani encoding , sklearncrossvalidation , feature scalingi de anlatsaydınız :)
 

H3llC0me

Üye
17 May 2018
63
1
Değerli yorumlarınız için teşekkürler, ilerleyen zamanlarda daha detaylı bir şekilde konu açabilirim isteğe bağlı olarak. İyi forumlar.
 
Üst

Turkhackteam.org internet sitesi 5651 sayılı kanun’un 2. maddesinin 1. fıkrasının m) bendi ile aynı kanunun 5. maddesi kapsamında "Yer Sağlayıcı" konumundadır. İçerikler ön onay olmaksızın tamamen kullanıcılar tarafından oluşturulmaktadır. Turkhackteam.org; Yer sağlayıcı olarak, kullanıcılar tarafından oluşturulan içeriği ya da hukuka aykırı paylaşımı kontrol etmekle ya da araştırmakla yükümlü değildir. Türkhackteam saldırı timleri Türk sitelerine hiçbir zararlı faaliyette bulunmaz. Türkhackteam üyelerinin yaptığı bireysel hack faaliyetlerinden Türkhackteam sorumlu değildir. Sitelerinize Türkhackteam ismi kullanılarak hack faaliyetinde bulunulursa, site-sunucu erişim loglarından bu faaliyeti gerçekleştiren ip adresini tespit edip diğer kanıtlarla birlikte savcılığa suç duyurusunda bulununuz.