Yazılımda Kazıma ve Madencilik İşlemleri

28 Eyl 2009
132
75
admin.php

logo.png




Veri Kazıma Nedir ?

Veriler farklı amaçlar doğrultusunda hazırlanmış olarak farklı formatlarda (metin, görsel, ses) ve farklı mecralarda insanlar ve/veya diğer sistemler tarafından erişilebilir olarak sunulmaktadır. Bu erişim açık ya da sınırlı olabilir. Verinin kayıt altına alınması ve sunulması aşamasında insan tarafından okunabilir olması bir şart değildir. Ancak bir blog içeriği, sosyal medya akışı ya da pdf formatındaki bir makale için elbette okunabilirlik önemli bir kriter olacaktır. Arama motortları da kullanılan algoritmalar bağlamında içerikleri bu şekilde tarar, anlamlandırır ve sınıflandırırlar. Tüm bu süreç genel bir terim ile ifade edilir; veri kazıma.Veri kazıma, genel anlamı ile, bir bilgisayar programının bir veri kaynağından anmalı veri çıkarma işlemini ifade eder. Elbette bir web sayfasından ve/veya bir Excel tablosundan kopyala-yapıştır ile verinin taşınması da veri kazıma olarak nitelendirilebilir. Ancak, basit işlemleri gözardı edecek olursak, bir veri yığını içerisinden kopyala-yapıştır ile verinin taşınmasının bir hayli uğraştırıcı olduğunu da kabul etmemiz gerekir. Diğer yandan, görsellerden ve ses dosyalarından verinin kazınması işlemi çoğu zaman hala bir insan müdahalesine ihtiyaç duymaktadır. Günümüzde çeşitli algoritmalar aracılığıyla bu işlemler gerçekleştirilebiliyor olsa da hala istenen düzeyde başarı gösterdiği söylenemez. Veri taramanın genel bir ifade olduğundan bahsetmiştik. O halde, konuyu biraz daha detaylandıralım.


lfn9r51.gif


Ekran Kazıma Nedir ?
Ekran kazıma, web kazıma işleminde olduğu gibi verileri ayrıştırmak yerine (bu konuya ilgili başlık altında detaylıca değineceğim) bir bilgisayar terminal ekranından metin verilerinin programlı bir şekilde toplanmasıyla ilişkilidir. İhtiyaç duyulan veri başka bir programın ekran çıktısından elde edilir. Bu işlemler bir kullanıcı arayüzü vasıtasıyla verinin işleme alındığı daha karmaşık senaryoları da kapsayabilir. Özetle, ekran kazıma eski uygulama programları ve modern kullanıcı arayüzleri arasında aracılık eden bir programlama parçasıdır diyebiliriz. Veritabanı veya dosyaların taranması yerine tarama işlemi verilerin görüntülendiği yerde gerçekleşir. Dolayısıyla kullanıcıya iletilen veriler üzerinden işlem yürütülür.Bir RPA aracı olan Ui-Path1 ve Jacada2 bu amaçla değerlendirilebilir.

Rapor Madenciliği Nedir ?

Rapor madenciliği, bir rapor içerisinden veri çıkarılmasıdır. Örnek olarak, sayfa görüntülemeler, oturum süreleri gibi bilgileri görüntülediğinzi bir arayüz, dinamik olarak görüntülenen veya sıklıkla güncellenen (günlük, haftalık vb.) organik trafik verilerini, reklam tıklamalarını, satışları veya kredi kartı harcamaları içeren raporlar ele alınabilir. Rapor madenciliği ile raporlardaki belirli alanlar bir dosyada biriktirilerek ayrıca bir analiz sürecinde değerlendirilebilir ve statik rapor olarak tutulabilirler. Rapor madenciliği ile kaynakların (CPU kullanımı, lisans ve çıktı maliyetleri vb.) daha efektif kullanımının yanı sıra raporlar içerisinden hızlı bir şekilde ilgili verilerin edinimi sayesinde hata ve bildirim yönetimi de kolaylaşmaktadır.


yQSIxHzv_o.png



Web Kazıma Nedir ?
Örnekler temelinde sıklıkla üzerinde duracağımız konumuz web kazıma. Web kazıma, metin tabanlı biçimlendirme dillerinin (XHTML, HTML, Markdown gibi) taranması, web sunucuları ve/veya uygulamalar arasındaki veri akışının (JSON, XML, YAML vb.) dinlenmesi ve verilerin bu dosyalardan kazınması işlemlerini ifade eder. Bu amaçla pek çok araç ve programlama dili geliştirmeleri mevcuttur. Fiyat, haber ve gündem takibi, rekabet incelemeleri, iletişim bilgileri gibi pek çok bağlam çerçevesinde ele alınabilir. Bir web sitesinin içerikleri taranarak kelime yoğunluğu çıkarılabilir ya da kişi bilgileri taranarak profilleme yapılabilir. Günümüzde DOM ayrıştırma, bilgisayar görüşü ve NLP gibi insan davranışlarını taklit eden teknikler de otomatik bir şekilde içeriklerin kazınması amacıyla kullanılabilmektedir. Elbette bu işlemlerin ne kadar etik ve/veya yasal olduğu tartışılır. Büyük veya sınırlı erişime sahip web siteleri verilerin kazınmasını önlemek amacıyla çeşitli güvenlik önlemleri almaktalar. Belirli bir IP ya da IP bloğunun engellenmesi, robot kontrolleri gibi durumlarla sıklıkla karşılaşılmaktadır. Diğer yandan, izinsiz bir tarama ve bu taramada özel bilgilerin yer bulması çeşitli yasal sorunlarla da karşılaşılmasına neden olabilir.




Kaynakça
Kaynak
 
Üst

Turkhackteam.org internet sitesi 5651 sayılı kanun’un 2. maddesinin 1. fıkrasının m) bendi ile aynı kanunun 5. maddesi kapsamında "Yer Sağlayıcı" konumundadır. İçerikler ön onay olmaksızın tamamen kullanıcılar tarafından oluşturulmaktadır. Turkhackteam.org; Yer sağlayıcı olarak, kullanıcılar tarafından oluşturulan içeriği ya da hukuka aykırı paylaşımı kontrol etmekle ya da araştırmakla yükümlü değildir. Türkhackteam saldırı timleri Türk sitelerine hiçbir zararlı faaliyette bulunmaz. Türkhackteam üyelerinin yaptığı bireysel hack faaliyetlerinden Türkhackteam sorumlu değildir. Sitelerinize Türkhackteam ismi kullanılarak hack faaliyetinde bulunulursa, site-sunucu erişim loglarından bu faaliyeti gerçekleştiren ip adresini tespit edip diğer kanıtlarla birlikte savcılığa suç duyurusunda bulununuz.