Veri Analizine Genel Bakış

Veri Analizine Genel Bakış

Veri analizi , faydalı bilgiler bulma, sonuçları bilgilendirme ve karar vermeyi destekleme amacıyla verileri inceleme, temizleme , dönüştürme ve modelleme işlemidir . Veri analizi, farklı işletme, bilim ve sosyal bilimler alanlarında kullanılırken, çeşitli isimler altında farklı teknikleri kapsayan çok yönlü yaklaşımlara sahiptir. Günümüz işletmelerinde veri analizi, kararları daha bilimsel hale getirmede ve işletmenin etkili bir şekilde çalışmasına yardımcı olmasında rol oynamaktadır.

Siber Tehdit İstihbaratında Veri Yığını Toplamayı Anlamak yazımızın devamında “Veri Analizine Genel Bakış” konusu ile devam ediyoruz.

Veri madenciliği, tanımlayıcı amaçlardan ziyade öngörücü olarak modelleme ve bilgi keşiflerine odaklanan özel bir veri analizi tekniğidir; iş zekası ise, ağırlıklı olarak iş bilgilerine odaklanan, büyük ölçüde toplamaya dayanan veri analizini kapsar. İstatistiksel uygulamalarda veri analizi, tanımlayıcı istatistiklere, keşifsel veri analizine (EDA) ve doğrulayıcı veri analizine (CDA) ayrılabilir. EDA, verilerdeki yeni özellikleri keşfetmeye odaklanırken, CDA mevcut hipotezleri onaylamaya veya tarif etmeye odaklanır. Tahmine dayalı analitik metin; tahmini, yapılandırılmamış bir veri türü olan metin kaynaklarından bilgi elde etmek ve sınıflandırmak için istatistiksel, dilsel ve yapısal teknikler uygularken, öngörücü tahmin veya sınıflandırma için istatistiksel modellerin uygulanmasına odaklanır. Yukarıdakilerin hepsi veri analizi çeşitleridir.

Verilerin Bağlamsallaştırılması

Verilerin bağlamsallaştırılması (Contextualization); Bir varlıkla ilgili verilerin belirlenme sürecidir. Bağlam ya da bağlamsal bilgi, belirli bir uygulama kapsamında karar almak için gereken muhakeme miktarını (filtreleme, toplama ve çıkarım yoluyla) etkili bir şekilde azaltmak için kullanılabilecek herhangi bir varlık hakkındaki herhangi bir bilgidir. Bağlamsallaştırma, daha sonra işletmenin bağlamsal bilgisine dayanarak bir varlıkla ilgili verileri tanımlama sürecidir. Bağlamsallaştırma, alakasız verileri dikkate almaz ve büyük ölçekli veri yoğun uygulamalarda hacim, hız ve çeşitlilik dahil olmak üzere verileri çeşitli yönlerden azaltma potansiyeline sahiptir.

Veri Analizi Türleri

Açıklayıcı-Betimsel Analiz: Veri analizinin en basit şekli açıklayıcı-betimsel analizdir. Açıklayıcı analiz, bir veri setindeki her bir değişkenin değerlerini listeler ve özetler. Betimsel analiz, bir veri setine aşina olmanıza ve herhangi bir değerlendirme vermemiş cevap verenler veya “99” yanıtını gösteren veriler gibi verilerle ilgili sorunları belirlemenize yardımcı olur.

Keşif Analizi: Sahip olduğunuz verileri anladığınızda, bir sonraki adım veri öğeleri arasındaki ilişkileri aramaya başlamaktır . Buna keşif veri analizi denir ve genellikle değişkenler arasındaki korelasyona odaklanır.

Çıkarımsal Analiz: Var olan bir konun örneklerini temel alan teorileri test etmeyi amaçlar. Yani, daha büyük bir popülasyon hakkında bir şeyler söylemek için nispeten küçük bir veri örneği kullanılmasıdır.

Tahmin Analizi: Gelecekteki olaylarla ilgili öngörülerde bulunmak için güncel ve tarihi gerçekleri analiz eden veri analiz çeşididir. Temelde, başka bir nesnenin değerlerini tahmin etmek için bazı nesnelerdeki verileri kullanır.

Veri Analizi Tekniklerini Anlamak

İstatistiksel Veri Analizi

İstatistiksel Veri Analizi; temel olarak veri toplama, veri yorumlama ve son olarak veri doğrulama içeren bir bilimdir. İstatistiksel veri analizi , çeşitli istatistiksel işlemlerin gerçekleştirilme prosedürüdür. Verileri ölçmeyi amaçlayan ve tipik olarak istatistiksel analiz uygulayan bir tür nicel araştırmadır. Nicel veriler temel olarak anket verileri ve gözlemsel veriler gibi tanımlayıcı verileri içerir.

İstatistiksel veri analizindeki veriler sayı olarak çoklu ise, o zaman çok değişkenli olabilir. Bunlar faktör istatistiki veri analizi, ayırt edici istatistiksel veri analizi vs.’dir. Benzer şekilde, eğer veriler tekil ise, tek değişkenli istatistiksel veri analizi yapılır. Bu anlamlılık için t testi, z testi, f testi, ANOVA tek yönlü vb. içerir.

İstatistiksel veri analizindeki gizli veriler, olasılık kütle fonksiyonu veya basit pmf olarak da adlandırılan gizli dağıtım fonksiyonu altında dağıtılır.

Veri Hazırlama

Veri hazırlama , ham verilerin (farklı veri kaynaklarından gelebilecek), örneğin iş amaçları için kolayca ve doğru bir şekilde analiz edilebilecek bir forma dönüştürülmesi işlemidir. Veri hazırlama, veri analizi projelerinde ilk adımdır ve veri yükleme veya veri alımı, veri birleştirme, veri temizleme, veri büyütme ve veri sunma gibi birçok ayrık görevi içerebilir .

Ele alınacak konular iki ana kategoriye ayrılır:

  • Büyük olasılıkla farklı kaynaklardan geldikleri için çok sayıda veri kaydını içeren sistematik hatalar;
  • Orijinal veri girişindeki hatalardan dolayı az sayıda veri kaydını etkileyen bireysel hatalar.

Veri Sınıflandırması

Veri sınıflandırma, verileri en etkili ve verimli kullanımı için kategoriler halinde düzenleme işlemidir. İyi planlanmış bir veri sınıflandırma sistemi, temel verileri bulmayı ve almayı kolaylaştırır. Bu risk yönetimi , yasal keşif ve uyum için özel önem taşıyabilir. Veri sınıflandırma için yazılı prosedürler ve kılavuz ilkeleri, kurumun verileri sınıflandırmak için hangi kategorileri ve kriterleri kullanacağını ve organizasyon içindeki çalışanların veri yönetimi konusundaki rollerini ve sorumluluklarını belirtmelidir. Bir veri sınıflandırma şeması oluşturulduktan sonra, her kategori için uygun kullanım uygulamalarını belirleyen güvenlik standartları ve verilerin yaşam gereksinimlerini tanımlayan depolama standartları ele alınmalıdır.

Veri Doğrulama

Veri doğrulama, verileri kullanmadan, almadan veya başka şekilde işlemeden önce kaynak verilerin doğruluğunu ve kalitesini kontrol etmek anlamına gelir. Hedef sınırlamalarına veya hedeflerine bağlı olarak farklı tiplerde onaylamalar yapılabilir. Veri doğrulama, bir veri temizleme şeklidir.

Veri Korelasyonu

Korelasyon değişkenler arasındaki ilişkiyi ifade eder. Bir değişkeni diğerleriyle ilişkisi açısından ifade etmek için kullanılır. Bir veri setinden faydalı bilgiler elde etmenin ilk adımı, her bir parçanın birbiriyle nasıl ilişki kurduğunu bilmektir. Korelasyon ile veriler arasındaki ilişkiyi keşfetmek, ileriyi tahmin etmek için kullanılır

Veri Puanlama

Veri puanlama, tahmini modelin bir veri kümesine uygulanması sürecine verilerin puanlamaya denir.

İstatistiksel Veri Analizi Araçları

Verilerin istatistiksel analizini yapmak için çok sayıda araç mevcuttur ve aşağıda bazıları gösterilmiştir.

SAS/STAT Yazılımı

Statistical Analysis Software (İstatistiksel Analiz Yazılımı)-SAS , GUI’yi kullanma veya daha gelişmiş analizler için komut dosyaları oluşturma seçenekleri sunan istatistiksel bir analiz platformudur. Hem iş, sağlık ve insan davranış araştırmalarında yaygın olarak kullanılan premium bir çözümdür. Kodlama da bu yaklaşım için kullanılmayanlar için zor bir ayar olabilir, ancak gelişmiş analizler yapmak ve yayınlanabilir grafikler ve çizelgeler üretmek mümkündür.

IBM SPSS

Statistical Package for the Social Sciences (Sosyal Bilimler için İstatistik Paketi)-SPSS, insan davranışı araştırmalarında belki de en yaygın kullanılan istatistik yazılım paketidir. SPSS, tanımlayıcı istatistikleri, parametrik ve parametrik olmayan analizleri ve sonuçların grafiksel kullanıcı arayüzü (GUI) üzerinden grafiksel gösterimlerini kolayca derleme yeteneği sunar. Ayrıca, analizi otomatikleştirmek için komut dosyaları oluşturma veya daha gelişmiş istatistiksel işlemler gerçekleştirme seçeneğini de içerir.

Rakip Hipotezler Analizi (Analysis of Competing Hypotheses -ACH)

ACH, bir dizi alternatif hipotez setini tanımlayan, her hipotezle tutarlı ve tutarsız olan verileri sistematik olarak değerlendiren ve çok fazla tutarsız veri içeren hipotezleri reddeden analitik bir süreçtir.Karmaşık bir problem hakkında nasıl düşünüleceği konusunda yardım eden basit bir modeldir. ACH metodolojisi, Richards J. Heuer, Jr. tarafından geliştirilmiştir. Rakip hipotezleri analiz etme yöntemi, ilk aşamalarda zaman ve dikkat gerektirir, ancak analitik pozisyonların yönetimini ve koordinasyonunu kolaylaştırmak için büyük kar payları öder. ACH, olanların veya olanların alternatif açıklamalarının dikkatlice tartılmasını gerektiren konular için özellikle yararlıdır. Aynı zamanda erken uyarı vermek veya gelecekte neler olabileceğine dair alternatif senaryoları değerlendirmemize yardımcı olmak için de kullanılabilir.

Hipotez

Hipotez veya varsayım, bilimsel yöntemde olaylar arasında ilişkiler kurmak ve olayları bir nedene bağlamak üzere tasarlanan ve geçerli sayan bir önermedir. Bilimsel bir ifadenin hipotez kabul edilebilmesi için sınanabilmesi gerekir. Deney ve testler sonucunda “sürekli olarak” varsayılan sonucu veren hipotezler “teori (kuram)” statüsünü alırlar.

Kanıt

Kanıt, bir iddiayı destekleyen şeydir. Bu destek güçlü ve zayıf olabilir.

Teşhis

Bulgu ve belirtilere bakarak sorun tespit etmeye teşhis denir.

Tutarsızlık

Aralarında çelişki bulunan işlemlere tutarsız işlemler denir.

ACH Tool

PARC ACH

PARC ACH, Palo Alto Araştırma Merkezi (PARC) tarafından Richards J. Heuer, Jr. ile işbirliği içinde geliştirilmiştir. Analistlerin kanıt girmesine ve güvenilirliğini ve alaka düzeyini derecelendirmesine izin veren standart bir ACH programıdır.

Rakip Hipotezler Yapısal Analizi (SACH)

Rakip hipotezlerin yapısal analizi (SACH) daha ileri ve daha derinlemesine bir analiz yaparak, analistin ilk tahminini ötesine geçmesine izin veren yapıyı ve otomasyonu ekleyerek bilmediklerine makul bir dereceye kadar yaklaşmasına yardım eder.

Yazar: Cyber Intelligence Analyst Gurbet Başakçi

Bir sonraki makalemiz Bölüm 11 – Tehdit Analizi Nedir? Siber Tehdit Analizine Genel Bakış ile devam ediyoruz.

Yorum Yaz

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*
*

Mail listemize üye olarak eğitim fırsatlarını kaçırmayın!
Eğitim ve ücretsiz etkinliklerizden haberdar olmak için e-posta listesimize üye olun!.