Veri Görselleştirme Temel Bilgi

Veri Görselleştirme

Veri Görselleştirme Temel Bilgi

Veri Nedir?

Bilginin yapılandırma ile kayıt altına alınıp, kolay analiz edilebilmesi için bir araya getirilmesidir. Bir veya birden fazla bilgiden oluşan kümedir. Genellikle araştırma, gözlem, deney, sayım, ölçüm gibi yoluyla elde edilir.

Veri Görselleştirme Nedir?

Verilerin nicel tanımlamalarına ve tahminlerine odaklanan uygulamalı istatistik ve makine öğreniminde önemli becerilerden biridir.

Veri görselleştirme, ilişkileri ifade etmek ve basitçe göstermek için kullanılır.

Veri Görselleştirmesinin Avantajları
  • Daha İyi Analiz: Veri tablolarında gözden kaçan unsurları, trendleri ve dağılımları incelemede oldukça etkilidir.
  • Hızlı Aksiyon: Veri görselleştirmeleri, verilerin hızlı bir şekilde anlamlandırılmasına ve yorumlanmasına olanak sağlar.
  • Örüntülerin Tanımlanması: Büyük miktarlardaki karmaşık veriler, görselleştirildiklerinde iç görüler için kolaylık sağlayabilir ve veriler arasındaki ilişkilerin bulunmasına olanak tanır.
  • Hata bulma: Görselleştirmek, verilerdeki hataları hızlıca belirlemenize yardımcı olur. Veriler yanlış örnekler bulundurma eğilimindeyse, görselleştirilerek hızlıca tespit edilebilir.
Veri Türleri

Veri türleri Sayısal Veriler ve Kategorik Veriler olmak üzere ikiye ayrılır:

  1. Sayısal Veri Türleri:

    • Integer: Kesirli kısmı olmayan tam sayılar.
    • Float: Ondalık sayılar.
  2. Kategorik Veri Türleri:

    • Nominal: Sıralama içermeyen etiketler.
    • Ordinal: Sıralama içeren etiketler.
    • Boolean: True ve False değerleri

Görselleştirme Tipleri

Line Plot

Çizgi grafiği, temel olarak iki sayısal değer kümesi arasındaki ilişkiyi göstermek için kullanılır. Genellikle, iki bağımlı değişken arasında artan veya azalan bir eğilim göstermek için uygundur.

Not: Çizgi grafikleri, gözlemler arasında bir sıralamanın olduğu herhangi bir dizi verisinin yanı sıra zaman serisi verilerinin sunulması için kullanışlıdır.

Scatter Plot

Bir Dağılım grafiği, esas olarak iki sayısal grup arasındaki ilişkiyi dağınık noktalar şeklinde çizmek için kullanılır. Grafikteki her nokta tek bir gözlemi temsil edecek şekilde gösterilir:

  • X ekseni örneğin bir özelliğini temsil eder.
  • Y ekseni, aynı örneğin farklı bir özelliğini temsil eder.
Scatter Plot Olası Hatalar

Veri boyutunun yüksek olduğu durumlarda "overplotting" en sık görülen hatadır. Yani veriler bir miktardan sonra üst üste binmeye başlayacak ve bu durum verilerin doğru analiz edilmesini önleyecektir.

Çözüm Yolları:

  • Verileri temsil eden noktaların alanını küçültmek.
  • Her bir nokta için opaklık değerini düşürmek. (Saydamlık değerini %30, %20 yapmak gibi)

Bar Plot

Çubuk grafiği; toplam, ortalama, medyan vb. gibi bir toplama işleviyle gruplanmış kategorik bir sütundaki benzersiz değerler arasındaki ilişkiyi çizmek için kullanılır.

  • Kategorik değerler x ekseni olarak iletilir ve karşılık gelen toplu sayısal değerler y ekseninde iletilir.
  • Farklı kategorideki verileri karşılaştırmak için kullanılır.
  • Grafiğin bir ekseni karşılaştırılmakta olan belirli kategorileri gösterir ve diğer eksen ölçülen bir değeri temsil eder.

Not: Çubuk grafiğinin histogram ile karıştırılmaması gerekir! Bar Plot'lar kategorik, histogramlar ise sürekli değerler için kullanılır.

Histogram

Histogram'lar temel olarak sayısal bir öğe listesinin veri dağılımını görüntülemek için kullanılır.

Verilerin sürekli bir aralık veya belirli bir süre boyunca dağılımını gösteren bir veri görselleştirme grafiğidir.

  • X ekseninde gösterilen sürekli değişken, ayrık aralıklara bölünür ve o ayrık aralıkta sahip olduğunuz veri sayısı, çubuğun yüksekliğini belirler.
  • Histogram'lar, değerlerin nerede yoğunlaştığını, uç noktaların neler olduğunu ve veri kümesinde herhangi bir boşluk veya olağandışı değerler olup olmadığı konusunda bir tahmin verir.

Not: Doğru histogram oluşturmak için kutuların kaç birimlik alanlara bölünmesini aşağıdaki formül ile buluruz.

Pie Charts

Pasta grafikler, kategorik bir sütundaki değerlerin yüzde dağılımını gösterir.

  • Bir bütünün parçaları arasındaki ilişki, açık halde görülebilir.
  • Grafiğin parçaları, her kategorideki bütünün kesri ile orantılıdır.

Heatmap

Matrisin değerini görselleştirmek için renkleri kullanarak verilerin grafiksel bir temsilidir. Daha yoğun değerler için daha parlak, az yoğun değerler için daha koyu renkler tercih edilir.

Korelasyon haritalarında veya karmaşıklık matrislerinde sıkça kullanılır.

Box Plot

Genellikle gruplar arasında bir veri dağılımını göstermenin görsel bir temsilidir. En basit Box plot çizimleri, minimumdan maksimuma tüm varyasyon aralığını, olası varyasyon aralığını ve aykırı değerleri gösterir. Box plot beş parçadan oluşur;

  • minimum
  • ilk çeyrek
  • medyan (ikinci çeyrek)
  • üçüncü çeyrek
  • maksimum

Kaynakça

https://globalaihub.com/courses/veri-gorsellestirme/

Popüler Yayınlar

Taş Oyunu

Makine Öğrenmesi Temel Bilgiler

Cpp'da Nesne Yönelimli Programlama (OOP) Mantığı İle Sınav Uygulaması

C Dili İle İlgili Örnek Sorular Ve Çözümleri

Machine Learning Tahmin (Prediction) Metotları

Python İle Nesne Yönelimli Programlama (OOP) Uygulamaları