Temel İstatistik Terimleri Nelerdir?

Cahit Barkin Ozer
15 min readApr 22, 2024

Ortalama(mean), medyan(median), çeyreklik(quantile), varyans(variance), çarpıklık(skewness) ve basıklık(kurtosis) terimlerinin ne olduklarını öğreneceğiz.

Veri analizine ham verileri toplayarak başlıyoruz. Örneğin sensör değerleri okunmuş olabilir, anket sonuçları değerlendiriliyor olabilir veya bir deneyden ölçümler alınıyor olabilir. 10 virgüllü sayıyı ölçmek istediğimiz bir deney düşünün. Sayıların vektörünü x ve bireysel değerlerini x1, …, xn olarak göstereceğiz.

Şimdilik verinin kalitesiyle ilgili herhangi bir sorun yaşamadığımızı varsayıyoruz; kaydettiğiniz verilere güvenebileceğinizden emin olmak, verilerle çalışmanın çok önemli bir parçasıdır ancak şimdi tartışmak istediğimiz konu başka olduğu için burayı önemsemiyoruz. Ham verilere erişimimiz olduğundan, veri değerleri bize çok fazla şey söylemez. Eğer bu verileri anlamlandrmak veya diğer veri kümeleriyle karşılaştırmak istiyorsak, veri kümesini özetlememize ve ana özelliklerini tanımlamamıza yardımcı olabilecek birkaç numara kullanmak faydalı olacaktır. Bunlara “tanımlayıcı istatistik” denir.

Günlük deneyimlerimizden, tüm veri noktalarını toplayıp veri noktası sayısına bölerek elde ettiğimiz, aritmetik ortalama olarak da adlandırılan ortalama değer alma yöntemini zaten biliyoruz: x̄ = 1/N ∑ixi. Bunun veri örneğimiz için ideal olmadığını zaten görebiliyoruz, çünkü yalnızca 10 veri noktamız olmasına rağmen bunların çoğu ortalama değerinin altında kalabilir ve veriler daha iyi açıklamamıza izin veren diğer önlemleri aramamız gerekir. Verilerin ne kadar “geniş” yayıldığını ölçmek için bir dağılım metriğine ve ayrıca veri dağılımının simetrik olup olmadığını ölçen metriklere de ihtiyacımız var.

Ancak aşağıda göstereceğimiz gibi, verilerin açıklamasını birkaç temel ölçüte indirgediğimiz takdirde, verileri anlamamız açısından hayati önem taşıyan birçok ayrıntıyı kaybedebileceğimizi aklımızda tutmamız gerekiyor. Bu nedenle yalnızca tanımlayıcı istatistiklerle tanımlanan ölçümlere güvenmek değil, aynı zamanda üzerinde çalıştığımız verileri anlamak ve görselleştirmek de önemlidir.

Ölçtüğümüz veya başka şekilde elde ettiğimiz veri noktaları veri örneklemimizi oluşturur. Bu nedenle, bu örneklemleri tanımlamak için kullandığımız tanımlayıcı istatistiklere “örneklem istatistiği” diyoruz çünkü hesaplanan sayılar doğrudan kaydettiğimiz örnekleme atıfta bulunmaktadır. Ancak sonuçta gözlemlediğimiz verilerden genel özellikler çıkarmak istiyoruz. İstatistik dilinde, genel olarak tüm nüfusun özelliklerini ölçmenin hiçbir yolu olmadığını aklımızda tutarak, örneklemden nüfus metriklerini çıkarmak istiyoruz. Genel olarak, popülasyonun davranışının belirli bir olasılık dağılımıyla (veya birkaçının birleşimiyle) tanımlandığını ve gözlemlediğimiz veri noktalarının, bu olasılık dağılımıyla tanımlanan rastgele değişkenin somut bir gerçeklenmesi olduğunu varsayıyoruz. Unutulmamalıdır ki olasılık dağılımı sürekli veya ayrık olabilir.

Yukarıdaki örnekte veri noktaları, bir parçacığın iyonizasyon nedeniyle enerji kaybını modellemek için kullanılabilecek bir Moyal dağılımı (1955) kullanılarak oluşturulmuştur. İlk şekil, küçük bir örneğin tüm popülasyonu tanımlayan olasılık dağılımını iyi tanımlamadığını göstermektedir. Ancak, örnek veri noktalarının sayısını artırırsak, açıklama daha iyi hale gelir, böylece genellikle büyük bir örneğin, örnek istatistiklerinin popülasyon davranışını yansıtabildiği varsayılır. Ancak, çoğu durumda, temel olasılık dağılımını bilir, çıkarımlar yapar veya modelleriz ve davranışı tanımlamak ve gözlemlenen verilerle karşılaştırmak için bunu karakterize etmemiz gerekir.

Ortalama (Mean), Medyan (Median) ve Çeyreklik (Quantile)

Ortalama (Mean)

Örneklem istatistiğinde veya sürekli/ayrık olasılık dağılımında bir veri örneğini tanımlamanın önemli bir kısmı, değerlerin en azından büyük kısmını eksen üzerinde nerede bulabileceğimizi açıklayan bir konum parametresi tanımlamaktır.

Günlük deneyimlerimizden, ortalama değere zaten aşinayız; buna aynı zamanda aritmetik ortalama da denir ve bunun genellikle örneklem istatistiğini kastettiğini anlarız. x = x1 , x2 , …, xn veri noktalarından oluşan bir vektör verildiğinde, aritmetik ortalama şu şekilde verilir:

Bu, aritmetik ortalamanın, örneğimizdeki tüm veri noktalarının toplamının, sahip olduğumuz veri noktalarının sayısına bölünmesiyle verildiği anlamına gelir. En yaygın olanı olmasına rağmen ortalamayı tanımlamamızın tek yolu bu değildir. Diğer bir seçenek ise şu şekilde tanımlanan geometrik ortalamadır:

Geometrik ortalama, belirli bir miktarın büyüme veya büyüme oranlarını tanımlamak için aritmetik ortalamadan daha uygundur. Çoğunlukla oranlarla ilgili problemleri çözmek için kullanılır.

Başka bir seçenek de şu şekilde verilen harmonik ortalamadır:

Oranları tanımlarken bunu kullanmak genellikle daha uygundur. Son olarak, şu şekilde verilen ortalama karekökü de tanımlayabiliriz:

Bu miktar genellikle elektrik mühendisliğinde veya bir model tahminini gözlemlenen değerlerle karşılaştırmak için kullanılır. Yukarıda belirtildiği gibi, bu tanımlar somut bir veri noktası örneğiyle çalışırken kullanılır.

Ancak diğer durumlarda, ele aldığımız sistemin temelindeki süreci tanımlayan ayrık veya sürekli olasılık dağılımlarıyla çalışacağız ve gözlemlediğimiz veri noktalarını, bir olasılık dağılımıyla tanımlanan rastgele bir değişkenin gerçeklemeleri olarak yorumlayacağız.

Ayrık olasılık dağılımının bir örneği aşağıdaki şekilde verilmiştir. P(X = x) olasılık kütle fonksiyonuna sahip ayrı bir rastgele değişken X’in ortalama değeri (bir rastgele değişken X’in belirli bir x değerini alma olasılığı) şu şekilde verilir:

Sezgisel olarak her xi değerini, bu P(X = xi) değerini gözlemleme olasılığıyla alınabilecek olasılık dağılımıyla çarpıyoruz.

Ayrık Olasılık Dağılımının Olasılık Kütle Fonksiyonu

Konsept sürekli olasılık dağılımlarına getirilebilir. Yoğunluğu f(x) olan bir rastgele değişken X düşünün, ortalama, beklenen değer veya beklenti değerini (bir rastgele değişkenin olasılık dağılımına dayalı ortalama değerini) şu şekilde tanımlarız:

Aşağıdaki şekilde örnek bir beklenti gösterilmektedir.

Çoğu durumda, belirli bir fonksiyon ℎ(x) boyunca rastgele değişkenin dönüştürülmüş değerinin beklenen değerini hesaplamak faydalıdır: Her e olayına ℎ(X) değerini atayan dönüştürülmüş rastgele değişken ℎ(X) bir dağılımdır ve değişken değiştirerek integral alma kullanılarak beklentinin şöyle olduğu kanıtlanabilir:

Dönüştürülen rastgele değişken için kesin bir gösterimin ℎ ∘ X olması gerektiğine dikkat edin çünkü bu, eşlemelerin bileşimidir (örnek uzaydan ℝ’ye, sonra ℝ’den ℝ’ye), gösterimin bu kullanımı yaygın ve pratiktir. Bu, birçok pratik uygulamada önemlidir, çünkü — eğer yeterince geniş bir veri noktası kümesine sahipsek, bir olasılık fonksiyonunun beklenti değerine, yani x̄ ≈ E [x]’e yaklaşmak için örnek ortalamayı kullanabiliriz.

Beklenti değeri doğrusal bir operatördür:

E [a·g(x) + b·ℎ(x) = a·E[g(x)] + b·E [ℎ(x)].

Örnek: Üstel dağılımın beklenen değeri

Üstel dağılım pozitif gerçek değerlere sahiptir ve x<0 için e 0 ⩽ x < ∞ ve f(x) = 0 ve λ > 0 olan şu olasılık yoğunluk fonksiyonuna sahiptir:

Beklenti değerinin λ ile verildiğini gösterin.

Çözüm:

Beklenti değeri şu şekilde verilir:

İntegralin alt sınırının − ∞ yerine sıfıra ayarlanabileceğini, aksi takdirde integralin sıfır olacağını belirtmiştik. Bir sonraki adımda denklemi parçalara ayırıyoruz. Parçalara göre integral alma kuralının ∫udv = uv − ∫vdu ile verildiğini unutmayın. Buradan:

İlk kısmı değerlendirmek için limx→∞ xe^−x = 0 limitini almamız gerekiyor çünkü sezgisel olarak üstel fonksiyon x polinomundan daha hızlı düşer. Dolayısıyla ikinci integral olan ∫_0^∞ e^ −x/λ dx’i hesaplamamız gerekiyor.

∫e^(ax) dx = 1/e^(x) olduğunu hatırlıyoruz ve dolayısıyla sonuç ∫_ 0^∞ e^(−x/λ) dx = λ oluyor.

Medyan(Median)

İlk örneğimize geri dönelim ve veri noktalarını tekrar ele alalım. Aritmetik ortalamanın (x̄ = 1/N ∑ixi) örneklemin çok iyi bir tanımını vermediğini zaten görmüştük. Benzer şekilde, yukarıdaki sürekli olasılık dağılımının ortalama değerini veya beklenen değerini karşılaştırırsak, dağılımın nasıl davrandığını tam olarak yansıtmaz.

Dağılımın büyük bir kısmı ortalama veya beklenen değerin altındadır ancak dağılımın sağ tarafta ortalama değeri etkileyen uzun bir kuyruğu vardır. Hem örneklemin hem de olasılık dağılımının konumunu tanımlamanın daha sağlam bir yolu, örneklemin veya dağılımın %50'sinin bu noktanın altında ve %50'sinin üstünde olduğu orta noktayı tanımlamaktır. Buna medyan denir. Örnek istatistik durumunda medyanı hesaplamak için öncelikle veri noktalarımızın değerlerini azdan çoğa doğru sıralarız. Medyan, örneklemi ikiye bölen sayıdır.

Daha genel olarak, eğer N veri noktası varsa, medyan m şu şekilde verilir:

Ayrık dağılımlar için medyan x_0,5 aşağıdaki sayı olarak tanımlanır:

Aynı şekilde sürekli bir olasılık dağılımının medyanını da bu noktanın %50'sinin altında, %50'sinin üstünde olduğu nokta olarak tanımlıyoruz. Olasılık dağılımları tanım gereği bire normalize edildiğinden, bunu integrali kullanarak ifade edebiliriz:

Bu, eğer bir noktayı rastgele alırsak, medyanın x_0,5 sol tarafına düşme şansının %50, sağ tarafına düşme şansının ise %50 olduğu anlamına gelir. Önceki örneğimizdeki ortalamayı veya beklenti değerini ve medyanı aşağıdaki şekilde gösterildiği gibi karşılaştırırsak, bunların birbirine yakın olduğunu ancak aynı olmadığını görürüz.

Genel olarak ortalama ve medyan simetrik dağılımlar için aynıdır ancak olasılık dağılımı asimetrikse farklılık gösterir. Bizim durumumuzda sağ tarafta sol tarafa göre daha uzun bir kuyruk var ve bu da beklenti değerini sağa doğru çekiyor. Medyan örneğimizin veya dağılımımızın orta noktasını tanımladığından medyanın ortalamaya göre biraz daha sağlam olmasını bekliyoruz. Sağlam derken, bu miktarın değerinin aykırı değerlere veya dağılımın kuyruklarındaki davranışlara karşı daha az duyarlı olduğunu kastediyoruz.

Bunu şu şekilde örnekleyebiliriz: Aşağıdaki şekilde gösterilen tüm noktaların göreceli olarak birbirine yakın ve 4 değeri etrafında simetrik olduğu bir veri noktası örneğini düşünün. Hem ortalama hem de medyan hemen hemen aynı değere sahiptir ve örneklemi ortalamıştır. Ancak şimdi 15'e bir aykırı değer eklersek, aşağıda gösterildiği gibi ortalamanın medyandan çok daha fazla etkilendiğini gözlemleyebiliriz. Bunun nedeni, ortalamanın aykırı değer de dahil olmak üzere tüm veri noktalarından hesaplanması, oysa medyanın örneği ikiye bölen nokta olarak tanımlanması ve aykırı değer eklenmesinin bunu pek değiştirmemesidir.

Çeyreklikler (Quantiles)

Medyan, bir olasılık dağılımında dağılımı iki yarıya bölen noktadır: Değerlerin %50'si bu değerin altında ve %50'si üstündedir. Her ne kadar bu nokta bir olasılık fonksiyonunun lokalizasyonunu tanımlamak için uygun bir seçim olsa da, %50 işaretinin kendi başına özel bir yanı yoktur. Dağılımın %10'u bu noktanın altında ve %90'ı üstünde olacak şekilde bir sayı da tanımlayabiliriz. Genel olarak, bir dağılımın yüzdelik xq’su, dağılımı %q bu noktanın altında olacak şekilde bölen noktadır ve (1 − q)%’nin üzerindedir. Bu nedenle niceliği şu şekilde tanımlayabiliriz:

Bu daha genel tanımı kullanarak, medyanın, q = 0,5 olarak belirlediğimiz yüzdelik dilim olduğunu not ediyoruz. Dağılımın genel şeklini tanımlamak için genel olarak nicelikleri kullanabiliriz. Örneğin, 100 yüzdelik dilimi hesaplarsak, yani q = 0,0, 0,01, 0,02, …, 0,99, 1,0, bu niceliklerin grafiğini çizerek ve aralarındaki kümülatifi interpolasyonla alarak çoğu fonksiyona oldukça doğru bir şekilde yaklaşabiliriz.

Belirli bir yüzdelik dilim belirlemek istiyorsak kümülatif dağılım fonksiyonunu (CDF) da kullanabiliriz. Kümülatif dağılım fonksiyonu, değişkenin belirli bir değerden küçük veya ona eşit bir değere sahip olduğunun bulunma olasılığını vererek bir rastgele değişkenin olasılık dağılımını tanımlar. Bir olasılık dağılımı f(x) için kümülatif dağılım fonksiyonu (CDF) F(x) şu şekilde tanımlanır:

Önceki örneğimizi kullanarak, aşağıdaki şekilde gösterildiği gibi her iki olasılık dağılımını da kümülatif dağılım boyunca çiziyoruz:

pdf: probability distribution function (olasılık dağılım fonksiyonu), cdf:cummulative distribution function (kümülatif dağılım fonksiyonu)

Belirli bir yüzdeliğin değerini bulmak istiyorsak, CDF grafiğini kullanabilir, gerekli yüzdelik dilim için yatay bir çizgi çizebilir ve ardından yatay çizginin CDF grafiğini kestiği noktada dikey bir çizgi çizebiliriz. Örneğin medyan için alt grafikte y ekseninde 0,5 değerinden geçecek şekilde yatay bir çizgi, ardından grafiği kestiği yere dikey bir çizgi çizeriz. Daha resmi olarak, F(x) fonksiyonu f(x) olasılık dağılımının kümülatif dağılımı ise, medyan şu şekilde verilir:

Burada F^-1(.) kümülatif dağılımın tersidir. Tersinin her zaman tanımlı olmadığına dikkat edin, ancak yoğunluk fonksiyonu sürekli olduğunda ve tanım alanı bir aralık olduğunda var olduğu kanıtlanabilir.

Mod (Mode)

Mod, bir olasılık dağılımının en yüksek noktasını belirtir; bu, bunun en olası değer olduğu anlamına gelir. Biçimsel olarak modu şu şekilde tanımlayabiliriz:

Önceki örneğimizi kullanarak modu ortalama (veya beklenti değeri) ve medyanla karşılaştırabiliriz. Bu parametrelerin her biri, aşağıdaki şekilde gösterildiği gibi dağılımın konumunu farklı şekillerde açıklar:

Medyan gibi daha sağlam bir metrik neredeyse hiç etkilenmese bile, dağıtımdaki küçük ayrıntılar bile modu fark edilir şekilde değiştireceğinden, modun sabit bir konum parametresi olmadığını unutmamalıyız. Bu nedenle, mod pratikte bir dağılımı tanımlamak için nadiren kullanılır.

Dağılımların birden fazla modu olabilir. Aşağıdaki şekildeki örnek, eşit yükseklikte iki mod içeren bir dağılımın yoğunluk fonksiyonunu göstermektedir. Dar anlamda, bir dağılımın aynı yükseklikte olması durumunda iki veya daha fazla modun olduğunu söyleyebiliriz, ancak daha genel bir tanıma, yerel olarak çevre değerlerinden daha yüksek olan tepe noktalarını da dahil edebiliriz.

Varyans (Variance), Çarpıklık (Skewness) ve Basıklık (Kurtosis)

Şu ana kadarki tartışmamız ortalama, medyan ve mod gibi konum parametrelerinin tanımlanmasına odaklanmıştı. Ancak bu metrikler bize dağılımın şekli hakkında pek bir şey söylemiyor. Çoğu durumda bir dağılımın ne kadar “geniş” veya simetrik olduğunu bilmek isteriz.

Varyans (Variance)

Varyans bir dağılım parametresidir ve değerlerin ortalama etrafında ne kadar dalgalandığını ölçer. Örneklemin varyansı şu şekilde tanımlanır:

Örnek standart sapmayı örnek varyansın pozitif karekökü olarak tanımlarız.

Yukarıdaki tanımın dezavantajı, örnek varyansını belirlemeden önce örnek ortalamasını x̄ hesaplamamız gerekmesidir. Aşağıdaki alternatif tanımı kullanarak bunu önleyebilir ve her ikisini de aynı anda hesaplayabiliriz:

Bu tanımları kullanarak, aşağıdaki şekilde gösterildiği gibi bir dizi veri noktasının ortalamasını ve varyansını gösterebiliriz:

Örnek varyansı ve örnek standart sapması bize veri noktalarının (aritmetik) ortalama etrafında ne kadar geniş dağıldığının bir göstergesidir. Sürekli olasılık dağılımlarını ele aldığımızda varyansı şu şekilde tanımlarız:

Örnek varyansla aynı şekilde ve buna göre ayrık olasılık dağılımları için:

Örnek varyansta olduğu gibi, olasılık dağılımlarının varyansını da farklı şekilde ifade edebiliriz:

Standart sapma daha sonra tekrar pozitif karekök olarak tanımlanır;

ve sürekli bir dağılım için aşağıdaki şekilde gösterilmektedir.

Moment

Olasılık dağılımlarının ortalamasını ve varyansını tanımlarken, bazı ℎ fonksiyonları aracılığıyla dönüştürülen beklenti değeriyle zaten karşılaşmıştık. Ortalamayı tanımlarken ℎ(x) = x aldık ve varyansın tanımına bakarsak bu tanımın ℎ(x) = (x − 〈X〉)² kullandığını görebiliriz.

Bunu genelleştirebilir ve h(x) = x^n’yi alarak, n mertebesinin cebirsel momentini şu şekilde tanımlayabiliriz:

Ayrıca n mertebesinin merkezi momentini şu şekilde tanımlayabiliriz:

yani, ℎ (x) = (x −〈X〉)^n.

Bu tanımlarla ortalama birinci cebirsel momentle aynıdır, yani μ = μ1 = E[X] = 〈X〉 ve varyans ikinci merkezi momenttir.

Momentlerin önemli bir uygulaması, bir olasılık dağılımının tüm anları tarafından tanımlanmasıdır; bu, bir dağılımın tüm anlarını biliyorsak, dağılımı onlardan yeniden oluşturabileceğimiz anlamına gelir. Pratik uygulamada, ilk birkaç moment hesaplanarak bir dağılıma yaklaşılabilir ve ardından istenen hassasiyet elde edildiğinde durdurulabilir.

Örnek: Olasılık dağılımının kanıtı, moment’leri ile tanımlanır

Olasılık dağılımları f1(x) ve f2(x) farkının yoğunluk fonksiyonlarını göz önünde bulundurun ve aralarındaki farkı bir polinoma genişletin;

Daha sonra aşağıdaki integrali hesaplıyoruz

bu her zaman sıfırdan büyük veya sıfıra eşittir. Anların tanımını kullanarak bunu şu şekilde yazabiliriz:

Burada μ1(1) birinci fonksiyon f1(x) için momentlerdir ve buna karşılık μn(2) ikinci fonksiyon için momentlerdir. Tüm momentler aynıysa, yani μn(1) = μn(2) ise, (f1(x) − f2(x))² miktarı her zaman pozitif olduğundan ve dolayısıyla iki fonksiyon özdeş olduğundan integralin sıfır olması gerekir. .

Çarpıklık(skewness) ve Basıklık(kurtosis)

Çarpıklık, bir dağılımın ne kadar simetrik olduğunun bir ölçüsüdür: Tamamen simetrik bir dağılımın çarpıklığı sıfırdır. Bir dağılımın kuyruğu sola doğru ise çarpıklık negatif, eğer dağılımın kuyruğu sağa doğru ise çarpıklık pozitiftir. Çarpıklık şu şekilde tanımlanır:

Sola ve sağa çarpık dağılımın bir örneği aşağıdaki şekilde gösterilmektedir:

Çarpıklığın negatif olması durumunda ortalamanın (beklenti değerinin) ve medyanın modun altında olduğunu not ediyoruz. Dağılım pozitif çarpık ise ortalama ve medyan modun üzerindedir. Sıfır çarpıklığa sahip simetrik bir dağılım durumunda ortalama, medyan ve mod aynı değere sahiptir. Örnek çarpıklığı hesaplamak için integralleri uygun toplamlarla değiştiririz:

Basıklık ise bir dağılımın kuyruklarının ne kadar belirgin olduğunun bir ölçüsüdür. Şu şekilde tanımlanır:

Pratikte basıklık tipik olarak κ = 3 olan standartlaştırılmış normal dağılım durumuyla karşılaştırılır. Bu değere göre normalleştirilen geri kalan basıklığa genellikle fazla (excess) veya fazla basıklık (excess kurtosis) denir. Örneğin, aşağıdaki şekilde gösterildiği gibi, lojistik dağılımın kuyrukları normal dağılıma göre daha uzundur ve dolayısıyla pozitif aşırı basıklığa sahiptir.

Momentlerin integralini ilgili toplamlarla değiştirerek bir örnekten basıklığı hesaplarsak, değer örnekteki aykırı değerlerin bir ölçüsüdür, yani basıklık için yüksek bir değer örnekte aykırı değerlerin varlığını gösterir.

Aşırı basıklığı hesaplamak için yukarıdaki formülden yine üç değerini çıkarıyoruz. Bu boyutsuz miktarın daha yüksek derecelerini şu şekilde tanımlayabiliriz:

Çarpıklık ve basıklığın ötesinde olmalarına rağmen bunlar pratikte nadiren kullanılır.

Tanımlayıcı İstatistik ve Dağılımlar

Şu ana kadar tartıştığımız konum ve dağılım parametreleri, hem veri noktalarının bir örneğini hem de ayrık veya sürekli bir olasılık dağılımını tanımlamamıza yardımcı olabilir. Daha önce giriş bölümünde belirttiğimiz gibi, bu ölçümler örneklemin veya dağılımın davranışı hakkında daha fazla bilgi edinmek için çok faydalıdır, ancak birçok ayrıntıyı kaçınılmaz olarak göz ardı ettikleri için sadece bu ölçümlere güvenmeye dikkat etmeliyiz. Şimdi neden örnek veya olasılık dağılımını her zaman daha kapsamlı bir şekilde anlamamız gerektiğini ve sadece ortalama, medyan, varyans veya diğer ölçümlere güvenmek yerine sahip olduğumuz tüm verilere bakmamız gerektiğini daha yakından inceleyeceğiz. İlk olarak aşağıdaki şekilde gösterildiği gibi “Anscombe’s Quartet”e (Anscombe’un Dörtlüsü) bakacağız:

Dörtlü (quartet), eşit uzunlukta dört veri noktasından oluşur. Her set aynı örnek ortalamasına ve örnek varyansına sahiptir. Bir regresyon çizgisi eklersek, uyum kalitesine ilişkin bir ölçütün yanı sıra eğitilen parametreler de aynıdır. Bu nedenle, yalnızca bu tanımlayıcı istatistik metriklerine bakarak, görsel olarak çok farklı olsalar bile dört veri kümesini birbirinden ayıramayız. İlgili verileri de kullanıma sunan Mateika ve Fitzmaurice (2017) tarafından daha ileri ve daha eğlenceli bir veri seti geliştirildi. Hepsi hem x hem de y yönünde aynı ortalamaya ve standart sapmaya sahip olan birden fazla veri seti oluşturdular. Bu veri kümeleri, bir dinozoru (aşağıdaki ilk şekilde gösterilmektedir) gösteren bir veri kümesini farklı şekillere dönüştürmeye başladıkları için “Datasaurus Dozen” (Datazor Düzinesi) olarak adlandırılır.

1. Soru:

Aşağıdaki örneğin varyansını (variance), çarpıklığını (skewness) ve aşırı basıklığını (excessive kurtosis) hesaplayın: 7,69, 6,51, 9,01, 9,74, 10,48, 6,01, 7,05, 6,17, 7,28.

Aritmetik ortalama her elemanın toplanıp eleman sayısına bölünmesidir.

Varyans her elemanın aritmetik ortalama ile farkının karesinin toplanıp eleman sayısına bölünmesidir.

Çarpıklık, her elemanın aritmetik ortalama ile farkının üçüncü kuvvetinin toplanıp eleman sayısına bölünmesiyle elde edilir.

Aşırı basıklık her elemanın ortalamadan çıkarılıp 4. katının alınması ve eleman sayısına bölünmesinin, her elemanın ortalamadan çıkarılıp 2. katının alınmasının eleman sayısına bölünmesinin karesine bölünmesinden 3 çıkarılmasıdır.

Ortalama = 97.69+6.51+9.01+9.74+10.48+6.01+7.05+6.17+7.28​=970.94​≈7.88

Varyans=(7.69−7.88)²+(6.51−7.88)²+…+(7.28−7.88)²/9

Varyans=2.31

Çarpıklık= 0.55

Kurtosis=-1.12

2. Soru:

A veri kümesinin basıklığı 5 ve B veri kümesinin basıklığı 8'dir. Hangi veri kümesi aykırı değerlere daha yatkındır?

Basıklık değeri 8 olan Veri Kümesi B, basıklık değeri 5 olan Veri Kümesi A’ya kıyasla dağılımında daha ağır kuyrukları gösterir. Daha ağır kuyruklar, aykırı değerlerin daha yüksek olasılığını ima eder. Bu nedenle Veri Kümesi B aykırı değerlere daha yatkındır.

3. Soru:

Bir Dağılımın çarpıklığı negatif ise bu dağılım sola mı sağa mı çarpıktır?

Bir dağılımın çarpıklığı negatifse bu, dağılımın sola çarpık veya negatif çarpık olduğu anlamına gelir. Bu durumda dağılımın sol kuyruğu sağ kuyruğa göre daha belirgin veya daha uzundur.

Özet

Tanımlayıcı istatistik, bir veri kümesini veya olasılık dağılımını birkaç sayıyla tanımlamak için değerli bir araçtır. Genellikle sabit bir sayı kümesine, veri örneğimize odaklandığımız örnek istatistikleri veya olasılık dağılımlarının davranışını tanımlayan ölçümleri dikkate alırız. Örnek veya dağılımın değer ekseninde nerede bulunduğunu tanımlamak için ortalama, medyan veya mod gibi konum parametrelerini kullanabiliriz. Ortalama, aykırı değerlerden ortalamaya göre daha az etkilendiğinden genellikle daha sağlam bir ölçümdür.

Bir örneklemin veya dağılımın aralığı, varyans veya standart sapma gibi bir dağılım parametresi ile tanımlanırken çarpıklık, dağılımın veya veri örnekleminin kuyruklarının ne kadar güçlü olduğunun simetrisini ve basıklığını ölçer. Daha genel olarak, merkezi momentler ile cebirsel momentler arasında ayrım yaptığımız momentlere göre bir olasılık dağılımı tanımlayabiliriz. Ortalama birinci cebirsel moment, varyans ise ikinci merkezi momenttir. Belirli bir ℎ(x) fonksiyonu tarafından dönüştürülen bir değişkenin beklenti değeri, olasılık dağılımlarının davranışını tanımlamak için önemli bir kavramdır. Dönüştürülen değişken ℎ(X)’in beklenen değeri kolaylıkla hesaplanabilir. Yeterince geniş bir veri noktası örneğine erişimimiz varsa, pratikte genellikle beklenen değere örnek ortalaması ile yaklaşabiliriz, yani 〈x〉 ≈ E [X].

--

--

Cahit Barkin Ozer

Daha fazla şey öğrenmek ve daha iyi olmak isteyen bir yazılım mühendisi.