İstatistiğe Giriş

30 min readApr 17, 2024

Olasılık teorisi, Kolmogorov Aksiyomları, Olasılık Dağılımları, Boyutsallık Sorunları, Temel Bileşen Analizi ve Diskriminant Analizini öğreniyoruz.

İstatistiğin temel yönlerini anlayacağız, Kolmogorov Aksiyomlarını tanımlayacağız, boyut sorunlarını tartışacağız ve temel bileşenleri (principal components) ve doğrusal diskriminant (linear discrimination) analizini kavrayacağız.

İstatistik, gerçekleri ve verileri toplama, sunma, analiz etme ve yorumlama bilimi olarak tanımlanır.

İstatistik bilimi genellikle iki ana dala ayrılır ve olasılık teorisi bunlar arasında köprü kurmak için kullanılır:

Tanımlayıcı istatistik (descriptive statistics): Tanımlayıcı istatistik, gözlemlenen verilerin sunulması ve analiz edilmesinden oluşur. Tanımlayıcı istatistik kendisini kesinlikle belirli bir grup gözlemlenen birimden (örneğin insanlardan) toplanan verilerle sınırlar. Verilerin daha büyük bir popülasyondan geldiği varsayılmaz ve gözlemlenmeyen verilerden herhangi bir çıkarım yapılmaz.
Çıkarımsal istatistik (Inferential statistic): İstatistiksel yöntemler kullanılarak, bir popülasyonun alt kümesinden (örneklem/sample) elde edilen veriler, daha büyük bir popülasyonun karşılık gelen verilerini tahmin etmek için kullanırlar. Örneğin, bir örneğin aritmetik ortalaması kullanılarak tüm popülasyonun aritmetik ortalaması tahmin edilir. Tahminler noktalar veya aralıklar şeklinde olur.

Dünyamız doğası gereği deterministik olmadığından, gözlemleri tanımlamak için istatistiksel yöntemlere başvurmak zorundayız. Ayrıca geniş bir veri koleksiyonunun tartışılmasını da dikkate almalıyız. Tek bir birimin davranışını ayrıntılı olarak tanımlayabilsek bile, bunu tüm popülasyon için yapmak için istatistiksel yöntemlere ihtiyaç vardır. “Nüfus” teriminin sadece insanlar için değil aynı zamanda daha geniş anlamda ölçülebilir her türlü nesneyi de kapsayacak şekilde kullanıldığını unutmamalıyız. “Ölçüm” terimini ele alırsak, bu, genel olarak nesnelerin rengini, bir oteldeki oda servisinin kalitesini, öğrenme sonuçlarını vb. gözlemlemek gibi bir “gözlem”i içerir.

Farklı türdeki nesnelerin ölçümüne olanak sağlamak için farklı ölçüm seviyeleri ayırt edilir. Yaygın olarak kullanılan dört farklı ölçüm düzeyi vardır:

Nominal ölçek: Yaşanılan ülke veya ağaç türü gibi değerlere nesnelerin olası değerlerini belirten etiketler atanır. Etiketler hesaplamalar için kullanılamaz. “Fransa”, “Almanya” ve “İtalya” etiketlerinin ortalamasını hesaplamaya çalışmak anlamsızdır. Etiketlere “1”, “Fransa” vb. gibi sayısal değerler atadığımızda da bu durum geçerlidir. Ancak iki kişinin saç renginin farklı olduğunu (ya da olmadığını) söyleyebiliriz. Nominal olarak ölçeklendirilmiş nesneleri değerlerine göre sıralamak anlamlı değildir: Siyahın kahverengiden daha yüksek veya daha düşük bir değere sahip olduğunu söyleyemeyiz.
Sıralı ölçek (ordinal scale): Bazı nesne kategorileri bir sıraya göre düzenlenebilir. Bunlar genellikle sıralamalardır (rankings): Yetersiz, tarafsız veya tatmin edici gibi. Nominal ölçekte olduğu gibi değerler etiketlerle gösterilir, ancak sayısal değerler de kullanılabilir. Sıralı ölçekteki değerlerle ilgili doğal bir sorun, iki değer arasındaki farkın iyi tanımlanmamış olmasıdır. Her ne kadar “tatmin edici değil” ile “nötr” arasındaki farkın “nötr” ile “tatmin edici” arasındaki farkla aynı olduğunu umsak da, durumun böyle olacağı hiçbir şekilde garanti edilmez. Dolayısıyla etiket yerine sayısal değerler kullansak bile farkların ve oranların hesaplanması uygun değildir.
Aralık ölçeği (interval scale): Bu ölçekte, birimler arasındaki mesafeler eşittir. 1 cm’lik uzunluk cetvelin neresine alınırsa alınsın aynıdır. 50 kg ile 55 kg arasındaki fark, 65 kg ile 70 kg arasındaki farkla aynıdır. 0 (sıfır) değer noktası, ölçekteki olası noktalardan biridir, çünkü hem negatif hem de pozitif değerler mümkündür. Demek ki dünkü +5°C sıcaklığın bugünkü -5°C’nin iki katı olduğunu söylemenin bir anlamı yok.
Oran ölçeği (ratio scale): Oran ölçeği, aralık ölçeğinden yalnızca bir açıdan farklıdır ancak bu fark önemlidir: Ölçekteki 0 (sıfır) noktası mümkün olan en düşük noktadır. Tipik olarak ölçüm terazileri bu türdendir; örneğin uzunluk ve ağırlık. Dolayısıyla bir kişinin ağırlığının, bir başkasının ağırlığının üçte biri kadar olduğunu söylemek caizdir. Ağırlık açısından oranları 1:3'tür.

Olasılık Teorisi

Genel anlamda olasılık teorisi, sonuçları belirsiz olan olaylarla ilgilidir. Bu, modellerin veya denklem dizilerinin bir olayın sonucunu öngördüğü deterministik olaylarla tezat oluşturur. Olasılık teorisi, rastgele deneylerde olduğu gibi belirsizlikle başa çıkmamıza yardımcı olur. Olasılık teorisinin sağladığı aksiyomlar, belirsiz (rastgele) olayların sonuçlarını ölçmemize yardımcı olur.

Aşağıda olasılık teorisinde bulunan yaygın terimler bulunmaktadır:

Rastgele Deney (Random Experiment): Sonucun kesin olarak tahmin edilemediği deneylere rastgele deney veya tesadüfi deney denir. Bariz örnekler, yazı tura atılması veya zar atılmasıdır. Ancak bir elektrik ampulünün ya da araba motorun gibi ürünlerin ömrü konusunda da rastgele bir deneyden söz edebiliriz. Her iki durumda da yaşam sürelerinin deterministik olmadığını ve rastgele olduğunu varsayıyoruz. Her durumda birden fazla sonucun mümkün olduğunu ve her elektrik ampulünün ve her araba motorunun muhtemelen farklı bir ömre sahip olduğunu sezgisel olarak anlıyoruz.
Örnek Uzay, Olay ve Sonuç (Sample Space, Event and Outcome): Rastgele bir deneyin tüm olası sonuçlarının kümesine örnek uzay denir ve S ile gösterilir. Bir küme, farklı öğelerin tanımlanmış bir koleksiyonudur. Bir olasılık ölçüsü P, her bir olayın sıfır veya daha fazla sonuç içerdiği olaylara olasılıklar atar. Sonuç, rastgele bir deneyin sonucudur. Bireysel sonuçlar genellikle daha karmaşık olaylar halinde gruplandırılır. İmkansız bir olayın (bir zarın 7 gelmesi gibi) olasılığı sıfırdır. Kesin bir olayın (altı sayıdan herhangi birinin bir zarda gelmesi gibi) olasılığı 1'dir.
Rastgele Değişken (Random Variable): Değeri rastgele bir deneyin sonucuna bağlı olan değişkene rastgele değişken denir. Diğer değişkenlerde olduğu gibi rastgele bir değişken de kesikli veya sürekli olabilir. Yazı-tura atışının değer kümesi (olası tüm sonuçlar) iyi tanımlandığından, bu tür rastgele deneyler ayrık bir rastgele değişkenle sonuçlanacaktır. Öte yandan, rastgele bir deneyin sonucu geniş bir gerçek değerler kümesini kapsayabiliyorsa, ilişkili rastgele değişken sürekli tipte olacaktır.
Beklenti Değeri (Expectation Value): Ayrık rastgele değişkenler için beklenti değeri veya beklenen değer, tüm olası değerlerinin olasılık ağırlıklı ortalamasıdır. Bu, bir zarın atılmasıyla kolayca gösterilebilir. Tek bir zar atışında eşit ağırlıkta altı olasılık bulunduğundan her olası sonucun olasılığı 1/6 olacaktır. Dolayısıyla beklenti değeri şu şekildedir: 1 · 1/6 + 2 · 1/6 + 3 · 1/6 + 4 · 1/6 + 5 · 1/6 + 6 · 1/6 = 21/6 = 3,5 . Aynı kavram, değişkenin olasılığına ilişkin bir integralin toplamın yerini alması dışında sürekli rastgele değişkenler için de geçerlidir.
Birleşim, Kesişme, Tümleyen A (Union, Intersection, Complement A): Herhangi iki A ve B olayı için, A∪B birliği, A veya B’de olan tüm sonuçlardan oluşur. Dolayısıyla A∪B olayı, A veya B’den herhangi birinin gerçekleşmesi durumunda gerçekleşir. Herhangi iki A ve B olayı için A ∩ B kesişimi, hem A hem de B’de olan tüm sonuçları içerir. Dolayısıyla A ∩ B olayı, hem A hem de B’de meydana gelirse gerçekleşir. A ∩ B = ∅ ise A ve B olaylarının birbirini dışladığı söylenir. Bu nedenle A ve B olaylarının her ikisi de aynı anda gerçekleşemez. Herhangi bir A olayı için A olayı tanımlanır. A, A’nın tamamlayıcısını ifade eder ve S örnek uzayındaki A’da olmayan tüm sonuçları içerir. Literatürde çoğu zaman tümleyen aynı zamanda A^c olarak da yazılır. Bu nedenle A olayı, A gerçekleşmediği takdirde gerçekleşir. A ∩ A = A (kümenin kendisiyle kesişimi boş kümedir) ve A ∪ A = S (bir kümenin kendisi ile birleşimi evrensel kümedir) olduğunu unutmayın. Gösterimlerin bir özeti aşağıdaki tabloda gösterilmektedir.

Venn Diyagramları (Venn Diagrams): Venn diyagramları, kümelerin birleşimi, kesişimi ve tamamlayıcısı kavramlarını göstermek için kullanışlıdır. 19. yüzyılda John Venn tarafından sonlu kümeler arasındaki ilişkileri grafiksel olarak görselleştirme amacıyla oluşturuldular. Olasılık teorisinde olaylar örnek uzayın alt kümeleridir; bu nedenle olayların özelliklerini ve işlemlerini görselleştirmek için Venn diyagramları da kullanılabilmektedir.

Adil bir zar atıldığında A tüm asal sayıların kümesidir ve B tüm olasılıkların kümesidir. Aşağıda görüleceği üzere 3 ve 5 hem tek hem de asal oldukları için kesişim içindedirler, 4 ve 6 ise ne tek ne de asal oldukları için bu kümelerin dışındadırlar.

Aşağıda Venn diyagramlarına diğer bazı örnekler verilmiştir:

Kolmogorov Aksiyomları

Andrey Kolmogorov’un ortaya attığı olasılık aksiyomları olasılık teorisinin merkezinde yer alır. O zamandan beri Kolmogorov Aksiyomları olarak bilinmektedirler. Orijinal çalışmasında Kolmogorov 5 aksiyom oluşturmuşsur ancak bunlar sonradan aşağıdaki 3 aksiyomda birleştirilmiştir:

Pozitiflik. Bir E olayının olasılığı P, negatif olmayan bir gerçek sayıdır: P (E) ⩾ 0, P(E) ∈ ℝ.
Normalleştirme. Örnek uzay S’ye ait en az bir olayın meydana gelme olasılığı 1'dir: P(S) = 1S.
Toplanabilirlik. Eğer iki A ve B olayı birbirini dışlıyorsa, bu durumda A veya B’nin meydana gelme olasılığı, A ve B’nin olasılıklarının toplamıdır: P (A + B) = P (A) + P(B). Bu aynı zamanda birbirini dışlayan olaylar dizisi için de geçerlidir, öyle ki Ai ∩ Aj = ∅ ∀i, j, sonra P (A1 ∪ A2 ∪ ⋯ ∪ Aj ∪ ⋯) = P (A1) + P (A2) + ⋯ + P (Aj) + ⋯

İlk iki aksiyom sezgiseldir: Mutlak frekansın yüzdesi (veya göreceli frekansı) gibi, olasılıklar da ne negatif ne de birden büyük olabilir. Üçüncü aksiyomdaki “birbirini dışlayan” ifadesi, A ve B olaylarının hiçbir ortak öğeye sahip olmadığı anlamına gelir.

Bir zar attığımızı hayal edersek bunu biraz daha iyi anlayabiliriz. Yukarıdaki şekle baktığımızda, şeklin b) bölümünde birbirinden bağımsız iki A ve B olayı gösterilmektedir. Örnek uzayında sadece bunlar olduğu için, birleşik olasılıkları bir ile sonuçlanmalıdır. Bu, A olayının 1 ve 5, B olayının ise 2, 3, 4 ve 6 sonucunu belirlediği bir zar atma durumu olacaktır: P A = 2/6 + P B = 4/6 = 6/6 = 1. A ve B olaylarının ortak elemanları yoktur, bu nedenle üçüncü aksiyomun koşulu yerine getirilmiştir.

Ancak pratikte olaylar birbiriyle kesişebilir. A olayı 1 ve 5'in, B olayı ise 2, 3, 4, 5 ve 6'nın yuvarlanmasının sonucunu belirtsin. Olasılıkları sırasıyla 2/6 ve 5/6'dır ve toplamları 7/6'dır. Böyle bir olasılığa izin verilemez, çünkü ikinci aksiyoma (normatiflik) aykırıdır. Bunun nedeni, elbette, “5 atma” olayını iki kez saymış olmamızdır. Bu özel olay A ve B’nin kesişiminde yer almaktadır ve çözüm, doğru toplama ulaşmak için olasılığını çıkarmaktır:

P (A + B) = P (A) + P (B) − P (A ∩ B)

Şartlı Olasılık (Conditional Probability)

Koşullu olasılık, bir olayın meydana gelmesinin mevcut bir olayın değerlendirilmesi hakkında daha fazla bilgi verebileceği bilgisini içerir. A ve B olmak üzere iki olayımız olduğunu varsayalım. B’nin zaten gerçekleştiğini biliyorsak (veya varsayıyorsak), A olayının da gerçekleşme olasılığını ifade etmek isteriz. Bu, şu şekilde tanımlanan koşullu olasılıktır:

P (A | B) = P (A ∩ B) / P (B)

“B göz önüne alındığında A olasılığı” olarak telaffuz edilen P (A | B) niceliği, B zaten gerçekleşmişse (veya varsayılmışsa) A olayının gerçekleşme koşullu olasılığıdır. A ve B olayları bağımsızsa, P (A | B) = P (A) olur, çünkü bu durumda A ve B olayları birbirlerini etkilemeden gerçekleşebilir.

A olayının olasılığını bileşenlerine ayırmak için koşullu olasılığı kullanabiliriz:

P (A) = ∑i P(A | Bi) P(Bi)

Bu “toplam olasılıklar yasası” olarak bilinir. Bu ayrıştırmanın avantajı, birçok durumda daha küçük parçaların A için toplam olasılıktan daha kolay ölçülebilmesidir.

Örneğin, bir makine düşünün. Makinenin arızalanmasının toplam olasılığını bulmak oldukça zordur. Bununla birlikte, muhtemelen makinenin arızalanmasına yol açacak birkaç özel olay Bi’leri hayal edebiliriz ve yukarıdaki denklemi kullanarak, toplam arıza olasılığı A’yı, makinenin arızalanabileceği tüm (bilinen) yolların bir toplamı olarak, meydana gelme olasılığı ile ağırlıklandırılarak ifade edebiliriz.

Bir rastgele değişken söz konusu olduğunda, bu değişkenin belirli bir değer aldığını düşünürsek, bu rastgele değişkeni “koşullandırdığımızı” söyleriz. Örneğin, x değerini alan bir X rastgele değişkenini ele alırsak (yani X = x), X = x verildiğinde A olayının gerçekleşme olasılığı P (A | X = x) ile verilir. Daha sonra bunun X = x koşullu A olasılığı olduğunu söyleriz.

Örnek:

Diyelim ki bir popülasyondaki bireylerin %0,1'inin belirli bir hastalığı taşıdığının bilindiği bir durum var. Ayrıca, hastalığın varlığının yalnızca özel ekipman kullanılarak tespit edilebildiğini varsayıyoruz. D, rastgele bir bireyin söz konusu hastalık için pozitif test yapması durumu olsun: P (D) = 0.001.

Bireyleri söz konusu hastalık için test ederken, test ekipmanının hastalığı tespit etmede tamamen doğru olmadığı gerçeğine izin vermeliyiz. Bu gerçek aşağıdaki olasılıklara yol açmaktadır:

Test sonucu pozitiftir ve doğrudur (gerçek pozitif; TP).
Test sonucu pozitiftir ve yanlıştır (yanlış pozitif; FP).
Test sonucu negatiftir ve doğrudur (gerçek negatif; TN).
Test sonucu pozitif ve yanlış (yanlış negatif; FN).

Bunu koşullu olasılıkları kullanarak da ifade edebiliriz: Kişinin hastalığa sahip olduğu göz önüne alındığında, testin pozitif veya negatif olma olasılığı nedir, yani P (T + | D +) bunlar gerçek pozitifler veya P (T — | D +) bunlar yanlış pozitiflerdir.

Aşağıdaki tabloyu kullanarak TP, TN, FP ve FN kavramlarını gösterebiliriz:

Burada: D + “hastalık var” ve D — “hastalık yok” anlamına gelir.

Bu tablo aşağıdaki şekilde yorumlanabilir:

1000 kişiden 10'u hastalığı taşımaktadır. 10 taşıyıcıdan 9'u pozitif (gerçek pozitif; TP) ve 1'i negatif (yanlış negatif; FN) sonuç vermiştir.
1000 kişiden 990'ı hastalığı taşımamaktadır. Taşıyıcı olmayan 990 kişiden 792'sinin test sonuçları negatif (gerçek negatifler; TN) ve 198'inin sonuçları pozitiftir (yanlış pozitifler; FP).

Testin bir hastalığı olan ve olmayan kişiler arasında ne kadar iyi ayrım yaptığını tanımlamak için duyarlılık ve özgüllüğü hesaplarız.
Yukarıdaki örnekteki sayıları kullanarak Duyarlılığı, mevcut bir hastalık koşulu altında pozitif bir test sonucu olasılığı olarak tanımlayabiliriz:

P (P | D +) = TP sayısı / (TP sayısı+ FN sayısı) = 207/ (207 + 1 ) = 0.995

Spesifiklik, hastalığın mevcut olmaması durumunda negatif test sonucunun olasılığıdır:

P (N |D−) = TN sayısı/ (TN sayısı + FP sayısı) = 793/ 793 + 198 = 0.800

Testin hastalığa ne kadar iyi hükmettiğini bulmak için, pozitif testin öngörücü değerine bakarız; bu değer, testi pozitif çıkan kişilerin hastalığa yakalanma oranıdır. Bu, pozitif bir testte test sonrası hastalık olasılığı ile aynıdır:

P (D+| P) = Number of TP / Number of TP + Number of FP = 207/ 207 + 198 = 0.511

Testin hastalığı ne kadar iyi ekarte ettiğini bulmak için, negatif testin prediktif değerine bakarız; bu, negatif testli hastaların hastalığa sahip olmayanların oranıdır:

P (D−| N) = TN sayısı/ (TN sayısı + FN sayısı)= 793/ 793 + 1 = 0.999

Olasılık Dağılımları (Probability Distributions)

Daha önce rastgele değişken kavramını, sayısal değerinin (potansiyel olarak gelecekteki) rastgele bir deneyin sonucuna bağlı olduğu bir nicelik olarak tanıtmıştık. Matematiksel gösterimde, “X rastgele bir değişkendir” X:S → ℝ şeklinde yazılır. Bu, böyle bir rastgele değişkenin bir sonraki sonucu gözlemlediğimizde alacağı her değeri tahmin edemeyeceğimiz anlamına gelir. Ancak bu, rastgele bir sistemin genel özelliklerini tanımlayamayacağımız anlamına gelmez.

Matematikte “rastgele” kelimesi, her sonucun eşit derecede olası olduğu anlamına gelmez, ancak bazı sonuçların veya rastgele bir değişkenin değerlerinin diğerlerinden daha sık olabileceği anlamına gelir. Örneğin, günlük deneyimlerimizde piyango numaralarının çekilişinden, adil bir zarın atılmasından veya adil bir madeni paranın atılmasından çıkan sonuçtan rastgele olarak bahsederiz.

Bu örneklerde her bir sonuç eşit olasılıktadır: Bir zarda bir ile altı arasında herhangi bir sayı atabiliriz ya da yazı tura eşit olasılıkla tura ya da yazı gelebilir. Bu stokastik süreçler (rastgele değişkenlerle tanımlanan sistemler) gerçekten de rastgele deneylerdir ancak her sonuç eşit olasılıklıdır.

Bununla birlikte, bu gerekliliğin yerine getirilmediği bir durumu kolayca hayal edebiliriz (örneğin, bir tarafı diğerinden daha ağır olduğu için bu tarafa düşme eğiliminde olan bir madeni para veya belirli bir sayıda ek bir ağırlığa sahip bir zar). Bu, taraflı bir madeni parayı çevirmek veya taraflı bir zarı yuvarlamak gibi her bir deneyin sonucunun hala her bir deney için tahmin edilemese de, şimdi bir sonucun diğerlerinden çok daha olası olduğu anlamına gelir.

Olasılık dağılımları ya kesikli olabilir, yani değişken yalnızca belirli (genellikle tam sayı) değerler alabilir ya da sürekli (herhangi bir değer alabilir) olabilir.

Olasılık teorisinde, bir olasılık dağılımı, bir rassal değişkenin alabileceği değerlerin ve bu değerlerin olasılıklarının bir listesidir. Genellikle büyük harflerle gösterilir. “~” işareti, bir dağılımın belirli bir yapıyı takip ettiğini ifade eder.

Örneğin, “X~B(1/3)” ifadesi, “X” değişkeninin bir Bernoulli dağılımını takip ettiğini ve başarı olasılığının 1/3 olduğunu belirtir. Yani, X’in değerleri 0 ve 1 olabilir ve başarı olasılığı 1/3'tür. Olasılık dağılımının bireysel değerleri genellikle küçük harflerle gösterilir, örneğin “x”. “X” ve “x” arasındaki fark, “X” tüm olası değerleri temsil ederken, “x” belirli bir gerçek değeri temsil eder. “Daha resmi bir ifadeyle, bu bir eşlemedir; örnek uzaydaki her olay bir gerçel sayıya eşlenir.” dersek, rassal değişkenin örnek uzayındaki olayların gerçel sayılar kümesine bir eşleme olduğunu ifade ederiz. Bu, her olayın gerçel sayılar kümesinde bir değere karşılık geldiği anlamına gelir. Bu, olasılık teorisinin temel bir kavramıdır.

Eşlemeler (Mappings)

Matematiğin temel yapı taşları, oldukça genel koleksiyonlar olan kümelerdir. Kümeler, küme teorisinin çalışma konusudur.

Bir örnek uzay, bir deneyin sonuçlarının oluşturabileceği tüm mümkün sonuçların kümesidir. Örneğin, bir zar atma deneyinde örnek uzay, {1, 2, 3, 4, 5, 6} gibi olur. Bu, mümkün tüm sonuçların listesidir. Bir eşleme veya harita, iki küme arasında bir ilişki tanımlar. Diyelim ki A ve B iki kümemiz olsun. Bir eşleme, her bir A elemanını tam olarak bir B elemanıyla eşleyen bir ilişki tanımlar. Yani, her A elemanı bir ve yalnızca bir B elemanıyla eşleştirilir.

Bunu bir örnekle açıklayalım: A kümesi 1, 2, 3 sayılarından oluşsun ve B kümesi karelerinden oluşsun. Yani, A = {1, 2, 3} ve B = {1, 4, 9} olsun. Şimdi, A ve B arasında bir eşleme tanımlayalım: (1, 1), (2, 4), (3, 9). Bu eşleme, her bir A elemanını tam olarak bir B elemanıyla eşler. Genellikle, bir eşleme, bir tanım alanı (burada A) ve bir hedef küme (burada B) ile belirtilir. Bir dönüşüm (veya “makine”) gösterimi kullanarak, bir elemanın eşlendiği elemanı ifade edebiliriz. Yani, bir a elemanı için b elemanının gösterimi f(a) şeklinde olur. Örneğin, f(2) = 4 ifadesi, 2'nin 4 ile eşlendiği anlamına gelir. Bu bize, örneğin f(a) + x gibi ifadeler kullanarak eşlemede yapılabilecek matematiksel işlemleri ifade etme olanağı sağlar.

Bazı eşleme örnekleri:

(x, x²) ile tanımlanan ve genellikle f (x) = x² şeklinde yazılan f:ℝ →ℝ gibi reel fonksiyonlar.
Uzaydaki eğrilerin parametrik denklemleri, örneğin f (t) = (cos(t), sin(t), t) ile tanımlanan f:ℝ → ℝ³ spiralininki gibi.
xn = 1 /(3 + 5 — n) ile tanımlanan x:ℕ →ℝ harmonik dizisi gibi sayı dizileri.
Kalan fonksiyonunun tersi gibi biraz düzensiz tanım alanlarına sahip reel fonksiyonlar: f (x) = 1/ (x — floor (x)) ile tanımlanan f:ℝ — ℕ →ℝ (burada ℝ — ℕ tamsayı olmayan reel sayılar kümesidir).
Rastgele değişkenler (dağılımlar olarak da adlandırılır), ayrık veya sürekli bir hedef kümesi olan X:S →ℝ eşlemeleridir.

Ayrık bir olasılık dağılımı, her olası değere bir olasılık atayan olasılık kütle fonksiyonu ile karakterize edilebilir.

P (X = x) = f_X(X)

Sürekli bir olasılık dağılımı, kümülatif dağılım fonksiyonu P (X ≤ x) ile karakterize edilebilir. Hesaplanması genellikle daha kolay olduğu için, genellikle olasılık yoğunluk fonksiyonu f_X(x) kullanılır. Bu, f_X fonksiyonu olarak tanımlanır, öyle ki:

Genellikle kümülatif dağılım, olasılık yoğunluk fonksiyonuna karşılık gelen büyük harfle gösterilir. Örneğin, olasılık yoğunluk dağılımı f (.) = … ile veriliyorsa, kümülatif dağılım için karşılık gelen formül F (.) = …. şeklinde yazılır.

Notasyonu daha somut hale getirmek için aşağıdaki örneğe bakalım: X rastgele değişkeninin dağılımı bir Gauss (veya Normal) dağılımını izler (veya: buna göre dağılır). Bunu şu şekilde yazabiliriz:

X~N(μ, σ)

Dağılımın yoğunluğu şu şekilde verilir:

Dağılımın yoğunluğu, normal dağılımın ortalaması için μ ve standart sapması için σ parametrelerine bağlıdır. X rastgele değişkeninin aldığı değerler daha sonra x gibi küçük bir harfle gösterilir. Bu nedenle, X değişkeninin x sayıları kümesi, yukarıdaki örnekte Gauss dağılımı gibi bazı olasılık dağılımlarına göre dağıtılır.

Genellikle, bunu daha açık hale getirmek için başvurmak istediğimiz rastgele değişkeni belirtmek için bir alt simge kullanılır. Yukarıdaki örnekte, X değişkeninin davranışını tanımlamak için f olasılık yoğunluk fonksiyonunun kullanıldığını ifade etmek için f_X(x) yazabiliriz. Bu gösterimin kısmi türevlerin gösterimine benzediğini, ancak karıştırılmaması gerektiğini unutmayın. Kısmi türevlerde, kısmi türevini aldığımız değişkeni belirtmek için bir alt simge kullanılır. Burada alt simge, fonksiyonun bir değişkenin davranışını tanımladığını ifade etmek için kullanılır. Ayrıca, parametreler genellikle yoğunluğun tanımına dahil edilir.

Yukarıdaki denklem örneğinde, parametreleri açıkça dahil etmedik. Genellikle, literatürde şu gösterimi de bulabiliriz: f (x; λ1, λ2, …) . Burada parametreleri açıkça belirtiyoruz. Bağımsız değişken (x), parametrelerin fonksiyonun değerlendirilmesi dışında belirlendiğini ifade etmek için parametrelerden (λ1, λ2, …) noktalı virgül ile ayrılmıştır. Bir önceki örneğimizde, yukarıdaki denklem yerine. Şöyle yazabiliriz:

f (x; μ, σ) = 1/2πσ * e^( − (x − μ)² / (2σ²))

Bu şekilde, f(.) dağılımını karakterize eden μ ve σ parametreleri açık hale getirilir ve X değişkeninin belirli xi değerlerinde f(.) fonksiyonunu değerlendirmek istiyorsak μ ve σ değerlerini bilmemiz gerekir.

Daha önceki Kolmogorov aksiyomları nedeniyle, olasılık dağılımlarının aşağıdaki özelliklere sahip olduğunu belirtmiştik:

Pozitiflik: Olasılık dağılımının değeri f_X(x) her zaman pozitif yarı tanımlıdır, yani f_X(x) ⩾ 0 ∀x.
Normalleştirme: Olasılık dağılımı her zaman normalize edilir, yani kesikli olasılık dağılımları için ∑_if(xi) = 1 ve sürekli dağılımlar için ∫_-∞^∞ f(x)dx = 1. Bu, “bir şeyin” olması gerektiği, yani dağılım tarafından tanımlanan olaylardan birinin gerçekleşmesi gerektiği anlamına gelir. Basit bir dille bir şeyin olasılığı 0 ile 1 arasına indirgenir. Bu aralıkta olmayan olasılık dağılımları kural gereği geçerli değillerdir.

Sürekli olasılık dağılımları için, olasılığın belirli bir değer için değil, her zaman bir aralık için atandığına dikkat edin. Bu, x rastgele değişkeninin tam değerinin x = 3.14 olma olasılığını belirtmediğimiz, ancak belirli bir a ⩽ x < b aralığında olduğu anlamına gelir.

P(a ⩽ x < b) = ∫_a^b f(x)dx

Bu aynı zamanda belirli bir a = b değeri için olasılığın her zaman sıfır olduğu anlamına gelir. En önemli kesikli olasılık dağılımlarını ilk tabloda, sürekli dağılımları ise aşağıdaki ikinci tabloda özetliyoruz:

Bunlardan bazılarını daha sonra daha ayrıntılı olarak tartışacağız. “Notasyon” sütununda bir değişkenin belirli bir dağılımı izlediğini ifade etme biçimimize atıfta bulunuyoruz ayrıca “pmf” sütunu dağılımın fonksiyonel biçimini listeliyor. Tabloda her zaman bir X değişkenine atıfta bulunduğumuzu varsayıyoruz ve bu nedenle f_X(x) alt simgesini kullanıyoruz.

Basitlik açısından, dağılımın parametrelerini tanımın kendisine dahil etmiyoruz, yani f_X(x; λ1, λ2, …) yerine f_X(x) yazacağız.

Şu ana kadar ele aldığımız olasılık dağılımları, hepsinin tek bir rastgele değişkeni temsil etmesi bakımından benzerdir. Bu kavramı genişletebilir ve iki veya daha fazla değişken için olasılık dağılımları tanımlayabiliriz. Buna ortak olasılık dağılımı denir. X ve Y olmak üzere iki değişken söz konusu olduğunda, olasılık dağılımı, x ve y üzerindeki fonksiyonel bağımlılığı belirtmek için f_X, Y (x, y) ile gösterilir.

Sürekli dağılımlar durumunda aşağıdaki integraller tarafından verilen marjinal dağılımı tanımlayabiliriz:

Sezgisel olarak, marjinal dağılımlar, ortak dağılımın izdüşümüne baktığımız anlamına gelir, öyle ki sadece bir eksen boyunca varyasyonu tutarız ve diğer(ler)ini “entegre ederiz” (veya … toplarız). Yine, bu durumda alt simgenin kısmi türevi değil değişkeni gösterdiğine dikkat edin.

Bu nedenle, fX, Y (x, y) ifadesindeki X ve Y değişkenlerine baktığımız ve f(.) fonksiyonunun bunların davranışını tanımladığı anlamına gelir; x ve y ile ilgili kısmi türevler aldığımız iki boyutlu bir f x, y fonksiyonuna baktığımız anlamına gelmez. Genellikle sadece bağlamdan anlaşılır.

Ancak, çoğu durumda kısmi türevler küçük harflerle gösterilir. Biz kısmi türevleri ∂f / ∂x gibi semboller kullanarak ifade edeceğiz.
Daha sonra iki boyutlu durumu daha fazla rastgele değişkene genişletebiliriz, yani x ve y yerine x1, x2, …, xn değişkenlerini kullanırız.

Örneğin, bir x = x1, x2, …, xn rastgele değişken vektörünün çok değişkenli Gauss veya normal dağılımı şu şekilde verilir:

Burada μ ortalamaların vektörünü ve Σ Gauss dağılımını tanımlayan kovaryans matrisini göstermektedir.

Yukarıdakilere ilişkin dağılım aşağıda görselleştirilmiştir:

İki Boyutta Örnek Çok Değişkenli Gauss Dağılımı

Not: Bir değişkenin marjinal dağılımı, yalnızca ilgi dağılımına odaklanarak, ortak dağılımdaki diğer tüm değişkenlerin “marjinalleştirilmesi” yoluyla elde edilir. Bu, birçok istatistiksel ve olasılıksal uygulamada yararlı olan bireysel değişkenlerin olasılık dağılımını diğerlerinden bağımsız olarak analiz etmemize olanak tanır.

Örneğin bir motorun bu ay içinde bozulma olasılığı yaş, basınç, sıcaklık, nem, kullanılma miktarı gibi bir çok farklı değişkene bağlı olsun. Biz yalnızca nem ile olan ilişkisini öğrenmek istiyoruz çünkü birileri bu motoru sel altında bırakmış. Bunun için marjinal olasılık dağılımını kullanırız. Burada bakılan değişken sürekli olduğu için aşağıdaki alttaki denklemi kullanırız, ayrık olsa mesela motorun yaşı gibi o zaman üsttekini kullanırdık.

Örneklem ve İstatistikler

İstatistikte bir popülasyondan bahsettiğimizde, ölçülebilir herhangi bir nesneye atıfta bulunduğumuzu zaten tespit etmiştik. Ayrıca, popülasyondan alınan yalnızca birkaç gözlemden oluşan bir örneklemin aksine, bir popülasyonun bir veri kümesinin tüm unsurlarını içerdiğini anlıyoruz. Örneklem almamızın ana nedeni, popülasyonun boyutunun genellikle her bir nesneyi ölçmek için çok büyük olmasıdır. Bir nesneyi ölçmeden önce, o nesnenin ilgilendiğimiz nitelik(ler)i hakkında net olmamız gerekir. Bu, daha önce tanıtılan ölçüm ölçeklerini göz önünde bulundurarak, bir kişinin ağırlığı veya bir üretim sürecinin gerçekleştiği sıcaklık olabilir.

Örneklemden elde edilen veri öğelerinden aritmetik ortalama veya standart sapma gibi ölçütleri hesaplayabiliriz. Altta yatan bir olasılık dağılımına ilişkin bir modelimiz varsa, bunu parametrelerini tahmin etmek için de kullanabiliriz. Bir popülasyondan elde edilen ölçümlere parametre de denir ve genellikle Yunan harfiyle gösterilir. Bir örneklemden elde edilen ölçümler örneklem istatistikleri olarak adlandırılır ve genellikle Latin harfiyle gösterilir. Bir örneklemin aritmetik ortalaması olan x bir istisnadır.

Sıra İstatistikleri (Order Statistics)

Sıra istatistikleri, örneği artan bir sırada tanımlar ve örneği yapılandırılmış bir şekilde tanımlamamıza yardımcı olur. Bir Y değişkeninin sıra istatistikleri Y 1 ⩽ Y 2 ⩽ Y 3 ⩽ … ⩽ Y n şeklinde gösterilir. En düşük sayısal değere sahip örnek gözlem birinci sıra istatistiği olarak bilinir. Örneklem büyüklüğü n olduğunda, n’inci dereceden istatistik maksimum değerdir, yani Yn = max(Y1, …, Yn). Örneğin, sıralı bir örneklemdeki gözlem sayısını çeyrekler olarak da bilinen dört eşit parçaya bölmek isteyebiliriz.

İlk çeyrek dilim Q1 olarak bilinen bir noktaya kadar olan ilk çeyreği, ikinci çeyrek dilim Q2'ye kadar olan ikinci çeyreği ve benzerlerini içerir. Q2 noktası ortanca olarak da bilinir: ortancanın altı ve üstü sırasıyla veri öğelerinin %50'sidir.

Örnek:
3, 7, 8, 5, 12, 14, 21, 13, 18} veri seti için, sıralama istatistiklerini bulmak için, önce gözlemleri artan veya azalan şekilde 3, 5, 7, 8, 12, 13, 14, 18, 21 olarak sıralarız. Örneklem büyüklüğü n = 9. X (1) = 3, X (9) = 21, medyan = 12, aralık R = 21–3 = 19.

Örneklem istatistiği olarak da bilinen bir popülasyon parametresi tahmini, başka hiçbir istatistik örneklem hakkında ek bilgi sağlamıyorsa ve popülasyon parametresi popülasyon içindeki bir örneklemden hesaplanabiliyorsa yeterlidir. Yani, tek bir örneklemden hesaplanan örneklem istatistiği, popülasyondaki olası tüm örneklemlerden elde edilen örneklem istatistiği kadar iyidir. Belirli bir örneklem için 1, 2, 3, 4 ve 5 numaralı gözlemlere sahipsek, hızlı hesaplamalardan örneklem ortalaması 3'tür. Gerçek örneklem verilerine sahip olmadan örneklem ortalamasını bilseydik, örneklem ortalamasına zaten sahip olduğumuz için (örneklemimiz olmasa bile) popülasyon ortalamasını tahmin ederken hiçbir şey kaybetmezdik. Bir başka örnek de örneklem için yeterli istatistik olan sıra istatistikleridir. İstatistikte yeterlilik değerlidir çünkü önemli ayrıntıları kaybetmeden veri azaltma işlemini gerçekleştirmemizi sağlar. Bu işleme kayıpsız veri sıkıştırma da diyoruz.

Diyelim ki bir sınıftaki öğrencilerin final sınavı notlarını inceliyoruz ve bu notların normal bir dağılım izlediğini düşünüyoruz. Bu durumda, sınıftaki öğrencilerin final sınavı notlarının ortalamasını (ortalama notu) tahmin etmek istiyoruz.

Öğrencilerin final sınavı notlarını gözlemledik ve bu gözlemleri X1,X2,…,Xn şeklinde temsil ediyoruz. Yeterli istatistik kavramını bu örnekte kullanarak açıklayalım.

Örneğin, öğrencilerin notlarının toplamını alalım (yani ∑_{i=1}^{n}Xi). Bu toplam, sınıftaki öğrencilerin final sınavı performansının özeti olarak düşünülebilir. Eğer bu toplam istatistiği T, ortalama notu tahmin etmek için yeterli ise, bu demek oluyor ki, T değeri bilindiğinde ortalama not hakkında ekstra bilgi elde edemeyiz.

Dolayısıyla, öğrencilerin notlarının toplamı T yeterli bir istatistik olabilir çünkü öğrencilerin sınav performanslarının toplamı, sınıfın ortalama notu hakkında bize tüm bilgiyi sağlayabilir. Bu şekilde, sınıfın ortalama notunu tahmin etmek için sadece bu toplamı kullanabiliriz.

Dolayısıyla, yeterli bir istatistiğe sahip olmak, yeterli bir örneklem istatistiği elde edildikten sonra popülasyon parametresini tahmin etmek için bir örneklem hakkında daha fazla bilgiye ihtiyaç duymadığımız anlamına gelir. Bir deney tek bir denemeden sonra modellenecekse (P(ℎead) = p ve P(tail) = 1 — p) 100 yazı tura atılmışsa, tura sayısının diyelim ki 53 olduğunu bulmak p parametresini tahmin etmek için yeterlidir.

Boyutsallık Sorunları (Dimensionality Problems)

Boyutsallık sorunları (bazen “boyutsallık laneti” olarak da adlandırılan ve ilk kez 1957 yılında Bellman tarafından ortaya atılan bir terim) ne kadar çok özelliği dikkate alırsak, verilerin o kadar seyrek hale geleceğini ve aşırı öğrenmekten kaçınmak için o kadar fazla veriye ihtiyaç duyacağımızı belirtir.

Boyutsallık sorunlarını daha iyi anlamak için , kedi ya da köpeği tasvir eden bir dizi görüntü içeren bir örneği inceleyelim.

Bu örnekte, köpekleri kedilerden otomatik olarak ayırt edebilen bir sınıflandırıcı oluşturuyoruz. Bunu yapmak için, öncelikle her nesne sınıfı (kedi, köpek) için nesneyi tanımak üzere sayılarla ifade edilebilecek bir tanımlayıcı düşünmemiz gerekiyor. Örneğin, kedi ve köpeklerin genellikle renk bakımından farklı olduğunu iddia edebiliriz. Bu iki sınıfı birbirinden ayıran olası bir tanımlayıcı üç sayıdan oluşabilir: görüntünün ortalama kırmızı rengi, ortalama yeşil rengi ve ortalama mavi rengi. Basit bir sınıflandırıcı, bu sözde kodda gösterildiği gibi sınıf etiketine karar vermek için bu özellikleri birleştirebilir:

If 0 . 5 * red + 0 . 3 * green + 0 . 2 * blue is greater than 0 . 75 return cat; else return dog;

Ancak, bu üç renk tanımlayıcı sayı (özellik) iyi bir sınıflandırma elde etmek için yeterli olmayacaktır. Bu nedenle, örneğin hem x hem de y yönündeki ortalama gradyan yoğunluğunu hesaplayarak görüntünün dokusunu tanımlayan bazı özellikler eklemeliyiz. Artık, kedileri köpeklerden ayırmak için bir sınıflandırma algoritması tarafından kullanılabilecek beş özelliğimiz vardır. Henüz tatmin olmadık ve daha fazla özellik eklemeye devam ediyoruz. Belki de birkaç yüz özelliği dikkatlice tasarlayarak mükemmel bir sınıflandırma elde edebiliriz. Bu sorunun cevabı mantıksız gelebilir: Hayır, elde edemeyiz! Aslında, belirli bir noktadan sonra, yeni özellikler ekleyerek boyutluluğu artırmak, sınıflandırıcımızın performansını gösterildiği gibi düşürecektir.

Boyutsallık arttıkça sınıflandırıcının performansı optimum özellik sayısına ulaşılıncaya kadar artar. Şimdi kedi ve köpek örneğine döneceğiz. Gezegenimizde sonsuz sayıda kedi ve köpeğin yaşadığını varsayıyoruz. Ancak zamanımızın ve işlem gücümüzün kısıtlı olması nedeniyle ancak 10 adet kedi ve köpek fotoğrafı elde edebildik. Sınıflandırmadaki nihai amaç, bu on eğitim örneğini kullanarak, hakkında hiçbir bilgimiz olmayan sonsuz sayıda köpek ve kedi örneğini doğru bir şekilde sınıflandırabilecek bir sınıflandırıcıyı eğitmektir. Basit bir doğrusal sınıflandırıcı kullanıp iyi bir sınıflandırma elde etmeye çalışıyoruz.

Tek Bir Özellik Kullanarak Kedi ve Köpekleri Ayırmak

Tek bir özelliğin eğitim verilerimizin iyi bir şekilde ayrılmasıyla sonuçlanmadığını not ediyoruz. Bu nedenle, aşağıdaki şekilde gösterilen ortalama “yeşil renk” özelliğini ikinci bir özellik olarak ekliyoruz. İkinci bir özelliğin eklenmesi yine de doğrusal olarak ayrılabilir bir sınıflandırma sorununa yol açmıyor: Hiçbir çizgi, tüm kedileri tüm köpeklerden ayıramaz. Son olarak üçüncü bir özellik eklemeye karar verdik.

Örneğimizde üçüncü bir özelliğin eklenmesi doğrusal olarak ayrılabilir bir sınıflandırma problemiyle sonuçlanır. Köpekleri kedilerden etkili bir şekilde ayıran bir düzlem mevcuttur. Bu, 10 görüntüden oluşan eğitim verilerimizde iyi sınıflandırma sonuçları elde etmek için üç özelliğin doğrusal bir kombinasyonunun kullanılabileceği anlamına gelir.

Bu örnek, mükemmel sınıflandırma sonuçları elde edilene kadar öznitelik sayısını artırmanın bir sınıflandırıcıyı eğitmenin en iyi yolu olduğunu gösteriyor gibi görünebilir. Ancak girişte durumun böyle olmadığını savunmuştuk. Sorunun boyutsallığını arttırdığımızda eğitim örneklerinin yoğunluğunun katlanarak nasıl azaldığına dikkat edin. Bir özellik durumunda, 10 eğitim örneği, genişliği beş birim aralık olan tek boyutlu özellik uzayının tamamını kapsıyordu. Bu nedenle örneklem yoğunluğu 10/5 = aralık başına 2 örneklemdi.

İki boyutlu durumda, hala 5 × 5 = 25 birim karelik bir alana sahip özellik uzayını kapsayan on eğitim örneğimiz bulunmakta.Bu nedenle örneklem yoğunluğu aralık başına 10/25 = 0,4 örneklemdi. Son olarak, üç boyutlu durumda, on örneğin 5 × 5 × 5 = birim küplük bir özellik alanı hacmini kapsaması gerekiyordu. Bu nedenle örneklem yoğunluğu aralık başına 10/125 = 0,08 ‘dır. Özellik eklemek, özellik alanının boyutluluğunun artması ve gittikçe seyrekleşmesi anlamına gelir.

Bu seyreklik nedeniyle, ayırıcı bir hiperdüzlem (yüksek boyutlu bir vektör uzayındaki bir düzlem) bulmak çok daha kolay hale gelir. Bunun nedeni, özelliklerin sayısı sonsuz derecede arttığında, bir eğitim örneğinin en iyi hiperdüzlemin yanlış tarafında bulunma ihtimalinin sonsuz derecede küçük hale gelmesidir.

Ancak yüksek boyutlu sınıflandırmayı daha düşük boyutlu bir uzaya yansıtırsak ciddi bir sorun ortaya çıkar. Çok fazla özelliğin kullanılması overfitting (aşırı öğrenme) ile sonuçlanır. Sınıflandırıcı, eğitim verilerine özel ayrıntıları öğrenmeye başlar. Örneğin, evcil hayvanın tasması varsa bunun bir köpek olduğunu öğrenir. Ancak görüntü verisetimizde tasmalı bir kedi bulunmamasına rağmen bazı kediler de tasma takabilir.

Veriler üç boyutlu uzayda doğrusal olarak ayrılabilirken, iki boyutlu uzayda durum böyle değildir. Daha iyi sınıflandırma sonuçları elde etmek için üçüncü boyutun eklenmesi, daha düşük boyutlu özellik uzayında karmaşık, doğrusal olmayan bir sınıflandırıcının kullanılmasına karşılık gelir. Sonuç olarak sınıflandırıcı, eğitim veri setimizin belirli örneklerinin görünümünü ve belirli ayrıntılarını öğrenir. Bu nedenle, ortaya çıkan sınıflandırıcı, genellikle bu belirli ayrıntılara uymayan, sonsuz miktarda görülmemiş kedi ve köpekten oluşan gerçek dünya verileri üzerinde başarısız olacaktır. Bu, boyutluluğun lanetinin doğrudan bir sonucudur.

Üç yerine yalnızca iki özellik üzerinde eğitim alan sonuçta ortaya çıkan sınıflandırıcı, aşağıdaki şekilde gösterildiği gibi oldukça farklı davranır. Basit doğrusal iki boyutlu sınıflandırıcı, yukarıdaki doğrusal olmayan sınıflandırıcıdan daha kötü performans gösteriyor gibi görünse de, bu basit sınıflandırıcı genelleme yapar (bir sınıflandırıcının, bu veriler eğitim verileriyle aynı olmasa bile, görünmeyen veriler üzerinde iyi performans gösterme yeteneği) görünmeyen verilere çok daha iyidir çünkü sadece eğitim verilerimizde bulunan belirli istisnaları tesadüfen öğrenmedi. Başka bir deyişle, daha az özellik kullanılarak, sınıflandırıcının eğitim verilerine gereğinden fazla uymaması nedeniyle boyutluluk lanetinden kaçınılmıştır.

Değeri sıfırdan bire kadar olan tek bir özelliği kullanarak bir sınıflandırıcıyı eğitmek istediğimizi varsayıyoruz. Ayrıca bu özelliğin her kedi ve köpek için benzersiz olduğunu da varsayıyoruz. Eğitim verilerimizin bu aralığın %20'sini kapsamasını istiyorsak, ihtiyaç duyulan eğitim verisi miktarı tüm kedi ve köpek popülasyonunun %20'sidir. İki boyutlu bir özellik alanıyla sonuçlanan başka bir özellik eklersek işler değişir: İki boyutlu aralığın %20'sini kapsamak için, artık her boyutta kedi ve köpeklerin tam popülasyonunun %45'ini elde etmemiz gerekiyor, çünkü 0,452² ~= 0,2. Üç boyutlu uzayda durum daha da kötüleşiyor: Üç boyutlu özellik aralığının %20'sini kapsamak için, 0'dan beri her boyutta popülasyonun %58'ini elde etmemiz gerekiyor 0,583³ ~= 0,2 . Bu, aşağıdaki şekilde gösterildiği gibi, özellik aralığının %20'sini kapsamak için gereken eğitim verisi miktarının boyut sayısıyla birlikte katlanarak arttığını göstermektedir. Boyutlar arttıkça, sabit sayıda örneklem, örneklem alanının giderek daha azını kapsayabilir. Tek boyutta (solda) iyice kapatılsa bile, iki boyutta (ortada) boşluklar ortaya çıkıyor ve üç boyutta (sağda) örnek uzayın neredeyse tamamı boş.

Artan boyutluluğun eğitim verilerinin seyrekliğini ortaya çıkardığını gösterdik. Ne kadar çok özellik kullanırsak, veriler o kadar seyrek hale gelir ve sınıflandırıcının parametrelerinin (yani karar sınırlarının) doğru tahmin edilmesi daha zor hale gelir. Diğer bir etki ise bu seyrekliğin arama uzayına eşit şekilde dağılmamasıdır. Hiperküpün merkezindeki orijin etrafındaki veriler (bir küpün 3'ten fazla boyuta genelleştirilmesi), arama alanının köşelerindeki verilerden çok daha seyrektir. Bu şu şekilde anlaşılabilir: İki boyutlu uzayı temsil eden bir birim kare düşünün. Özellik uzayının ortalaması bu birim karenin merkezidir ve bu merkeze birim uzaklıktaki tüm noktalar birim kareyi çizen bir birim dairenin içindedir. Bu birim çemberin içine girmeyen eğitim örnekleri, arama uzayının köşelerine merkezden daha yakındır. Bu örneklerin sınıflandırılması zordur çünkü özellik değerleri büyük ölçüde farklılık gösterir (örneğin, birim karenin zıt köşelerindeki örnekler). Bu nedenle, örneklerin çoğu yazılı birim çemberin içine düşerse sınıflandırma daha kolay gerçekleşebilir.

Birim çemberin dışına çıkan eğitim örnekleri, özellik uzayının köşelerinde bulunur ve sınıflandırılması, özellik uzayının merkezine yakın örneklere göre daha zordur. Boyutsallık sonsuza doğru ilerledikçe, hiperkürenin hacmi sıfıra doğru yönelirken, çevredeki hiperküpün hacmi sabit kalır. Bu şaşırtıcı ve oldukça mantığa aykırı gözlem, sınıflandırmadaki boyutsallık lanetiyle ilişkili sorunları kısmen açıklamaktadır: Yüksek boyutlu uzaylarda, eğitim verilerinin çoğu, aşağıdaki şekilde gösterildiği gibi özellik uzayını tanımlayan hiperküpün köşelerinde bulunur. Daha önce de belirtildiği gibi, özellik uzayının köşelerindeki örneklerin sınıflandırılması, hiperkürenin ağırlık merkezi etrafındaki örneklere göre çok daha zordur. Sekiz boyutlu bir hiperküp için verilerin yaklaşık %98'i 256 köşesine yakın yerlerde yoğunlaşmıştır. Aşağıdaki çizim, çoğu eğitim verisinin, merkezi hiperkürenin dışında, iki boyutlu bir kare ve üç boyutlu bir küpte olduğunu göstermektedir.

Sorunun boyutu çok büyüdüğünde sınıflandırıcının performansının düştüğünü gösterdik. O zaman soru “çok büyük”ün ne anlama geldiği ve aşırı öğrenmenin nasıl önlenebileceğidir. Ne yazık ki, bir sınıflandırma probleminde kaç özelliğin kullanılması gerektiğini tanımlayan sabit bir kural yoktur. Bu, mevcut eğitim verilerinin miktarına, karar sınırlarının karmaşıklığına ve kullanılan sınıflandırıcının türüne bağlıdır.

Temel Bileşen Analizi ve Diskriminant Analizi (Principal Component Analysis and Discriminant Analysis)

Gerçek dünya verileri genellikle karmaşık bir şekilde yapılandırılmıştır. Bu özellikle model sınıflandırma ve makine öğrenimi uygulamaları için geçerlidir. Buradaki zorluk, minimum bilgi kaybıyla veri setlerinin boyutlarını azaltmaktır. Bunu başarmak için yaygın olarak kullanılan iki teknik vardır: temel bileşen analizi (PCA) ve diskriminant analizi (DA). Temel analize ilişkin en eski referanslardan biri 1901'de Pearson’a ve 1933'te Hotelling’e aittir; tarihi ve güncel gelişmeler hakkında daha fazla ayrıntı için örneğin Jollie ve Cadima’ya (2016) bakın. Diskriminant analizi ilk olarak 1936 yılında Fisher tarafından iki sınıf için geliştirilmiş, daha sonra birden fazla sınıf için genişletilmiştir.

Her iki tekniği de göstermek için, ilk kez 1936'da Fisher tarafından oluşturulan iris veri setini kullanacağız. Alternatif veri setleriyle çalışmak isteyen öğrenciler, her ikisi de çevrimiçi olarak bulunabilen Palmer penguenleri veya buğday tohumları veri setlerine başvurabilirler. İris veri seti, her biri dört özelliğe (çanak yaprağı ve taç yaprağı uzunlukları veya genişlikleri) sahip üç sınıf (iris çiçeği türleri) içeren, n = 150 boyutunda bir örnekten oluşur. Her sınıfın n = 50 boyutunda bir alt örneği vardır.

Hem PCA hem de DA doğrusal dönüşüm yöntemleridir ve birbirleriyle yakından ilişkilidir. PCA kullanırken veri setimizdeki varyansı en üst düzeye çıkaran bileşenleri (yönleri) bulmakla ilgileniriz. DA ile ayrıca farklı sınıflar arasındaki ayrımı (ayrımcılığı) en üst düzeye çıkaran bileşenleri (yönleri) bulmakla ilgileniyoruz. DA’da sınıflar sınıf etiketleriyle ifade edilir. Bunun tersine, PCA sınıf etiketlerini göz ardı eder. Örüntü tanıma problemlerinde PCA’yı sıklıkla bir DA takip eder. İki teknik arasındaki fark aşağıdaki tabloda özetlenmiştir.

PCA denetimsiz boyut azaltma ve verilerin genel yapısını keşfetme için uygundur; DA/LDA ise sınıf ayrımını korumaya ve sınıflandırma performansını iyileştirmeye odaklanan denetimli boyut azaltma için uygundur.

İris veri setinde renkleri değişen çiçeklere, antik Yunan gökkuşağı tanrıçası İris’in adı verilmiştir. Santimetre cinsinden ölçülen yalnızca dört değişken içerir: çanak yaprağı uzunluğu, çanak yaprağı genişliği, taç yaprağı uzunluğu ve taç yaprağı genişliği. Ayrıca yalnızca üç sınıf vardır: Iris Setosa (Beachhead Iris), Iris Versicolor (Daha Büyük Mavi Bayrak veya Harlequin Mavi Bayrak) ve Iris Virginica (Virginia Iris). İlgili üç İris türünün morfolojik varyasyonunu ölçmek için verileri toplayan kişi Edgar Anderson olduğu için veri seti aynı zamanda Anderson’un İris verileri olarak da bilinir. Fisher çok değişkenli veri setini hazırlayarak türleri birbirinden ayırt etmek için doğrusal bir diskriminant modeli geliştirmiştir.

Basit bir veri seti olmasına rağmen üç sınıfı tüm boyutlar (değişkenler) boyunca görselleştirmek zorlaşmaktadır. Aşağıdaki şekilde gösterilen görselleştirmeyi kullanabiliriz. Köşegen üzerinde, rengin üç türü gösterdiği her özellik değişkeninin dağılımını (histogram olarak) görüyoruz. Köşegen dışı öğeler, aynı anda iki özellik değişkeninin kombinasyonuna bakarak veri noktalarının dağılımını gösterir (dağılım grafiği olarak). Çanak yaprağı genişliği ile çanak yaprağı uzunluğunun dağılımının örtüştüğünü fark ediyoruz, bu nedenle bir türü diğerinden ayıramıyoruz. Ancak sadece Iris Setosa’ya baktığımızda taç yaprağı uzunluğu ve genişliğine ilişkin değişkenlerin diğer iki türden belirgin bir farklılık gösterdiğini görebiliriz.

İris Veri Kümesindeki Tüm Özellik Değişkenlerinin Görselleştirilmesi

Temel Bileşen Analizi (PCA — Principal Component Analysis)

PCA’de farklı sınıflar arasındaki ayrımı (ayrımcılığı) en üst düzeye çıkaran bileşenleri (yönleri) bulmakla ilgileniyoruz. Temel prensip, veriyi tüm veri setinin özelliklerini azaltılmış boyutlarla özetleyen bir alt uzaya dönüştürmektir. Daha sonra verileri görselleştirmek için bu yeni oluşturulan boyutları kullanabiliriz.

Yeni boyutlara temel bileşenler adı verilir. İlk temel bileşenler verilerdeki çeşitliliğin çoğunu yakalar. Bu nedenle, birinci temel bileşenle birlikte değişkenliğinin çoğunu ifade eden veriler bulunur, ardından ikinci temel bileşen gelir ve bu böyle devam eder. Ana bileşenler birbirine diktir ve bu nedenle ilişkili değildir.

Varyansı Maksimuma Çıkarma(Maxing Variance)

PCA’daki eksenler gözlemlenen verilerdeki varyansı maksimuma çıkarır. Orijinal x1 ve x2 değişkenleri yerine, verileri çevreleyen elipsin ana eksenleri boyunca hizalanmış iki yeni değişken seçebiliriz. Bu, bu yeni ortogonal eksenler λ1 ve λ2'nin varyansı maksimuma çıkaracağı şekilde seçildikleri anlamına gelir.

Yukarıdaki şekilde köşegen dışı öğelere (dağılım grafikleri) bakarsak, değişkenin taç yaprağı uzunluğunun ve genişliğinin üç sınıfın değişkenliğini ayırdığını görürüz. Çoğu gerçek hayattaki verisetinde bu normalde böyle olmaz, ancak PCA, bu yeni değişkenlerin verilerde gözlemlenen değişkenliği daha iyi açıklayacağı şekilde yeni değişkenler belirlemeyi amaçlar. Daha sonra bu yeni değişkenler verilerde bulunan sınıfları ayırmaya daha uygundur.

PCA’nın adımları şu şekilde özetlenebilir:

Orijinal örnekten başlanır (sınıf etiketleri olmadan).
Her değişkenin ortalaması hesaplanır.
Tüm değişkenler arasındaki kovaryans matrisi hesaplanır.
Kovaryans matrisinin e1, e2, …,en özvektörlerini(eigenvectors) ve λ1, λ2, …, λn özdeğerlerini (eigenvalues) belirlenir.
Özdeğerleri ve karşılık gelen özvektörleri en yüksek özdeğerden başlayarak sıralayın ve özvektörleri karşılık gelen bir matrise yerleştirin. Yalnızca k olacak şekilde uygun bir kesme noktası seçin.

İki ayrı değişken X ve Y arasındaki kovaryans şu şekilde verilir:

Burada x ve y, xi ve yi veri örneklerinin, yani ölçtüğümüz sayılar kümesinin ortalamasıdır. Buradaki durumumuzda, farklı değerlerin sabit bir veri örneğini ele alıyoruz ve bu nedenle kovaryansı hesaplamak için yukarıdaki formülü kullanabiliriz. Çoğu durumda, ikiden fazla değişkenimiz olur; yani X ve Y yerine birçok X1, X2, … değişkenleri gibi.

Kovaryans matrisi, tüm değişkenlerin tüm kombinasyonları arasındaki kovaryansları yakalar. Yukarıdaki tanıma göre bu matrisin simetrik olduğuna dikkat edin.

PCA’yı örneğin scikit-learn kullanarak gerçekleştirirsek, varyansın ne kadarının (yüzde olarak) her yeni değişken tarafından açıklandığını görebiliriz:

Bu, ilk yeni değişken PC1'in toplam varyansın yaklaşık %73'ünü koruduğu ve ilk iki değişken PC1 ve PC2'yi kullanarak verilerde gözlemlenen varyansın yaklaşık %96'sını açıklayabileceğimiz anlamına gelir, vb. Yeni değişkenlerin sezgisel adları yoktur. Temel olarak PCA’yı, yeni değişkenlerin verilerde bulunan maksimum varyansı koruyarak sıralanacağı şekilde orijinal özelliklerin veya değişkenlerin en iyi doğrusal kombinasyonunu bulma yöntemi olarak anlayabiliriz. İdeal olarak, ilk birkaç değişken verilerde gözlemlenen varyansın çoğunu koruduğu için, ne kadar varyansın korunmasını istediğimize dair uygun bir kesme noktası tanımladıktan sonra bu değişkenlerle devam edebiliriz. Bunun avantajı, kendimizi bu yeni değişkenlerin çok daha küçük bir listesiyle sınırlayabilmemizdir. Çoğu gerçek hayattaki veri seti, bu örnek için kullandığımız iris verilerinden çok daha fazla özelliğe veya değişkene sahiptir. Örneğin birkaç yüz özellikten oluşan bir listeyi belki yirmiye indirmenin hesaplama açısından önemli avantajları vardır.

PCA kullanılarak ilk iki bileşene yönelik dönüşümün sonucu aşağıda gösterilmiştir:

Example of the PCA for the First Two Components of the Iris Dataset.

Diskriminant Analizi (Discriminant Analysis)

Doğrusal diskriminant analizi (LDA), en yaygın olarak örüntü sınıflandırma ve makine öğrenimi uygulamaları için ön işleme adımında boyut azaltma tekniği olarak kullanılır. Amaç, aşırı öğrenmeden (“boyutsallığın laneti”) kaçınmak ve aynı zamanda hesaplama maliyetlerini azaltmak için iyi sınıf olasılığına sahip bir veri kümesini daha düşük boyutlu bir uzaya yansıtmaktır.

Genel LDA yaklaşımı PCA’ya çok benzer, ancak verilerimizin varyansını (PCA) maksimuma çıkaran bileşen eksenlerini bulmanın yanı sıra, çoklu sınıflar (LDA) arasındaki ayrımı maksimuma çıkaran eksenlerle de ilgileniyoruz.

Bu nedenle bir LDA’nın ana amacı, sınıf ayrımcı bilgileri korurken bir özellik uzayını (n boyutlu bir veri kümesi) daha küçük bir k alt uzayına (burada k ⩽ n — 1) yansıtmaktır.

Not: Sınıf ayrımını en üst düzeye çıkaran iki özellik veya değişken içeren bir veri kümesi için bileşen eksenini tanımlayın. LDA’da sınıf ayrımı için uygun bir bileşen ekseni seçmek: Eksen 1'i seçmek A ve B sınıfları arasında ayrım yapmamıza izin vermez, Eksen 2'yi seçmek iki sınıfı ayırır.

LDA aşağıdaki adımlarla özetlenebilir:

Orijinal veri kümesindeki her bir sınıfın ortalamasını n öğe ve d değişken (veya boyut) ile hesaplayın.
Hem her sınıf için hem de sınıflar arası dağılım matrisini hesaplayın
Dağılım matrisinin e1, e2, …, en özvektörlerini ve λ1, λ2, …, λn özdeğerlerini belirleyin.
Özdeğerleri ve karşılık gelen Özvektörleri en yüksek Özdeğerden başlayarak sıralayın ve Özvektörleri karşılık gelen bir matrise yerleştirin. Yalnızca k < n Özdeğerleri ve Özvektörleri kalacak şekilde uygun bir kesme noktası seçin.
Verileri d × k W matrisini kullanarak yeni bir alt uzaya dönüştürün. Bunu bir matris çarpımı olarak yazabiliriz: Y = W × X burada X, orijinal veri kümesinin tamamını (yani, n × d boyutunda bir matris) temsil eder ve Y, tamamen yeni bir veri seti (yani n × k boyutlu bir matris).

Doğrusal diskriminant analizi kullanılarak ilk iki bileşene yönelik dönüşümün sonucu aşağıda gösterilmiştir:

Özet

İstatistik çalışmanın amacına ulaşmak için en iyi metodolojik yaklaşımı seçme amaçlı disiplinler arası bir sanat ve bilimdir. Önceki araştırmaları anlamak ve yeni araştırmaları tarafsız, etkili ve verimli bir şekilde yürütmek için istatistiksel yöntemleri anlamak önemlidir.

Rastgelelik olasılık ile ölçülür. Rastgele deneylerin sonuçları oldukları için rastgele değişkenler deterministik değişkenlerden farklıdır. İki tür rastgele değişken vardır: kesikli ve sürekli. Olasılığı yakalamanın başka bir yolu da Venn diyagramlarını kullanmaktır. Olasılık modeli olayların olasılığının değerlendirilmesiyle ilgilidir. Ancak çoğu zaman olayların olasılığını değerlendirirken araştırmacıların koşullu olasılık, bağımsızlık ve özdeş dağılımlar gibi bazı ön bilgileri de dahil etmeleri gerekir.

Kolmogorov’un etki alanı ve aralık, negatif olmama, normalleştirme ve toplanabilirlik aksiyomları, kısıtlamalar ekler ve olasılığı hesaplamamıza yardımcı olur. Olasılık dağılımı, rastgele değişkenin olası değerleriyle ilişkili olasılıkların bir tanımını gösterir. Ayrık (örneğin binom) ve sürekli (örneğin normal) olasılık dağılımları vardır. Bir parametre popülasyonun rastgele bir değişkenidir, istatistik ise örneklemin tahmini miktarıdır. Örnek istatistikler Roma harflerine sahipken popülasyon parametreleri Yunan harflerine sahiptir. Sıra istatistikleri, örneği artan bir sırayla tanımlamak, örneği yapılandırılmış bir şekilde tanımlamamıza yardımcı olur. Ayrıca parametrenin değeri hakkında ek bilgi sağlayan aynı örneklemden hesaplanabilecek başka bir istatistik yoksa bir istatistik yeterlidir. Bu koşullu olasılık kullanılarak hesaplanabilir.

Özellik veya boyutların sayısı arttıkça, doğru bir şekilde genelleştirmemiz gereken veri miktarı da katlanarak artar. Bu boyutluluk sorunu, PCA ve DA gibi veri azaltma teknikleri kullanılarak hafifletilebilir. Her iki yaklaşım da doğrusal dönüşüme dayanmaktadır.