İstatistiksel Çıkarım ile Verilerin Sırları Nasıl Ortaya Çıkarılır?
Bu yazıda maksimum gerçekleşebilirlik tahmini, en küçük kareler (OLS: Ordinary Least Squares) yaklaşımı, beklenti maksimizasyon (EM: Expectation Maximization) algoritması, regülarizasyon, belirsizlik gösterimi ve rastgele değişkenler için hesaplama yapma hakkında bilgi edineceğiz.
Giriş
İstatistiksel çıkarımın temel amaçlarından biri, gözlemlenen verileri aşağıdakilerden biri veya daha fazlası hakkında çıkarımlar yapmak için kullanmaktır:
- Veriler nasıl oluşturuldu?
- Gözlemlenen verilerin iki veya daha fazla değişkeni ile teorik değerler arasındaki ilişki nedir?
- Gözlemlenen verilerin iki veya daha fazla değişkeninin ilişkisi nedir?
Bu senaryoların her birinde, ya verileri oluşturan temel olasılık dağılımına ya da gözlemlenen verilerin iki ya da daha fazla değişkeninin ilişkisini tanımlayan işlevsel biçime ve model ailesine ilişkin bir varsayım yapılır. Temel oluşturan süreçleri veya ilişkileri anlamak için genellikle olasılık dağılımını veya modeli varsaymak üzere bazı alan bilgilerini kullanırız. Bu durumların herhangi birinde, varsayımlar bilinmeyen parametreler içerir.
Örneğin, Gauss dağılımından geldiğine inandığımız bir veri kümesine sahipsek, veriyi oluşturan bu dağılımın ortalamasını ve standart sapmasını bilemeyiz. İki x ve y değişkenini ilişkilendiren modelin y = t0 + t1x olduğunu varsayarsak yine de t0 ve t1 modelinin parametrelerini belirlememiz gerekir. Bu ünitede parametreleri tahmin etmeye yönelik araçlar sunulacaktır.
Farklı yöntemler farklı durumlarda kullanılır ve her yöntemin ne zaman uygulamaya uygun olduğunu bilmek önemlidir. Bununla birlikte, eldeki spesifik problem için hangi araçlar kullanılırsa kullanılsın, tahminlerimizin ulaşmaya çalışmasını istediğimiz bazı özellikler vardır. Uygulamada hepsine sahip olamayız ancak parametre tahminlerimizin şunlar olmasını isteriz:
- Tarafsız: Eğer gerçek parametre a0 ile gösteriliyorsa, tahmin edilen a değerinin beklenen değeri, E[â] = a0 gibi gerçek değer olmalıdır, örneğin ilgilendiğimiz parametrenin değerini elimizdeki verilerden tahmin etmek için kullandığımız yöntem gibi, ek bir önyargı getirmemeliyiz. Ancak, özellikle tahminimizi türettiğimiz az sayıda veri noktası için, tahminin varyansının oldukça büyük olabileceğini aklımızda tutmalıyız.
- Tutarlı. Örneğe daha fazla veri ekledikçe tahminin “doğru” değere yakınlaşması gerekir, yani lim_n →∞ â = a0.
- Etkili. Tahmin edilen parametrenin varyansı mümkün olduğu kadar küçük olmalıdır.
- Güçlü. Tahminci yanlış verilere veya yapabileceğimiz varsayımlara karşı duyarsız olmalıdır.
- Yeterli istatistik. Tahminci, parametreyle ilgili gözlemlenen verilerdeki tüm bilgileri içerir.
Bu arzu edilen miktarlar listesinden tahmin edebileceğimiz gibi, belirli bir parametrenin veya tüm isteklerimizi karşılayan bir dizi parametrenin değerini tahmin etmek için tek bir yöntem bulmak zordur. Bunun yerine, farklı yaklaşımların ve varsayımların yanı sıra kendi güçlü ve zayıf yönleri de vardır ve ilgilendiğimiz özel durumda en mantıklı olanı seçmemiz gerekir. Parametrelerin değerlerini tahmin etmek için en çok olabilirlik (maximum likelihood) yaklaşımı ve en küçük kareler (least squares) yöntemi olmak üzere iki popüler yöntemi tartışacağız.
Maksimum Olabilirlik (Maximum Likelihood)
Bu yazıda tartışacağımız ilk parametre tahmin yöntemi, maksimum olabilirlik yöntemidir. Gözlemlenen verilerimizin, bilinmeyen bir veya bir dizi parametre θ ile parametrelendirilmiş olasılık yoğunluk fonksiyonu f (· |θ) olan bir X değişkeni için bir dağılımdan oluşturulduğuna inanırsak, olasılık, bu veriyi aşağıdakiler için gözlemleme olasılığıdır (dağılımıdır).
Bu parametrenin belirli bir değeri: ℒ (θ) = P (x1 , …, xN | θ) burada x1 , …, xN, verilen verileri temsil eder. Olabilirlik gözlemlenen verilerin ortak olasılık dağılımıdır ve belirli bir olasılık yoğunluk fonksiyonu seçimi için belirli bir θ değeri verilen verileri gözlemleme olasılığını f (· |θ) şeklinde tanımlar. Olasılığın bu (bilinmeyen) parametrenin seçimine bağlı olduğunu unutmayın. Bu parametrenin iyi bir değerini seçersek olabilirlik değeri (nispeten) büyük, kötü bir değer seçersek olabilirlik değeri (nispeten) küçük olacaktır. Optimal bir değer bulunmaktadır: Verilerin gözlemlenme olasılığını maksimuma çıkaran bir ^θ değeri. ^θ’nın bu optimal değerine maksimum olabilirlik tahmini denir.
Bu, eğer bu yöntemi kullanmak istiyorsak aşağıdaki ön koşulları yerine getirmemiz gerektiği anlamına gelir:
- X1, …, xN rastgele değişkeninin n ölçüm örneğine ihtiyacımız var; burada xi tek bir değişken veya değişkenlerin bir vektörü olabilir.
- Temel olasılık yoğunluk dağılımını f (· | θ) bildiğimizi ancak θ değerini bilmediğimizi varsayıyoruz. Bu, x ölçümlerini olası değer kümelerinin olasılığını veren bir sayıya eşleyen f (· | θ) ayrık değişkenleri için olasılık yoğunluk dağılımı (PDF) veya olasılık kütle fonksiyonu (PMF) kullanılarak tanımlanabilecek bir veri oluşturma sürecinin olduğu anlamına gelir. Bu işlev, ölçüm değerlerinin nasıl dağıtıldığını açıklar ve her ölçüm, bu PDF’nin gerçekleştirilmesidir. Yoğunluk fonksiyonunun fonksiyonel formu bazı θ parametrelerine bağlıdır. Maksimum olabilirlik yaklaşımında, veriyi gözlemleme olasılığını maksimuma çıkaran θ parametresinin en iyi sayısal değerini tahmin ederiz, ancak temel PDF f (x | θ) seçiminin doğru olduğunu varsayarız. Bu, eğer bu konuda yanlış bir varsayımda bulunursak, yani yanlış türdeki olasılık dağılımını seçersek, sonraki tüm sayısal adımlar ve parametre tahminleri doğru yapılsa bile sonucun da yanlış olacağı anlamına gelir.
Daha kapsamlı ve resmi bir tartışmaya dalmadan önce basit bir örneğe bakalım. Küçük bir kasabadaki günlük kaza sayısının bir günden diğerine bağımsız olduğunu ve bilinmeyen ortalama λ ile aynı Poisson dağılımını takip ettiğini varsayalım. Birbirinden bağımsız olayları modellemek istediğimizde Poisson dağılımını kullanırız ve tek bildiğimiz birim zaman başına ortalama olay sayısıdır. Örnek olarak günlük ortalama kaza sayısını verebiliriz. 10 günlük kaza sayısını gözlemledik ve sonuç şu şekilde: 6, 5, 6, 1, 3, 6, 3, 3, 2, 2.
Dolayısıyla bu veri seti, tümü Poisson dağılımını takip eden 10 gerçekleştirmeden (veya ölçümden) oluşur: X1 , X2 , …, X10 ~Poisson (λ):
Değişkenler bağımsız olduğundan ve aynı dağılımdan kaynaklandığından, bunların bağımsız ve aynı şekilde dağıldığını söyleriz (özdeş ve rastgele dağıtılmış rastgele değişkenler). Bu, tüm verileri tanımlayan ortak PMF’nin yalnızca bireysel PMF’lerin ürünü olduğu anlamına gelir:
Bu miktarın, bu örnekte belirlemek istediğimiz bilinmeyen ortalama kaza oranı olan λ’ya bağlı olduğunu unutmayın. Bu veri noktalarının olasılığı şu şekilde verilir:
Birkaç tahminde bulunalım. λ = 3 için ℒ (3) = 1,08 * 10^−9 elde ederiz. λ = 4 için ℒ (3) = 2,07 * 10^-9 elde ederiz. Açıkçası, ikinci tahmin daha iyidir; verilerin λ = 4 parametreli bir Poisson dağılımından gelme olasılığı, λ = 3 parametreli bir Poisson dağılımından gelme olasılığı daha yüksektir.
Aşağıdaki şekilde gösterilen prosedürün tamamını uyguladıktan sonra, λ’nın optimal değerinin 3,7 olduğunu bulacağız:
ℒ (3,7) = 2 * 33 * 10^−9
Bu optimal değere λ parametresinin maksimum olabilirlik tahmini (MLE) denir: λ’^MLE = 3,7.
Bu yaklaşımın doğru temel olasılık dağılımını kullanmamızı gerektirdiğini unutmayın. Bu örnekte Poisson dağılımını kullandık. Verilerin kendisi bize bunu “söylemedi”- bunu harici alan bilgisinden bilmemiz gerekiyor. Yanlış olasılık dağılımını kullansak bile olabilirlik fonksiyonunu hesaplayabileceğimizi ancak sonucun yanlış olacağını unutmayın.
Şimdi maksimum olabilirlik yöntemine biraz daha resmi olarak bakacağız. Olabilirlik fonksiyonunu tanımlayarak başlayalım: (x1, …, xN), X1, …, XN rastgele değişkenlerinin bir gerçeklemesi olsun. Her Xi rastgele değişkeninin, i = 1, …, N için fi (· | θj) tarafından verilen PDF’ye (ayrıklarsa PMF’ye) sahip olduğunu varsayalım.
θj parametreleri, her biri bir skaler veya bir vektör olabilen dağılımın parametreleridir. Örneğin Poisson dağılımı söz konusu olduğunda bu dağılım tek parametreli olduğundan skaler olacaktır.
Normal dağılım durumunda, hem ortalama hem de standart sapma bilinmiyorsa 2 parametremiz olabilir ve örneğin ortalamayı biliyor ancak varyansı bilmiyorsak (veya tam tersi) 1 parametremiz olabilir.
Olabilirlik fonksiyonu ℒ (θ1, …, θk), parametrelerden gözlemlenen veriler (x1, x2, …, xN) üzerinde değerlendirilen birleşik yoğunluğa haritalama (mapping from joint density) olarak tanımlanır. θ = (θ1, …, θk) parametre(ler)i verilerin gözlemlenme olasılığını açıklar. f (· | θ) X1, …, XN rastgele değişkenlerinin ortak yoğunluğu olsun, burada θ demet’i (tuple) belirtir:
Yani tüm parametrelerimiz skaler de vektör de olabilir. O halde olabilirlik fonksiyonu şu şekilde verilir:
Rastgele değişkenler X1, …, XN’nin bağımsız olduğu varsayılırsa, birleşik yoğunluk çarpım tarafından verilir ve bu durumda olabilirlik fonksiyonu şuna indirgenir:
Tipik olarak, verileri tanımlayan tek bir temel olasılık dağılımının olduğunu varsayarız. Daha sonra veriler, rastgele değişkenin bağımsız ve aynı şekilde dağıtılmış (özdeş ve rastgele dağıtılmış rastgele değişkenler) gerçeklemeleridir ve olasılık şu şekilde daha da basitleşir:
Bu, fi (xi | θ) fonksiyonlarının hepsinin aynı olduğu anlamına gelir, dolayısıyla fonksiyonlar için i indeksini kaldırabiliriz. θ parametreleri tek bir parametre olabileceği gibi θ1, θ2, …, θk parametrelerinin bir kümesi de olabilir.
Unutmayın: Olabilirlik fonksiyonu, P(x | θ) olacak şekilde, θ parametresi/parametreleri için verilen verinin gözlemlenme olasılığını verir. Bu, gözlemlenen veriler verildiğinde θ’nın olasılığı olan P (θ | x) yani Bayes çıkarımı değildir. Bu ayrım çok önemlidir.
Maksimum olabilirlik yönteminde amacımız, ℒ (θ)’yı maksimuma çıkaran θ parametresini bulmak, yani varsayılan bir olasılık dağılımı seçimi için θ parametresinin değerini ayarlayarak verilen verileri gözlemleme olasılığını maksimuma çıkarmaktır.
Dikkat edilmesi gereken önemli bir ayrıntı, θ parametresinin en iyi değerini bulmak için maksimum olabilirlik yaklaşımını kullandığımızda belirli bir f(x | θ) olasılık fonksiyonuyla çalışmamızdır. Bu, f(x | θ)’nın prosedürün tüm aşamalarında normalleştirilmesi gerektiği anlamına gelir; yani θ’nın tüm değerleri için ∫f(x | θ) dx = 1 olur. Bu önemsiz görünse de, maksimum olabilirlik tahmininin sayısal uygulamasının büyük bir kısmı, bu normalleştirmenin her zaman yerine getirildiğinden emin olmakla ilgilidir.
Çoğu pratik uygulamada, olabilirlik fonksiyonuyla doğrudan çalışmayız, log-olabilirlik fonksiyonunu kullanırız. Log-olabilirlik fonksiyonu, olabilirlik fonksiyonu üzerindeki analitik ve hesaplamalı verimlilikler için kullanılır, bu fonksiyon, olabilirlik fonksiyonunun logaritmasıdır.
Logaritmayla bir fonksiyon oluşturmak, logaritmanın monoton ve artan olması nedeniyle aynı maksimumu bulmamızı sağlar. Ayrıca bir çarpımın logaritması, logaritmaların toplamıdır ve pratikte ele alınması genellikle daha kolaydır. Ek olarak, yoğunlukların (veya olasılıkların) çarpımları çok küçük olabilir; bir bilgisayarın işleyebileceği veri türünün minimum değerinden daha küçük olabilir. Doğal logaritmanın x |→ log(x) değerlerini bire bir eşleştirdiğini, yani her x değeri için benzersiz bir log(x) değerinin bulunduğunu hatırlayın. Ayrıca pozitif x sayıları için logaritma monoton bir şekilde artmaktadır. Bu nedenle, olabilirlik fonksiyonunun maksimize edici(ler)i aynı zamanda aşağıdaki şekilde verilen log-olabilirlik fonksiyonunun maksimize edici(ler)idir:
Bağımsız rastgele değişkenler durumunda bu, şuna düşer:
Ve yine bağımsız ve özdeş ve rastgele dağıtılmış rastgele değişkenler için, fonksiyonun indeksini f (xi | θ) olacak şekilde bırakabiliriz.
Negatif log-olabilirlik fonksiyonu olasılık üzerinde kullanılır çünkü optimizasyon şemaları maksimize etmek yerine minimize edecek şekilde programlanma eğilimindedir. Bu miktarla yakından ilişkili olan negatif log-olabilirlik fonksiyonu şu şekildedir:
Olasılık (log olabilirlik) fonksiyonunun herhangi bir maksimize edicisinin, negatif log-olabilirlik fonksiyonunun minimize edicisi olduğunu görmek oldukça basittir. Optimizasyona yönelik çoğu sayısal algoritma, fonksiyonları en aza indirecek şekilde tasarlandığından, pratikte kullanılan miktar budur.
Şimdi, bağımsızlığa ek olarak, alındığı varsayılan gözlemlerdeki rastgele değişkenlerin aynı şekilde dağıtıldığını varsayalım, öyle ki X1, …, XN bağımsız ve özdeş ve rastgele dağıtılmış rastgele değişkenler olup, ortak bir PDF (veya PMF) şu şekilde verilir: f (· | θ) = f1 ( · | θ) = … = fN ( · | θ). Bu durumda, yalnızca tek bir dağılıma sahip olduğumuz için θ’nın yalnızca bir parametre kümesi olduğunu unutmayın. Sonuç olarak, dağılımlar için alt simgeyi kullanmayı bırakabiliriz. Bu durumda olasılık, log-olabilirlik ve negatif log-olabilirlik fonksiyonları şu şekilde verilir:
Aşağıdaki şekil, daha önce tartışılan gün başına kaza örneğinden log-olasılık ve negatif log-olabilirlik fonksiyonlarının davranışını göstermektedir. Olabilirliğin maksimize edicisinin (λ = 3 .7) aynı zamanda log-olasılığın maksimize edicisi ve aynı zamanda negatif log-olabilirliğin minimizer’ı olduğuna dikkat edin.
(Muhtemelen önyargılı) bir madeni paranın 10 kez atıldığını ve yedi yazı gözlemlediğimizi varsayalım. Tura olasılığının maksimum olabilirlik tahmini nedir?
Her yazı tura atışı bir Bernoulli denemesi olarak görülebilir, dolayısıyla başarının turaları gözlemleme olayı olarak tanımlandığı Bernoulli dağılımından 10 bağımsız gözlemimiz bulunur. Bu nedenle, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0 (veya bunların bazı permütasyonları) gözlemlenen verileriyle X1, …, XN~Bernoulli(θ)’ye sahibiz. PMF’nin şu şekilde verildiğini hatırlayın:
x = 0 için 1, aksi takdirde sıfır. Bu nedenle verilerin olasılığı:
Bu fonksiyon θ ∈ [0, 1] için sürekli olduğundan, uç değer teoremi bir maksimize ediciyi garanti eder. Ayrıca, bu fonksiyon (0,1) üzerinde türevlenebilir olduğundan, maksimize ediciyi bulmak için türevleri kullanabiliriz.
Bu denklemin θ’^MLE = 7 /10'da (0, 1)'de tek bir çözümü vardır. Bu aslında olabilirlik fonksiyonunun maksimumlaştırıcısıdır (örneğin, ikinci türev burada negatiftir). θ = 0 ve θ = 1 değerlerini dikkate almadığımızı unutmayın.
Birinci türevde sıfır, her iki değer de her zaman başı veya sonu gözlemlediğimiz anlamına gelir ve bu biçimsel çözüm açıkça verilerde gözlemlediğimiz şey değildir. Sonuç şaşırtıcı olmamalı. Aslında frenquentist istatistikler bize, 10 atıştan yedisinde tura gözlemlediğimize göre, tura gelme olasılığının 7/10 olması gerektiğini söyleyecektir. Hesaplamalı gösterim için, maksimize ediciyi loglikelihood fonksiyonunu kullanarak hesaplayalım.
Differentiating this equation gives
Daha önce olduğu gibi tek çözüm elbette θ’^MLE = 7/10'dur. Bu çok basit örnekte bile log-olasılıkla çalışmak, doğrudan olabilirlik fonksiyonuyla çalışmaktan çok daha kolaydır. Olabilirlik ve log-olabilirlik fonksiyonlarının değerleri şu şekilde görselleştirilebilir:
Hem olabilirlik hem de log-olabilirlik fonksiyonları MLE tahmininde maksimuma çıkarılır. Ayrıca, logolabilirlik fonksiyonunun kesinlikle içbükey olduğuna dikkat edin, bu da yalnızca bir global maksimum olduğu anlamına gelir.
Yukarıdaki örnekte olabilirlik ve log-olabilirlik fonksiyonlarının içbükey olması, özellikle bir fonksiyonu optimize etmek için sayısal algoritmalar kullanıldığında önemli bir özelliktir. Eğer bir maksimize edici gerekliyse, hedef fonksiyonun içbükey olmasını isteriz, aksi takdirde algoritma, global yerine yerel bir maksimuma yakınsabilir. Pratikte log-olasılık için bu şekle sahip değilsek, gözlemlenen verilere bir dönüşüm uygulayıp baştan başlarız. İkinci türevi negatif olan fonksiyon içbükeydir.
Başka bir örneğe bakmadan önce, olabilirlik fonksiyonunun ve dolayısıyla log-olabilirliğin ve onun maksimize edicisinin rastgele değişkenler olduğunu belirtmeliyiz. Bunun nedeni, bunların bizzat rastgele değişkenler olan gözlemlenen verilerin fonksiyonları olmasıdır. Bu nedenle, MLE tahmincisi, θ^MLE, X1, X2, …, XN rastgele değişkenlerinin bir fonksiyonudur. Büyük numuneler için (büyük N), bu MLE tahmincisi, ortalama θ^true, gerçek değeri olan yaklaşık bir Gauss dağılımını takip eder. parametre ve varyans-kovaryans matrisi şu şekilde verilir:
burada I (θ^true) , bilgi matrisi, negatif log-olabilirlik fonksiyonunun ikinci dereceden türevlerinin (Hessian) matrisinin beklenen değeridir:
Bilgi matrisi, negatif log-olabilirlik fonksiyonunun eğriliği hakkındaki bilgileri yakalar. Kavramsal olarak, düşük nokta ne kadar keskin olursa, MLE tahmincisinin varyansı da o kadar az olur. Sonuç olarak, MLE tahmincisindeki daha fazla varyans, daha düz bir düşük noktayla sonuçlanır. Yalnızca bir parametrenin olduğu durumda tahmincinin varyansı şu şekilde azalır:
Yalnızca bir θ parametresini dikkate alırsak bunu daha sezgisel olarak anlayabiliriz. Negatif log-olabilirlik fonksiyonu daha sonra nℓℓ(θ) ile verilir ve optimal parametre θ’ ile verilir. Negatif log olasılığının optimal parametre getirileri etrafında genişletilmesi:
Negatif log-olabilirlik fonksiyonu bir parabolün şekline yaklaşır. Benzer şekilde olabilirlik fonksiyonu da normal dağılıma yaklaşır:
Daha sonra bunu, normal dağılımın varyansına benzer şekilde optimal parametre θ’’nın belirsizliğini tanımlamak için kullanabiliriz. Minimumda: θ = θ’ ± n * σ ve negatif negatif log-olabilirlik fonksiyonu için: nℓℓ (θ) = nℓℓ( θ’) + 1/2n². Log-olabilirlik fonksiyonu bir parabole yaklaşmıyorsa genellikle uygun bir değişken dönüşümü bulabileceğimizi unutmayın.
Çoklu parametre durumu yukarıdakine benzerdir ve ikinci türev yerine bilgi matrisini (information matrix) kullanmamız gerekir.
Poisson örneğimize dönelim ve varyansı hesaplayalım. Olasılığın şu olduğunu hatırlayın:
Negatif log-olasılığı şu şekilde verilir:
Türevleri:
Bu nedenle tahmincinin varyansı şu şekilde verilir:
ve standart sapması aşağıdaki şekilde gösterildiği gibi σ = 0,61'dir.
Bir Gauss Fonksiyonunun Ortalaması için MLE
x1 , …, xN’nin, bilinmeyen ortalama μ ve bilinmeyen standart sapma σ ile normal dağılımdan aynı ve rastgele dağıtılmış rastgele değişken gözlemleri olduğunu varsayalım. Negatif log-olabilirlik fonksiyonunu en aza indirerek ortalama μ’nin maksimum olabilirlik tahminini bulun.
X~N (μ, σ) normal dağılımının yoğunluğunu hatırlayın:
Bu nedenle, gözlemlenen veriler için log-olabilirlik fonksiyonu şu şekildedir:
Negatif log-olabilirlik fonksiyonu:
μ (mü) değişkenini içermeyen terim bir sabittir ve K ile gösterilir. Bunun μ’ye göre türevlenmesini şunu verir:
μ’nün kısmi türevini hesaplarken diğer değişkeni (bizim durumumuzda σ) bir sabit olarak ele aldığımızı unutmayın. Maksimum olabilirlik tahminini bulmak için ilk türevin yok olmasını isteriz ve sonuç yalnızca örneklem ortalamasıdır:
Bu tahminci tutarlıdır. Bunu biraz daha iyi anlamak için büyük sayılar’ın zayıf yasasını kullanacağız. Bu, bir özdeş ve rastgele dağıtılmış rastgele değişkenler dizisine sahip olup olmadığımızı belirtir. Rastgele değişkenler X1 , X2 , …, Xn’dir ve bunların her birinin ortalaması Xi = E[Xi] = μ’dürr ve yeni bir rastgele değişken tanımlarız:
Daha sonra n → ∞ için örnek ortalama x̄ popülasyon ortalamasına yaklaşır, yani X̄ = μ. X̄_N = 1/N ∑_i=1^N olarak gösteriliriz. E [X̄N] = μ olduğunu biliyoruz ve herhangi bir pozitif ϵ için büyük sayıların zayıf yasası bize şunu garanti eder:
O zaman herhangi bir t > 0 için (ne kadar küçük olursa olsun),
Aynı argümanı varyans için de kullanabiliriz. Var [ax] = a²Var[x] olduğunu hatırlayarak.
Yukarıdaki örnekteki ortalamanın MLE tahminlerinin sistematik olduğu ortaya çıksa da, bunun genel olarak MLE tahmincilerinin kendine özgü bir özelliğinin bilinmesi önemlidir.
Not: ^μ^MLE’nin gözlemlenen verilere (xi)_{i=1}^{N} dayalı (rastgele olmayan) bir nicelik olduğunu, buna karşılık gelen X̄N niceliğinin ise buna dayalı bir rastgele değişken olduğunu anlamak önemlidir. rastgele değişken dizisi (Xi)_{i = 1}^{N}. Bir MLE tahmincisinin özelliklerini araştırmak için ikincisini kullanırız. Gözlemlenen bir numunenin tahminini hesaplamak için ilkini kullanırız.
Gauss Fonksiyonunun Varyansı İçin MLE
Diyelim ki x1 , …, xN özdeş ve rastgele dağıtılmış rastgele değişkenler , bilinmeyen ortalamaları μ ve bilinmeyen standart sapmaları σ ile normal dağılımdan gözlemlenirler. β = 1/σ² kesinliğinin negatif log-olabilirlik fonksiyonunu en aza indirerek σ’nun MLE tahmincisini bulun.
Ortalamaya baktığımız önceki örnekte Gauss dağılımı için log-olabilirlik fonksiyonunu zaten hesaplamıştık:
Bunu σ yerine β cinsinden şu şekilde ifade edebiliriz:
Yani log (ab) = log (a) + log (b) olduğunu hatırladığımız yer. μ ve β cinsinden negatif log-olasılığı şu şekilde verilir:
Şimdi β’ya göre kısmi türevi hesaplıyoruz (μ’yü bir sabit olarak ele alıyoruz) ve şunu elde ediyoruz:
Daha önce olduğu gibi, maksimum olabilirlik tahmincisi için bu ilk türevin sıfır olmasını istiyoruz. Bu nedenle sonuç şu şekilde verilir:
Ortalama durumunda olduğu gibi, standart sapmanın maksimum olabilirlik tahmincisi, örnek ortalama ^μ için maksimum olabilirlik tahmincisine göre bir Gauss dağılımı için örnek standart sapmadır.
Ancak ortalama tahmincisinden farklı olarak varyans için maksimum olabilirlik tahmincisi taraflıdır. Tarafsız bir tahminciyi şu şekilde oluşturabiliriz:
1. Soru
Olabilirlik fonksiyonu, belirli bir örnekteki parametreyi gözlemleme olasılığı mıdır?
Yanlış, Olabilirlik fonksiyonu, belirli bir örneklemde parametrenin gözlemlenme olasılığı değildir. Bunun yerine, modelin parametrelerinin bir fonksiyonu olarak verilen örneklemi gözlemleme olasılığı veya gözlemlenen verilerin ortak olasılığıdır.
2. Soru
Gözlemlenen verilerin bağımsız olduğu varsayımı altında, olabilirlik fonksiyonu yoğunlukların (veya PMF’lerin) çarpımı mıdır?
Evet, gözlemlenen verilerin bağımsız olduğu varsayımı altında, olabilirlik fonksiyonu aslında bireysel yoğunlukların (sürekli veriler için) veya olasılık kütle fonksiyonlarının (kesikli veriler için PMF’lerin) çarpımıdır.
3. Soru
Olabilirlik fonksiyonunun maksimize edicisi, log-olabilirlik fonksiyonu ve negatif log-olabilirlik fonksiyonu arasındaki ilişki nedir?
Olabilirlik fonksiyonunun maksimize edicisi, log-olabilirlik fonksiyonunun maksimize edicisi ve negatif log-olabilirlik fonksiyonunun minimizeridir.
4. Soru
Bağımsız normal dağılmış veriler için örnek ortalama ve varyans için maksimum olabilirlik tahmincilerinin özellikleri nelerdir?
Bağımsız, normal dağılmış veriler için, örnek ortalamasına yönelik maksimum olabilirlik tahmincisi tarafsızdır ve varyans ortalamasının maksimum olabilirlik tahmincisine göre maksimum olabilirlik tahmincisi önyargılıdır.
En Küçük Kareler (OLS: Ordinary Least Squares)
Daha önce tartışılan maksimum olasılık durumunda yaptığımız önemli varsayımlardan biri, verilerin f(x|θ) ile tanımlanan bir rastgele değişkenin somut gerçekleşmeleri olduğu şekilde tüm gözlemlenen veri noktalarının kaynaklandığı temel olasılık dağılımı f(x|θ)’yı bildiğimizdi. Ancak birçok pratik durumda f(x | θ) ‘yi bilmiyoruz buna rağmen verileri tanımlamak için kullanılabilecek bir modele sahip olabiliriz. Bu, ampirik bir model veya anlamak istediğimiz stokastik bir sürecin teorik bir açıklaması olabilir.
Önemli olan nokta, altta yatan olasılık dağılımını bilmesek de, gözlemlenen verilerle karşılaştırabileceğimiz bir modelden değerler üretmek veya tahmin etmek için bir yöntemimizin olmasıdır. Aslında herhangi bir veri noktası için bu tür tahminler yapmamıza gerek yoktur, yalnızca ölçümlerimizde gözlemlediklerimiz için yapmamız gerekir. Böyle bir model genel olarak bazı θ parametre(ler)ine de bağlı olacağından, modelimizi veya tahminimizi ayarlamak için verilerden bu parametrelerin değerini belirlememiz gerekir. Bu, örneğin yalnızca iki gözlemlenen değişkenin (bağımsız ve bağımlı değişkenler) işlevsel bağımlılığını gerektiren sıradan en küçük kareler (OLS) yöntemi kullanılarak yapılabilir. Bağımsız değişkenler, örneğin manipüle edebileceğimiz ölçümler veya deneysel miktarlarla ilgili olan değişkenlerdir. Bağımlı değişkenler bu değişkenlere bağlıdır ve bağımsız değişkenleri manipüle edersek onların değişmesini bekleriz. Tipik olarak bağımsız değişkenleri X ve bağımlı değişkeni Y olarak gösteririz.
(X,Y) = ((x1 , y1) , …, (xN, yN)) verilerini gözlemlediğimizi kabul edelim ve şunu varsayalım:
i ∈ 1, …, N için. Burada xi, bağımsız değişken için gözlemlenen veri noktalarının değerleridir. Yi’nin değerleri, modellemek istediğimiz bağımlı değişken için gözlemlenen sonuçlardır. ℎ_θ(xi) fonksiyonu, bir veya daha fazla θ parametresine bağlı olan modeldir. Parametre(ler)in sabit değeri θ = ^θ için, tahmini ^yi = ℎ(xi | ^θ) olarak tanımlarız ve tahminlerin veya öngörülerin küçük bir “şapka” ile gösterildiği kuralını takip ederiz.
i’inci tahminin hatası veya kalanı:
Sıradan en küçük kareler yöntemi, kalanların karelerinin toplamını en aza indirir:
Maliyeti çeşitli örneklem boyutlarıyla karşılaştırmamız gerektiğinde, genellikle aşağıdaki “ortalama” maliyet fonksiyonunu kullanmak daha iyidir:
Modelin doğru olduğunu varsaysak bile ölçüm hatalarını hesaba katmamız gerekir. Bu belirsizliği en basit durumda şu şekilde ortaya koyarız:
i ∈ 1, …, N için. Rasgele değişkenler açısından, Y1 | X1 , …, Y N | XN’nin tümü aynı bilinmeyen dağılıma sahiptir ve
burada E [ϵ] = 0 ve V ar [ϵ] = σ²
Her veri noktası farklı bir ilişkili belirsizliğe sahip olduğunda (örnek vermek gerekirse Var[Xi] = σ²i ), en küçük kareler maliyet fonksiyonu şöyle olur:
Ek olarak, ölçümler korelasyonluysa maliyet fonksiyonu, korelasyonu hesaba katacak kovaryans matrisini içerecek şekilde ayarlanır:
Genel olarak modelimiz, örneğin teorik açıklamadaki belirsizlikleri hesaba katmak için gözlemlenen verilerdeki belirsizliklerle aynı şekilde dahil edilmesi gereken bir belirsizliğe de sahip olabilir.
Lineer Regresyonlar ve OLS
OLS’nin varsayılan modelin parametrelerini nasıl tahmin ettiğini göstermek için bunu spesifik lineer regresyon durumunda inceleyeceğiz. Bu durumda f (· |θ) fonksiyonu θ parametrelerinde lineerdir (doğrusaldır). Rastgele değişken X tek bir boyuta sahip olduğunda sorun basit lineer regresyon olarak bilinir. X rastgele değişkeni bir vektör olduğunda, sorun çoklu (multiple) lineer regresyon olarak bilinir.
Diyelim ki gözlemlenen veri kümemiz ((xi, yi))_i = 1^N olsun ve bu veriyi modellemek için yi = f(ci | θ) = θ · xi işlev ailesini varsayalım. θ’nın (ortalama en küçük kareler) OLS tahminini bulacağız. Bu durumda, tahminler ^yi = θxi şeklindedir, bu yüzden minimize edilecek maliyet fonksiyonu şöyle olacaktır:
Maliyet fonksiyonunun minimumunu bulmak istediğimiz için yukarıdaki denklemin türevini alır ve şunu elde ederiz:
Minimumu bulmak için birinci türevin sıfır olmasını gerektirir ve şunu elde ederiz:
Bu tahminciyi değerlendirmek için karşılık gelen rastgele değişkene bakıyoruz.
X’in gözlemleri göz önüne alındığında, şunu elde ederiz:
Bu nedenle tahminci tarafsızdır. Şimdi bu tahmincinin varyansına bakalım:
Birden fazla bağımsız değişkeni dikkate almak istiyorsak yukarıda verilen yaklaşım genişletilebilir. Aynı yaklaşımı kullanabiliriz ancak birkaç değişkeni analiz ettiğimizi belirtmek için x’i x ile ve y’yi y ile değiştirebiliriz.
- Soru
En Küçük Kareler (OLS) hangi bağlamlarda doğrusal regresyon problemlerinin ötesinde uygulanabilir ve bunun doğrusal regresyonla ilişkisi nedir?
En küçük kareler (OLS), doğrusal regresyon problemlerinden daha fazlasına uygulanabilir. OLS genellikle bağımsız değişkenler ile bağımlı değişken arasındaki ilişkinin doğrusal olduğunun varsayıldığı doğrusal regresyonla ilişkilendirilse de başka bağlamlarda da kullanılabilir.
2. Soru
OLS tahmini, doğrusal bir regresyon modelinin parametreleri için önyargı açısından hangi özelliğe sahiptir?
Doğrusal bir regresyon modelinin parametreleri için OLS önyargısızdır.
3. Soru
OLS yöntemi değişkenlerin dağılımının belirtilmesini gerektirir mi?
Çoğu durumda En Küçük Kareler (OLS) ile ilişkili maliyet fonksiyonunun basitliği nedeniyle analitik yöntemler kullanılarak çözülebileceği doğru olsa da analitik çözümlerin uygulanabilir veya pratik olmadığı durumlar da olabilir. Bunlar doğrusal olmayan modeller, karmaşık modeller ve büyük veri kümeleridir.
Beklenti Maksimizasyonu (EM: Expectation Maximization)
Gauss Karışımı Modelleri(Gaussian Mixture Models)
Çoğu durumda verileri anlamlı bir şekilde temsil etmek isteriz. Temel olasılık dağılımlarını biliyorsak, ilgili parametreleri belirleyebilirsek bunları verileri tanımlamak için kullanabiliriz. Ancak aşağıdaki şekli ele alırsak, bu basit durumda verilerin nasıl parametrelendirileceğinin zaten açık olmadığını görebiliriz. Bu şekilde veriler üç farklı Gaussian veya normal dağılım kullanarak oluşturmuş ve hangi veri noktasının hangi fonksiyondan geldiğini vurgulamak için farklı renkler kullanılmış. Ancak çoğu durumda temel dağılımı veya verilerin hangi bölümünün hangi dağılımdan geldiğini bilmemiz pek mümkün değildir.
Ancak verileri tanımlayan ampirik bir model oluşturabiliriz, bunlara “karışım modelleri” adı verilir. Sezgisel olarak, birden fazla yoğunluk fonksiyonunu birbirine ekleyerek yoğunluk fonksiyonu p(x) ile bir dağılım yaratırız:
Burada her bir pk(x) bileşeni “karışım ağırlıkları” adı verilen bir πk faktörüne göre katkıda bulunur. Bu karışım ağırlıkları 0 ⩽ πk ⩽ 1 aralığında yer alır ve ∑_k=1^N πk = 1 olacak şekilde normalleştirilir. pk(x) bileşenleri herhangi bir dağılım olabilir ancak çoğu durumda Gauss (veya normal) dağılımı kullanacağız ve daha fazla tartışmayı bu vakayla sınırlandırın. Bu nedenle böyle bir modele “Gauss karışım modeli” adı verilir:
θ = {(μk, σk, πk):k = 1, …, K} miktarı modeldе kullandığımız tüm parametrelerin koleksiyonunu ifade eder, yani K ortalama μk ve normal dağılımın σk kovaryanslarını ~N (μk, σk ) ve ayrıca πk karışım ağırlığını içerir. Belirli bir veri kümesini en iyi şekilde açıklamanın yolunu bulmak istiyorsak, bu parametreleri tahmin etmemiz gerekiyor ki Gauss karışım modelimizi tanımlayabilelim.
Veri kümesini n = 1, …, N ile X = (x1, …, xn) olarak gösteriyoruz ve bunların bazı p(x) fonksiyonlarına göre özdeş ve rastgele dağıtılmış rastgele değişkenler olduğunu varsayıyoruz. Önceki tartışmamızın ardından, parametreleri tahmin etmek için maksimum olabilirlik yöntemini kullanıyoruz. Veriler birbirinden bağımsız olduğundan olabilirlik fonksiyonu bireysel bileşenlerin çarpımı ile verilir:
Bu, her veri noktasının p (xn| θ) dağılımıyla tanımlandığı anlamına gelir.
Bu da Gauss karışımı olan K Gauss dağılımlarının toplamıdır.
Log-olasılığı daha sonra şu şekilde verilir:
Şu ana kadar karşılaştığımız örneklerde, en iyi maksimum olabilirlik tahmincisine analitik bir çözüm bulabildik: Log-olabilirlik yönteminin türevini bulup, sıfıra eşitledik ve ardından parametre(ler)i elde ettik. Ne yazık ki karışım modelinde bunu kolaylıkla yapamayız çünkü ikinci toplam logaritmanın içindedir.
Beklenti maksimizasyonu (EM) algoritmasının ardındaki sezgisel fikir, ortalama, kovaryans ve karışım ağırlıkları için en iyi maksimum olabilirlik tahminini bulmak amacıyla yinelemeli bir yaklaşım kullanmaktır. Ortalama μk , k = 1, …, K için güncelleme şu şekilde verilir:
r_nk faktörlerine “sorumluluklar” adı verilir ve şu şekilde tanımlanır:
Temel olarak sorumluluklar, belirli bir veri noktasının karışım modelindeki belirli bir bileşenden kaynaklanma olasılığını tanımlar. Sorumluluklar paydanın seçimine bağlı olarak normalleştirilir, yani ∑k r_nk = 1 ve r_nk ≥ 0. Ortalama için güncelleme formülü, ortalamalar için güncellenmiş değerleri doğrudan hesaplayamayacağımız karmaşıklığı “gizler”. Bunun nedeni, r_nk sorumluluklarının tüm modelin tüm ortalamalarına, kovaryanslarına ve karışım ağırlıklarına bağlı olmasıdır.
Benzer şekilde, σk , k = 1, …, K kovaryansları için güncelleme kuralı şu şekilde verilir:
Burada r_nk yine sorumluluklardır ve Nk şu şekilde tanımlanır:
Son olarak karışım ağırlıkları için güncelleme kuralına ihtiyacımız var:
Beklenti Maksimizasyon Algoritması (Expectation Maximization Algorithm)
Daha önce de belirttiğimiz gibi karışım modellerimizin parametrelerinin güncel değerlerini yani ortalama, kovaryans ve karışım ağırlıklarını doğrudan belirleyemiyoruz. Ancak bunu beklenti maksimizasyonu (EM) algoritmasını kullanarak yinelemeli olarak yapabiliriz. Bu yaklaşım iki adımdan oluşur:
- E adımı: Belirli bir veri noktasının k bileşenine ait olma olasılığını belirleyen rnk sorumluluklarını değerlendirin.
- M adımı: μk , σk , πk model parametrelerini tahmin etmek için bu güncellenmiş sorumlulukları kullanın
Algoritma μk, σk ve πk için bazı başlangıç değerleri seçerek başlar ve daha sonra prosedür yakınsayana kadar E adımı ve M adımı arasında geçiş yapar. Beklenti maksimizasyonuna ilişkin açıklamamız bir örneğe dayanmaktadır. Yukarıdaki şekilde gösterilen verileri düşünün, veriler rastgele sayılar kullanılarak oluşturulmuştur ve şeklin sağ tarafında gösterilen üç farklı ancak örtüşen dağılım oluşturmuşuzdur. Renkler, oluşturulan her veri noktasının hangi kümeye ait olduğunu gösterir. Verinin üç bileşenle tanımlanabileceğini varsayarsak, EM algoritmasını kullanarak mantıklı açıklamalar (assignments) elde ederiz. Bunu şeklin sağ kısmıyla karşılaştırdığımızda, oluşturduğumuz veri setinin makul bir tanımını elde ettiğimizi görebiliriz.
Ancak gerçekte, başlangıçta üç Gauss bileşeni olduğunu bilemeyiz. Örneğin, aşağıdaki şekilde gösterildiği gibi dört bileşen olduğunu tahmin edebiliriz. Bu durumda, algoritma hala veriyi iyi açıklar, ancak artık dört bileşene sahibiz. Dolayısıyla, Gauss karışım modeli ve EM algoritması birlikte kullanıldığında, bileşen sayısı gibi bir parametreyi ayarlamamız gerekir.
- Soru
EM algoritması garanti yakınsar mı?
Hayır. Beklenti Maksimizasyonu (EM) algoritması için yakınsama garanti edilmez. EM algoritması, gözlemlenen verilerin olasılığını yinelemeli olarak iyileştirmek üzere tasarlanmasına ve tipik olarak olabilirlik fonksiyonunun yerel bir maksimumuna yakınsamasına rağmen, küresel maksimumu bulmanın garantisi yoktur. EM algoritmasının yakınsaması, algoritmanın başlatılması, olabilirlik fonksiyonunun şekli ve yerel optimumlar gibi potansiyel sorunlar gibi çeşitli faktörlere bağlıdır. Uygulamada, bu sorunları hafifletmek için sıklıkla birden fazla başlatma ve yakınsama kriteri kullanılır, ancak küresel maksimuma yakınsama garanti edilemez.
2. Soru
İstatistikte “sorumluluklar” nedir?
Temel olarak sorumluluklar, belirli bir veri noktasının karışım modelindeki belirli bir bileşenden kaynaklanma olasılığıdır.
3. Soru
Karışım modeli yalnızca Gauss dağılımlarıyla mı kullanılabilir?
Hayır. Karışım modelleri Gauss dağılımlarıyla sınırlı değildir; modellenen verilerin özelliklerine bağlı olarak çeşitli olasılık dağılımlarına uygulanabilirler. Gauss karışım modelleri (GMM’ler) gerçekten yaygın olsa da, karışım modelleri diğer dağılım türlerini de içerebilir.
Lasso (En Az Mutlak Büzülme ve Seçim Operatörü) ve Ridge Regülarizasyonu (Lasso (Least Absolute Shrinkage and Selection Operator) and Ridge Regularization)
Daha önce en küçük kareler yöntemini tartıştığımızda, yalnızca modelin tahmini ile karşılık gelen veri noktası arasındaki kalıntılara (residüeller: tahmin edilen ile gerçek değer arasındaki fark) baktık. En küçük kareler yöntemi daha sonra tüm karelerin toplamının en aza indirilmesiyle çalıştırıldı. Yöntem, gözlemlenen verileri mükemmel bir şekilde yeniden üretebilse de, veri oluşturma sürecinin iyi bir açıklaması olmadığı için modele güvenmediğimiz bir durumla karşı karşıya kalabiliriz. Bu, aşağıdaki şekilde gösterilen örnekle açıklanabilir.
10 veri noktamız olduğunu ve verilere modelimiz olarak 11 derecelik bir polinom sığdırmayı seçtiğimizi varsayalım. OLS’yi kullanarak başka bir kısıtlama olmaksızın modeldeki her terimin katsayılarını belirleriz. Prosedürü tamamladıktan sonra, her veri noktasının mükemmel şekilde tanımlandığını ancak ortaya çıkan eğrinin, yüksek varyansa sahip olması açısından oldukça “titrek” olduğunu görüyoruz. Bu nedenle, bu modelin veri üretme sürecini gerçekten tanımladığı konusunda bazı şüphelerimiz olabilir ve bu, ölçülen her veri noktasını artık mükemmel şekilde tanımlayamayacağımız anlamına gelse bile, sezgisel olarak ortaya çıkan eğrilerin daha düzgün (daha düşük bir varyansla) olmasını bekleriz. Gerçekte, her ölçüm bir belirsizlikle ilişkilidir ve bu nedenle gözlemlenen verilerin yalnızca ilgili belirsizliğin belirli bir düzeyine kadar modelle uyumlu olmasını bekleriz.
regülerizasyonlu ve regülerizasyonsuz (ridge ve lasso). Grafikler için eksenlerdeki farklı ölçeğe dikkat edin.
Bunu başarmanın bir yolu farklı bir model seçmektir ancak optimizasyon işlemine yukarıda belirttiğimiz “titreme” davranışını önleyen bir ceza terimi de ekleyebiliriz. Buna “regülerizasyon” denir ve bir modeli daha sağlam hale getirmek ve aşırılığın önlenmesine yardımcı olmak için kullanılabilir. Yukarıdaki şekilde, bu düzenleme tekniklerinin eğriyi çok daha düzgün hale getirebildiğini ve sonucun, düzensiz en küçük kareler uyumuna göre beklediğimize çok daha yakın olduğunu görebiliriz. Aşağıda yaygın olarak kullanılan iki düzenleme tekniğini tartışacağız: Lasso (en az mutlak daralma ve seçim operatörü) ve ridge regülerizasyonu.
Bu regülerizasyon yöntemlerini doğrusal regresyona uygulayacak olmamıza rağmen, genel yaklaşım diğer birçok uygulamaya genişletilebilir. Doğrusal regresyonda, y = ∑iaixi doğrusal modelinin gözlemlenen verileri iyi tanımlayacağı en iyi parametreyi bulmayı hedefliyoruz. En küçük kareler yöntemini kullanarak bunu şu şekilde yazabiliriz:
İndeks i, veri setimizdeki tüm veri noktalarını kapsarken, indeks j regresyon modelimizdeki katsayıların hepsini K derecesine kadar kapsar. Argmin a terimi, en küçük kareler yöntemini bir optimizasyon problemi olarak ifade eder: amacımız, gözlemlenen veriler ile doğrusal regresyon modelinin tahmini arasındaki kalıntıların (residüellerin) karesini en aza indiren parametre(ler) a değerlerini bulmaktır. Burada tartışılan düzenleme (regularization) yaklaşımının temel fikri, optimizasyon görevine bir ceza terimi eklemektir, böylece görev şu şekilde olur:
Sezgisel olarak bu, artık modelin verileri iyi bir şekilde yeniden üreteceği şekilde “a” parametrelerini aramayacağımız, ancak verilerin iyi tanımlanacağı ve ceza süresinin dikkate alınacağı şekilde en uygun parametreleri bulmayı hedeflediğimiz anlamına gelir. Başka bir deyişle, modelin ortak maliyet fonksiyonunu ve cezayı en aza indiriyoruz. Ceza çok zayıfsa, sonuç, düzenleme olmadan orijinal en küçük kareler sonucuna yakın olacaktır; regülarizasyon çok güçlüyse, verilerin model üzerindeki etkisi ortadan kalkacaktır. Bu nedenle, doğru düzenleme düzeyini seçmek, en iyi sonucu elde etmek için kritik öneme sahiptir. Yaygın olarak kullanılan iki düzenleme şunlardır:
Her düzenleme şeması, düzenlemenin gücünü belirleyen yeni bir serbest parametre λ’yi sunar. λ = 0 için düzensiz durumu elde ederiz, eğer λ çok büyükse, ceza terimi, verileri tanımlamak için kullanmak istediğimiz gerçek modele hakim olur. Her iki cezayı da birleştirebiliriz; bu yaklaşıma genellikle “elastik ağ” (elastic net) adı verilir.
Basit bir örnek olarak yukarıdaki tablodaki verileri kullanarak düzenlemenin etkisine bakabiliriz. Düzenlenmiş ve düzenlenmemiş durum için aj katsayılarını hesaplayarak aşağıdaki tabloda özetlenen sonucu elde ederiz.
Katsayılar tablosuna baktığımızda, OLS tahminlerinin ilk birkaç sayısal değerinin oldukça büyük olduğunu ve birbirini iptal etmeye çalışan zıt işaretlere sahip olduğunu görüyoruz. Öte yandan, regülarize edilmiş katsayıların büyüklüğü hızla düşer. Ayrıca, ridge regresyonunun değerleri küçük olmaya zorladığını, kement yaklaşımının ise tam olarak sıfır olan katsayılara yol açtığını da not ediyoruz. Bu, kement yönteminin seyrek modellere yol açtığı ve modelin kendisini küçülterek model karmaşıklığını azalttığı anlamına gelir.
Bunu iki boyutlu duruma bakarak, yani cezalarıyla birlikte iki katsayıya sahip olduğumuzda sezgisel olarak anlayabiliriz. Ridge regülarizasyon durumunda ceza a1² + a2² biçimindedir ve seviye kümeleri aşağıdaki şekilde daireler şeklindedir. Bir ℎ:ℝ^n → R fonksiyonu verildiğinde, seviye kümeleri (x1,…., xn) kümeleridir; burada herhangi bir k için f (x1,…., xn) = k (örn. harita durumunda) arazi ve yükseklik fonksiyonu, bunlar yükseklik eğrileridir). Lasso regülarizasyonu |a1| + |a2| işlevsel biçimine sahiptir seviye kümeleri şeklin sol tarafında gösterildiği gibi iki boyutlu düzlemde karelerdir.
Bu görselleştirmelere baktığımızda, lasso regülarizasyonun “köşeliliğinin”, karenin köşeleri karenin “özel” noktaları olduğundan bazı katsayıları sıfıra ayarlamak için daha fazla fırsat sunduğunu, oysa sırt regresyonuna yönelik dairenin böyle bir özelliği olmadığını fark ediyoruz. .
- Soru
Hangi düzenleme şeması seyrek modelleri teşvik eder?
Seyrek modelleri destekleyen düzenleme şeması Lasso’dur (L1 düzenlemesi). Lasso düzenlemesi, kayıp fonksiyonuna, modelin katsayılarının mutlak değeriyle orantılı bir ceza terimi ekler. Lasso, katsayıların mutlak büyüklüğünü cezalandırarak bazı katsayıları tam olarak sıfır olmaya zorlama eğilimindedir ve bu da modelde etkili bir şekilde seyrekliğe yol açmaktadır.
2. Soru
Lasso ve Ridge düzenlemesi yalnızca doğrusal regresyon için kullanılabilir mi?
Lasso ve Ridge düzenlemesi yalnızca doğrusal regresyona değil aynı zamanda lojistik regresyon, genelleştirilmiş doğrusal modeller (GLM’ler), Destek Vektör Makineleri (SVM’ler) ve Sinir Ağları dahil olmak üzere diğer çeşitli makine öğrenme modellerine de uygulanabilir.
3. Soru
Ridge regülarizasyonunun cezasının şekli nedir?
Ridge regülarizasyonun ceza terimi katsayılar vektörünün L2 normudur (Öklid normu). Matematiksel olarak:
λ, regülarizasyonunun gücünü kontrol eden regülarizasyon parametresidir. p, özelliklerin (veya öngörücülerin) sayısıdır. 𝛽𝑗, 𝑗’inci özellikle ilişkili katsayıyı temsil eder.
4. Soru
Lasso regülerizasyonunun cezasının şekli nedir?
Kement düzenlemesinin ceza terimi katsayılar vektörünün L1 normudur (Manhattan normu). Matematiksel olarak:
λ, düzenlileştirmenin gücünü kontrol eden düzenlileştirme parametresidir. 𝑝 özelliklerin (veya öngörücülerin) sayısıdır. ∣βj∣ 𝑗’inci özellikle ilişkili katsayının mutlak değerini temsil eder.
Belirsizliklerin Yayılması (Propagation of Uncertainties)
İstatistiksel ve Sistematik Belirsizlikler (Statistical and Systematic Uncertainties)
“Gerçek” sistemlerden veya verilerden bahsettiğimizde, kaydettiğimiz verilerin, bu sistemlere ilişkin teorik hesaplamaların ve tahminlerin, bu sistemleri gözlemlemek için kullandığımız araçların ideal matematiksel soyutlamalar olmadığını dikkate almamız gerekir. Burada “gerçek”i, verilerin fiziksel sistemlere gönderme yapması anlamında yorumluyoruz. Bu, örneğin elde ettiğimiz bir ölçümün içsel bir belirsizlikle ilişkili olduğu anlamına gelir. Bu, değerleri sonsuz hassasiyetle bilmediğimiz, ancak ilgili belirsizlik dahilinde yalnızca bir noktaya kadar bildiğimiz anlamına gelir.
Fiziksel bir miktarla ilgili olan her değer (ya ölçülen bir değer olduğu için ya da “gerçek” bir sistem için teorik bir tahmin olduğu için), o sayıyı ne kadar iyi bildiğimizi ölçen bir belirsizlikle ilişkilidir. Bunun nedeni, bir yandan mükemmel ölçüm cihazlarımızın olmaması, ancak her sensörün, örneğin kullanılabilecek belirli bir çözünürlüğü veya aralığının olmasıdır. Örneğin, bir termometre düşünün: Ev tipi bir dijital termometre muhtemelen bir veya iki derecelik bir çözünürlüğe sahip olacaktır ve örneğin -20 santigrat derece ila + 120 santigrat derece aralığında kullanılabilir. Bir ateş termometresi derecenin onda biri kadar daha yüksek bir çözünürlüğe sahip olacaktır, ancak yalnızca 30–45 santigrat derece aralığında olacaktır. Bilimsel deneylere yönelik bir termometre çok daha yüksek bir çözünürlüğe sahip olacak ve farklı rejimlerde çalışacaktır. Ancak hangi termometreyi kullanırsak kullanalım sonsuz çözünürlüğe sahip olmamız mümkün olmayacaktır. Öte yandan, neredeyse tüm fiziksel süreçler doğası gereği stokastiktir. Bu, yüksek hassasiyete sahip bir ölçüm cihazımız veya sensörümüz olsaydı, ölçülen değişken rastgele bir değişken olduğundan sonraki ölçümlerin aynı değerle sonuçlanmayacağı ve sonraki ölçümlerin temel olasılık yoğunluk dağılımından örnek alacağı anlamına gelir.
Belirsizlikleri farklı bir şekilde de anlayabiliriz: Belirli bir rastgele değişken X’in bazı olasılık yoğunluk fonksiyonlarına göre dağıldığını bildiğimizi varsayalım. Örneğin, süpermarketlerdeki malların satışları tipik olarak GammaPoisson veya negatif binom dağılımı kullanılarak tanımlanabilir.
Yapabileceğimiz en basit varsayım, bu satışların rastgele bir değişken tarafından tanımlandığı ve aynı ve bağımsız olarak dağıtıldığıdır (özdeş ve rastgele dağıtılmış rastgele değişkenler). Ne yazık ki gerçekte durum böyle değil (örneklemler özdeş değildir) ancak bu varsayımı yaparsak, daha önce gözlemlenen satış verilerinden negatif binom dağılımının parametrelerinin değerini ölçebilir ve daha sonra bunu gelecekteki satışlar hakkında çıkarımda bulunmak için kullanabiliriz. .Parametreleri belirlediğimiz örneklemin zorunlu olarak sonlu olması nedeniyle değerleri ancak belirli bir noktaya kadar veya belirli bir hassasiyetle belirleyebiliriz. Farklı bir örnek kullansaydık parametreler için biraz farklı değerler elde ederdik. Örneklemin özdeş olduğu (gerçekçi olmayan) varsayımı kullandığımız için, bu değerler birbirine yakın olacak, ancak aynı olmayacaktır. Parametreleri ölçmek için nispeten az veri kullanırsak, veri kümeleri arasındaki bu dalgalanmalar oldukça büyük olacaktır. Çok fazla veri kullanırsak, doğru bir tespit için daha fazla veri kullanabileceğimizden farklılıklar çok daha küçük olacaktır. Bu farklılıklar, dünyamızın temelde deterministik olmaması nedeniyle belirli bir veri örneğine güvenmekten kaynaklanan istatistiksel belirsizliklerdir. Bu örneklerin her biri, onlardan çıkardığımız parametreler için (biraz) farklı bir değere yol açacaktır.
Ayrıca deney düzeneğimiz veya sensör bir sapmaya neden olabilir veya ölçümümüzü etkileyen dış etkileri dikkate almamız gerekir. Belirsizlikleri şu kategorilere ayırıyoruz: sistematik ve istatistiksel belirsizlikler. Sistematik belirsizlikler; ölçüm kurulumu, ölçümleri elde etmek için kullanılan araçlar ve diğer doğal faktörler gibi çeşitli faktörlerden kaynaklanabilir. Örneğin, kullanılan terazi doğru şekilde kalibre edilmemişse nesnelerin ağırlığı sürekli olarak daha düşük (veya daha yüksek) olacaktır. İstatistiksel belirsizlikler, ölçmeye çalıştığımız temel sürecin doğasında olan rastlantısallıktan kaynaklanmaktadır.
İlgilenilen parametrenin değerini (örneğin, dağılımın ortalamasını ve varyansını tanımlayan Poisson dağılımı λ parametresi) şu şekilde ifade edebiliriz:
Bu örnekteki sayısal değerler uydurmadır ve yalnızca sayıların nasıl raporlandığını göstermeye hizmet eder. Öncelikle, örneğin regülerize edilmiş en küçük kareler yaklaşımını kullanarak elde edebileceğimiz en iyi tahminciye sahibiz, ardından istatistiksel belirsizliği ve ardından sistematik belirsizliği gösteriyoruz. Bu belirsizliklerin asimetrik olabileceğini unutmayın. Çoğunlukla teorik tahminlerden veya hesaplamalardan kaynaklanan belirsizlikler, deneysel kaynaklardan elde edilen belirsizliklerden farklı davranışlara sahip olabileceğinden ayrı olarak raporlanır. Ayrıca, deneylerimizde genellikle birçok farklı sistematik belirsizlik kaynağını dikkate almamız gerekir. Bu katkıların nasıl bir araya getirileceğini aşağıdaki paragraflarda tartışacağız.
Basit Değişken Dönüşümlerindeki Belirsizlikler (Uncertainties in Simple Variable Transformations)
Rastgele bir X vektörünün ölçmek istediğimiz miktarları temsil ettiğini varsayalım. Y, nihai olarak ilgilendiğimiz fakat doğrudan ölçemediğimiz niceliklerin vektörü olsun. Bunun yerine bizi X’ten Y’ye götüren bir dönüşüm tanımlıyoruz. X’teki belirsizlikler Y’nin belirsizliklerini etkiliyor. Bu bölümde bu belirsizliklerin X’ten Y’ye nasıl yayıldığını anlamak istiyoruz. En basit durumda, dönüşüm X’ten Yi’ye doğrusaldır; öyle bir B matrisi vardır ki:
Bu ortamda, V[Y] kovaryans matrisi tarafından verilen Y’nin belirsizlikleri, V[X] tarafından verilen X’in belirsizliklerinden aşağıdaki şekilde elde edilebilir:
Unutmayın ki σ1 2 = V[X1] ve benzer şekilde σ2², ve σ12 = V [X1,X2] = V[ X2 , X1] = σ21.
Bu formülü açıklamak için aşağıdaki örneği ele alalım:
Dönüştürülmüş Bir Değişkenin Belirsizlikleri (Uncertainties of a Transformed Variable)
Let X = (X1 , X2) and Y = (X1 + X2) /2. Formülü V [Y]’yi bulmak için kullanalım.
Unutmayın ki B = [1/2 1/2] olacak şekilde Y = BX yazabiliriz . X’in kovaryansı:
Formül şunu verir:
Şimdi X = X1, X2, …, XN olduğunu varsayalım; burada her Xi bağımsız ve özdeş dağılımlıdır. V[Xi] = 1 ile. Örnek ortalama Y olsun: Y = (X1 + X2 + … + XN) /N. X’in kovaryansı birim matris (identity matrix) tarafından verilir:
As before, Y = BX where:
Daha sonra formül Y’nin varyansını verir:
Bu illüstrasyonların her ikisinde de Y bir skalerdir. Y’nin bir vektör olduğu basit bir örneğe bakalım. X1'in X2'den bağımsız olduğu X = (X1 , X2) olsun ve tüm belirsizlikler aynıdır, yani V[X1] = V[X2] = σ². Örnek olarak Y’yi şu şekilde tanımlayabiliriz:
Veya alternatif olarak Y = BX’e sahip olduğumuz matris gösteriminde:
X’in kovaryansı:
Çünkü X1 ve X2 bağımsızdır ve aynı standart sapmaya sahiptir. Y’nin kovaryansı şu şekilde verilir:
Değişken Dönüşümler İçin Belirsizliklerin Yayılması (Propagation of Uncertainties for Variable Transformations)
Şimdi x değişkenlerinden oluşan bir vektörün y değişkenlerinden oluşan yeni bir vektöre daha genel değişken dönüşümlerini ele alacağız. Orijinal tabanda, x vektörü μx ortalamasına ve V[x] kovaryans matrisine sahiptir. Bir B matrisi kullanılarak değişkenler y = Bx olarak dönüştürülür. Genel olarak x vektörünün n boyutuna ve y vektörünün m boyutuna sahip olduğuna dikkat edin; burada m, n’den farklı olabilir. Bu, B matrisinin m × n boyutlarına sahip olduğu anlamına gelir. B matrisi şu şekilde verilir:
Ve dönüşümle tanımlanan kısmi türevlerin tüm kombinasyonlarından oluşur. Daha önceki örneklerimize dönersek, bunu yukarıda zaten örtülü olarak kullandığımızı görüyoruz. Yeni y vektörünün ortalaması şu şekilde verilir:
Varyans şu şekilde verilir:
Şimdi yeni değişken y’nin ilişkisiz iki değişken x1 ve x2'nin toplamı olduğu önceki örneği tekrar inceliyoruz:
İki Değişkenin Toplamı için Hata Yayılımı (Error Propagation for the Sum of Two Variables)
y = x1 + x2 dönüşümü altında yayılan belirsizlik nedir?
Varyansı hesaplamak için V[y]’yi belirlememiz gerekir:
Genel bir kural olarak, değişkenleri eklersek varyansları da eklediğimizi veya standart sapma açısından toplamın standart sapmasının, standart sapmaların karelerinin toplamının karekökü olduğunu hatırlıyoruz. Bu işleme genel tabirle: “Hataların karelerini toplamak” de denir.
Diğer bir yaygın dönüşüm iki değişkenin çarpımıdır, yani y = x1x2.
İki Değişkenin Çarpımı için Hata Yayılımı (Error Propagation for the Product of Two Variables)
y = x1 · x2 dönüşümü altında yayılan belirsizlik nedir?
Varyansı hesaplamak için V y’yi belirlememiz gerekir:
Göreceli hata cinsinden yazarsak bunu hatırlamak daha kolay olacaktır:
Değişkenlerin korelasyonlu olması durumunda iki değişkenin toplam, fark, çarpım ve bölme olarak dönüşümüne ilişkin kurallar şunlardır:
- Soru
Değişkenleri 𝑥’den 𝑦’ye 𝑦=𝐵𝑥 aracılığıyla dönüştüren dönüşüm matrisi 𝐵 nasıl tanımlanır?
Bik = ∂yi / ∂xk
𝐵𝑖𝑘, 𝐵’nin 𝑖’inci satırı ve 𝑘’inci sütunundaki öğedir. ∂𝑦𝑖/∂𝑥𝑘, 𝑖’inci dönüştürülmüş değişken 𝑦𝑖yi’nin 𝑘’inci orijinal değişken 𝑥𝑘’ye göre kısmi türevini temsil eder.
2. Soru
Eğer 𝑥1 ve 𝑥2 korelasyonsuzsa 𝑦=𝑥1+𝑥2 için yayılan belirsizlik nedir?
Eğer x1 ve x2 ilişkisiz ve bağımsızsa, o zaman 𝑦=𝑥1+𝑥2y için yayılan belirsizlik gerçekte şöyle olur:
𝜎𝑦²=𝜎1²+𝜎2²
Burada 𝜎𝑦², 𝑦y’nin varyansıdır. σ¹², 𝑥1'in varyansıdır. 𝜎²², 𝑥2'nin varyansıdır.
3. Soru
Daha fazla veri eklenerek sistematik belirsizlikler azaltılabilir mi?
Yanlış. Sistematik belirsizlikler, deneysel kurulum veya metodolojideki önyargılardan, kusurlardan veya sınırlamalardan kaynaklanır. Örneklem boyutunun arttırılması veya daha fazla veri noktası eklenmesiyle azaltılabilen rastgele belirsizliklerin aksine, sistematik belirsizlikler ek veri toplanarak azaltılamaz. Bunun yerine sistematik hataların temel nedenlerinin belirlenmesi ve ele alınması gerekir. Bu, ölçüm tekniklerinin iyileştirilmesini, cihazların kalibre edilmesini veya bilinen önyargı kaynaklarının muhasebeleştirilmesini içerebilir.
4. Soru
Daha fazla veri eklenerek istatistiksel belirsizlikler azaltılabilir mi?
Doğru. Rastgele belirsizlikler olarak da bilinen istatistiksel belirsizlikler, ölçüm hatası veya doğal değişkenlik gibi faktörler nedeniyle verinin doğasında var olan değişkenlikten kaynaklanmaktadır. Daha fazla veri noktası eklemek genellikle istatistiksel belirsizlikleri azaltır çünkü gerçek temel dağılımın daha iyi tahmin edilmesine olanak tanır. Örneklem büyüklüğü arttıkça tahminlerdeki değişkenlik azalma eğilimi gösterir ve bu da daha kesin ve güvenilir ölçümlere yol açar.
Özet
Bu ünitede parametre tahminine yönelik yaklaşımlar olarak maksimum olabilirlik ve sıradan en küçük kareleri (OLS) araştırdık. Maksimum olabilirlik tahmini, verilerin alındığı dağılımı belirtmemizi gerektirir. OLS, iki değişken arasındaki ilişkiyi tanımlayan bir model belirlememizi gerektirir. Olabilirlik fonksiyonunu belirleyemediğimiz durumlarda beklenti maksimizasyon algoritması, olasılığı yinelemeli olarak tahmin etmek için bir yöntem sağlar. Bu, örneğin bir veri kümesini ampirik olarak tanımlamak için kullanabileceğimiz Gauss karışım modellerinde yaygın olarak kullanılır.
İki tür regülarizasyonu tartıştık: Lasso ve Ridge. Ridge regülarizasyonu, L2 normunun karesinin katı olan, yani parametrelerin karelerinin toplamı olan bir ceza terimi ekler. Lasso regülarizasyonu, L1 normunun katı olan, yani parametrelerin mutlak değerlerinin toplamı olan bir ceza terimi ekler. Her iki yöntem, model parametrelerinin daha küçük değerlerini yükselterek çalışır. Lasso bir model seçme yaklaşımı olarak yorumlanabilir; Regülarizasyon genellikle regresyon problemlerine uygulanır. Son olarak belirsizliklerin yayılmasını tartıştık. Parametre tahmin ediciler, rastgele değişkenlerin fonksiyonlarıdır ve rastgele değişkenlerin (örneklem) belirsizlikleri parametre tahmincilerine yayılır (propagated). Tahmincinin belirli özelliklerini değerlendirmek için bu belirsizliklerin nasıl yayıldığına dikkat etmek önemlidir. Belirsizliklerin yayılmasına ilişkin genel kural V[y] = BV[x]B^T’dir.