Bayes İstatistiği
Bayes formülünü öğrenelim, Bayes yaklaşımıyla olayların a posteriori olasılığını hesaplayalım, öncelikleri seçme yöntemlerini tanımlayalım ve Frequentist ve Bayes istatistikleri arasındaki farkları anlayalım.
Bir trafik kavşağına yaklaştığımızda bizim yönümüzdeki trafik ışığı “yeşil” yanıyorsa, yolumuzu kesen diğer yöndeki trafik ışığının “kırmızı” yanacağını varsayarız ve karşıdan karşıya güvenle geçebiliriz. Diğer trafik ışığının kırmızı dur sinyali verip vermediğini kontrol etmek için durmayız, çünkü tüm deneyimlerimize dayanarak trafik ışıkları sadece tek yönde “yeşil” gösterecek şekilde yapılmıştır ve böylece kavşaklardaki kazaları önlerler. Başka bir deyişle, trafik ışığımız “yeşil” yanıyorsa, diğerlerinin beklediği gibi güvenli bir şekilde ilerleyebileceğimize dair bir ön inancımız var.
Toynak seslerini duyduğunuzda zebraları değil, atları düşünün” sözü, 1940'larda tıp öğrencilerine, belirli bir semptomla karşılaşıldığında öncelikle yaygın nedenleri araştırmayı öğretmek amacıyla bu terimi icat eden Woodward’a atfedilir. Ayrıca, önyargılar karar verme sürecinde önemli bir rol oynar ve sonuçlar ile alınan kararları doğrudan etkiler. Bu tür olasılıkları kullanma ve yorumlama yöntemine, Thomas Bayes (1701–1761) sayesinde “Bayes istatistikleri” adı verilmiştir.
Bayes Kuralı
Bayesyen istatistikler, verileri yanı sıra önceki inançları veya bilgiyi içeren olayların olasılığını ifade etme şeklini belirtir. Bayesyen analizde merkezi öneme sahip olan şey, koşullu olasılıkların tanımıdır.
P(B | A)’yı “P(B verilen A)” olarak okuruz. Bu koşullu olasılık, A olayı zaten meydana geldiğinde B olayının gözlemlenme olasılığını açıklar. Bu koşullu olasılık, hem A’yı hem de B’yi gözlemleme olasılığının A’yı gözlemleme olasılığına bölümüdür. Elbette, aynı zamanda, B olayını gözlemlediğimiz göz önüne alındığında, A olayını gözlemleme olasılığından da başlayabilirdik, yani P(B | A). Bayes teoremi bu iki olasılığı birbirine bağlar:
Bayes formülünün kilit noktası, P(B | A)’nın P(A | B) ile aynı olmaması ancak ikisinin, A ve B olaylarını gözlemleme olasılıklarıyla bağlantılı olmasıdır.
Bayes Formülünün Türetilmesi
Koşullu olasılıkların tanımıyla başlıyoruz:
Burada A ve B olaylarını aynı anda gözlemlediğimiz için P (A ∧ B) = P (B ∧ A) olduğuna dikkat ederek, başladığımız formülde P (B ∧ A)’yı yerine koyabilir ve şunu elde edebiliriz:
Uygulamada, inançlarımızın veya hipotezlerimizin verilerle ne kadar iyi eşleştiğini ifade etmek istiyorsak Bayes formülü esastır. Hipotezimizi belirtmek için H’yi ve verileri veya “kanıtı” D’yi (veya bazen E’yi) kullanırız.
O zaman Bayes teoremi şöyle olur:
Bileşenler aşağıdaki farklı anlamlara sahiptir:
- P(H | D) a posteriori (latince sonradan elde edilen) olasılıktır. Verilere baktıktan sonra önceki inancımızın veya hipotezimizin gerçekleşme olasılığını bilmek için bunu hesaplarız.
- P(H) “prior” olarak adlandırılır ve verilere bakmadan önceki ön bilgimizi veya hipotezimizi yansıtır.
- P(H | D)’ye “olasılık” denir. Belirli bir hipotez için bu nicelik, kaydettiğimiz D verisinin gözlemlenme olasılığını tanımlar.
- P(D)’ye kanıt denir. Bu bir bakıma normalleştirme sabitidir ve veriyi gözlemleme olasılığını yani veriyi gözlemleyebileceğimiz tüm yolları içerir. Kanıtın H hipotezine bağlı olmadığını ve bu nedenle test etmek isteyebileceğimiz tüm hipotezler için aynı olduğunu unutmayın.
Bu nedenle, kısacası, sonsal (bilmek istediğimiz nicelik), olasılık çarpı öncekiyle (prior) hesaplanır ve kanıtlara göre normalleştirilir.
Örnek: Alevler İçindeki Ev
Duman gözlemlediğimizde bir evin alev alma olasılığını öğrenmek istiyoruz. Böylece duman görür görmez itfaiyeyi arayıp hasarı minimum seviyede tutabiliriz. Bayes teoremini uygulamak için bir olasılığı etkileyen diğer bileşenleri de bilmemiz gerekir: P(Duman), dumanın gözlemlenme olasılığıdır. Eğer günlük deneyimimizi kullanırsak, duman gözlemlemenin çok yaygın olmadığı gibi nadir de olmadığı sonucuna varabiliriz. Yaz aylarında genellikle barbekü yapılır veya insanların evlerinde veya bahçelerinde şömine bulunabilir.
Diyelim ki duman görülme ihtimali %20 olsun. Aynı zamanda olasılığı da tanımlamamız gerekiyor, yani yangın olduğu göz önüne alındığında, duman gözlemlenme olasılığı nedir: P(Duman|Ateş). Çoğu yangın, özellikle odun veya kömür yakıldığında duman üretir. Ancak bazı yangınlar örneğin hidrojen ve oksijenin yanması durumunda gerçekleşmez. Temiz bir gaz da fazla duman üretmez. Olasılığın %90 olduğunu söyleyebiliriz: Yangınların hepsi olmasa da çoğu duman üretir. Son olarak, bizim durumumuzda, bir evin alev alması olasılığının P(Yangın) olduğunu belirtmemiz gerekiyor. Çoğu insan yanan bir evle karşılaşmamıştır (itfaiyeci olmadığımız sürece) ancak kasabamızda bir itfaiye teşkilatı olduğu için bunun gerçekleşebildiğini biliyoruz. Olasılığın P(Yangın)= %0,1 olduğunu varsayalım.
Bunların hepsini bir araya getirirsek:
Dolayısıyla duman gözlemlersek, bunun bir evin yanmasından kaynaklanma ihtimalinin yüzde yarımdan daha az olduğunu söyleyebiliriz.
Bu basit örnekte, kanıt olarak belirli bir değeri aldık. Çoğu durumda bu miktara doğrudan erişimimiz yoktur ve hesaplamamız gerekir. Bunu yapmak için, toplam olasılık yasasını kullanarak elimizdeki kanıtı ayrıştırabiliriz.
Ve Bayes teoremini şu şekilde ifade edebiliriz:
Örneğin, tek hipotezimiz H, yalnızca “doğru” veya “yanlış” olabiliyorsa, P(D) = P(D | H) P(H) + P(D | ¬H) P (¬H) yazabiliriz. .
1. Soru
Bayes istatistiklerindeki prior (öncelik) neyi tanımlıyor?
Bayes istatistiklerinde prior, herhangi bir veriyi gözlemlemeden önce bir modelin parametreleri hakkında sahip olduğumuz bilgi veya inançları tanımlar. Parametreler hakkındaki başlangıçtaki belirsizliğimizi temsil eder ve önceki çalışmalar, uzman görüşleri veya ampirik bilgiler gibi çeşitli kaynaklardan gelebilir. Prior, Bayes teoremi yoluyla gözlemlenen verilere dayanarak inançlarımızı güncellemeden önce parametreler hakkında bildiklerimizi veya varsaydıklarımızı özetlemektedir. Veriler dikkate alındıktan sonra parametrelerin güncellenmiş dağılımı olan sonsal dağılımı etkileyerek Bayes çıkarımında çok önemli bir rol oynar. Öncelik seçimi Bayes analizinin sonuçlarını etkileyebilir ve farklı öncelikler farklı sonuçlara yol açabilir.
2. Soru
A posteriori olasılık nedir?
A posteriori olasılık, yeni kanıtların dahil edilmesinden sonra hipotez hakkındaki güncellenmiş inancı temsil eder. Hipotezin doğru olma ihtimaline ilişkin daha bilinçli bir tahmin sağlamak için önceki bilgileri gözlemlenen verilerle birleştirir.
Prior, Benford Yasası ve Jerey Kuralı
Prior’ın Rolü
Bayes kuralını tanımlarken prior ile zaten karşılaştık. Önceki basit örnekte, formülün nasıl çalıştığını görmek için sayıları biz uydurduk. Şimdi önceki denemelerimizdeki önemli kuralı daha detaylı inceliyoruz. Bir örnekle başlıyoruz:
Örnek: HIV Testi
Yüksek risk grubunda olmayan bir erkek hastaya HIV testi yapıldığını düşünün. Test oldukça güvenilirdir: Kişide HIV varsa test %99,9 ihtimalle pozitif çıkacaktır. Test ayrıca %0,5'lik düşük bir yanlış pozitiflik oranına sahiptir; yani vakaların %0,5'inde, kişide HIV olmasa bile test pozitif çıkacaktır. Test pozitif çıkarsa hastanın HIV taşıma olasılığı nedir? Öncelikle teste ilişkin olasılıkları Bayes istatistiği diline çeviriyoruz:
- P (pozitif | AIDS) = 0,999
- P (negatif | AIDS) = 0,001
- P (pozitif | ¬AIDS) = 0,05 testin yanlış pozitiflik oranı.
Ancak Bayes formülünü uygulamak için prior’ı bilmemiz gerekir, bu Bayes istatistiklerindeki ana zorluklardan biridir. Bu örnek için daha ileri bir değerlendirme için sayıyı Alman bulaşıcı hastalıklar otoritesi olan Robert Koch Enstitüsü’nün epidemiyolojik raporundan alabiliriz. Diğer ülkeler için elbette ilgili ülkedeki benzer kaynaklara başvurmamız gerekir. Rapora göre 2018 sonuna kadar olan veriler de dahil olmak üzere 76.600 erkek Almanya’da HIV’den etkilenmiştir. Yazarlar tarafından listelenen ana risk faktörlerinden ikisini çıkarıyoruz: birinci risk faktörü (54.200 vaka) ve ikinci risk faktörü (8.200 vaka) ve bu durumda 76.600 + 54, 200 − 8.200 = olduğunu tahmin ediyoruz. Almanya’da 14.200 vaka. 2011 resmi Alman nüfus sayımına göre, 2018 sonuna kadar olan ilerlemeye göre düzeltilmiş olarak, Almanya’da 40.966'sı erkek olmak üzere 83.019 kişi vardı. Dolayısıyla prior’ımız P(AIDS) = 14, 200/40, 966, 000 = 0,00035'tir.
Daha sonra normalleştirmemiz için kanıtın P(D) olasılığını hesaplamamız gerekir: P (D) = P (D | H) P (H) + P (D | ¬H) P (¬H) = 0,999 * 0,00035 + 0,005 * 1 − 0,00035 = 0,05
Bunların hepsini bir araya getirirsek şunu elde ederiz:
Bu, son derece doğru ve güvenilir test pozitif olsa bile, bilmek istediğimiz ve eylemlerimizi ve kararlarımızı dayandırdığımız nicelik olan a posteriori olasılığın yalnızca %7 civarında olduğu anlamına gelir.
Yukarıdaki örnek, prior’ın önemli rolünü göstermektedir: Son derece doğru bir sonuçla bile, bilmek istediğimiz miktar, yani a posteriori olasılık oldukça düşüktür.
Şu ana kadar erkek hastanın risk grubuna dahil olmadığını eğer öyle olursa ne olacağını görmek için varsaydık. Daha sonra bunu hesaba katmamız ve bunu tam olarak nasıl tanımladığımıza bağlı olarak farklı bir sayı kullanmamız gerekir. Basit olması açısından, etkilenen tüm erkekleri ele alacağız. O zaman prior P(HIV) = 70.600/40.966.000 = 0,0017'dir ve bu neredeyse 10 kat daha yüksektir. O halde kanıt P (D) = P (D | H) P (H) + P (D | ¬H) P (¬H) = 0,999 * 0,0017 + 0,005 * 1 − 0,0017 = 0,0067 ve posterior P(H | D) = 0,25 veya %25 olur.
Verilerin, yani test sonucunun her iki durumda da aynı olduğunu ancak sonucun çok farklı olduğunu unutmayın. Hangi sonuç doğrudur? Kilit nokta, her iki sonucun da doğru olmasıdır ancak her ikisi de varsayımlara ve önceki döneme ait elimizdeki verilere bağlıdır. Bu yaklaşımın avantajı, önceliği tanımlamamız gerekmesi ve bunu yaparak sonucumuzun geçerli olduğu varsayımları veya koşulları açıkça belirtmemizdir. Ancak pratikte bunu söylemek yapmaktan daha kolaydır çünkü öncekini tanımlamak çok zor olabilir. Önceki örneğimizde resmi devlet otoritesinin raporuna bakıp konuyu bir kategoriye yerleştirerek öncekini açıkça ortaya koyduk. Peki ya bunu yapamıyorsak, örneğin hastanın bilinci kapalıysa ve kendisine ya da yakınlarına soramıyorsak? Veya herhangi bir rapor yoksa bakabilir miyiz?
Benford Yasası
Önceliğin elde edilmesi Bayes analizinin en zor yönlerinden biridir. Genellikle tek tip veya önsel kullanırsak bunun önlenebileceği öne sürülür; bu, öncekinin tüm değerlerinin eşit derecede muhtemel olduğu tekdüze bir dağılım kullandığımız anlamına gelir. Aslında bu en sık yapılan hatalardan biridir.
İlk bakışta argüman mantıklı görünür: Sonuçlarımızın yanlış prior seçimi nedeniyle önyargılı olmasını istemiyorsak, neden herhangi bir belirli ayarı tercih etmeyen birini seçmiyoruz? Ancak birçok sisteme baktığımızda sayıların dağılımının tekdüze olmadığını görüyoruz. Bu durum ilk olarak Newcomb (1881) tarafından, cep hesap makineleri veya bilgisayarların icadından önce hesaplamalar için logaritma tabloları ile çalışırken, bir veya iki rakamla başlayan logaritma içeren sayfaların diğerlerine göre daha yıpranmış olduğunu fark etmesiyle fark edilmiştir. Newcomb bunu ampirik formülle açıkladı:
Burada d = 1, 2, …, 9 baştaki rakamdır ve P(d) bu rakamı gözlemleme olasılığıdır. Daha sonra Benford (1938) bunu yeniden ele aldı ve çeşitli kaynaklardan binlerce gözlemi kapsayan sistematik bir çalışma yaptı ve onların da bu dağılımı takip ettiğini buldu. Başlangıçta Newcomb tarafından önerilmiş olmasına rağmen yukarıdaki denklem genellikle “Benford yasası” olarak bilinir.
Örneğin, aşağıdaki şekilde gösterildiği gibi tüm fiziksel sabitlerin ilk rakamına bakarsak, rakam dağılımının Benford yasasına oldukça yakın olduğunu görürüz. Şekil Python için Benford yazılımı kullanılarak oluşturuldu. Bu ilişki diğer birçok uygulamada da bulunmaktadır. Benford yasası, %95'lik bir güven aralığı da dahil olmak üzere fiziksel sabitlerin önde gelen rakamlarının geniş bir aralığı kullanılarak da gösterilebilmektedir.
Bu olgunun ortaya çıkışını anlamanın anahtar noktası, birçok farklı kaynaktan birçok farklı sayıyı birleştirmemizdir. Örneğin, fiziksel sabitlerin uzun bir listesine baktığımızda, geniş bir fenomen yelpazesini tanımlarlar ve çünkü bu fenomenler birbirinden çok farklıdır, sabitlerin alabileceği değerlerin aralığı da çok farklı olur, birçok büyüklük sırasını kapsar. Bu da, bu sayıların gerçekten de Benford’un yasasını izlediğini gözlemlediğimiz gibi, bu yasanın ölçekten bağımsız olması gerektiği anlamına gelir. Sonuç olarak, atom altı parçacıklardan kozmik fenomenlere kadar her şeyi tanımlayan “doğru” bir birim ölçeği yoktur.
Sezgisel olarak, baştaki 1, 2, …, 9 rakamlarının her birinin aynı olasılık veya sıklıkta oluşmasını bekleriz. Bununla birlikte, bunun ölçekten bağımsız olmasını talep edersek, her sabiti ortak bir faktörle (yeni bir ölçek veya ölçüm birimleri kümesini belirten) çarptığımızda da bu geçerli olmalıdır. Örnek olarak, her şeyi metre cinsinden ölçmek yerine bir faktör (örneğin iki) seçebiliriz, her şeyi 50 cm’lik birimlerle ölçeriz, yani daha önce “bir metre” olan şey artık “iki yeni metre”dir, çünkü fiziksel mesafe metre cinsinden ya da “yeni metre” olarak tanımlasak da değişmez. O halde, eğer asıl sayımız 1 ile başladıysa, yeni ölçeğe geçince yani 2 ile çarptığımızda artık 2 ile başlamaktadır. 2 ile başlarsak 4 elde ederiz ve bu şekilde devam eder. Ancak orijinal numaramız 5 ile 9 arasında bir rakamla başlıyorsa, “10” işaretini geçtiğimizde yeni baştaki rakam 1 olacaktır. Bu nedenle, herhangi bir sayıdan ziyade, baştaki rakam olarak “1”i gözlemlememiz daha olasıdır.
Jerey Kuralı
Çoğu durumda Bayes istatistiklerini kullanarak analiz etmek istediğimiz sistem hakkında fazla bir şey bilmeyiz. Bu durumlarda, Bayes’in formülü bunu yapmamızı gerektirse de, prior’ı belirtmekten kaçınmak isteriz. Sezgisel olarak, tekdüze bir prior kullanmak en doğal aday gibi görünür, ancak az önce Benford yasasını tartışırken gördüğümüz gibi, pek çok sayı düzgün bir şekilde dağılmamaktadır.
Bunu farklı bir şekilde de gösterebiliriz. Öncelikle tekdüze bir dağılım kullanırsak elde etmek istediğimiz şey, parametrenin alması gereken değeri bilmediğimizi ve herhangi bir kısıtlama getirmek istemediğimizi ifade etmektir. Bununla birlikte, rastgele değişkenlerden oluşan bir aileye ait bir θ parametresinin , (0, 1) aralığında düzgün bir dağılım izlediğinin varsayıldığını düşünün ve bunun, θ hakkında hiçbir şey bilmediğimizi ifade ettiğini umuyoruz. Ancak modelimizi kurarken tek bir en iyi parametrelendirme yoktur. Örneğin θ’yı logit fonksiyonu cinsinden de ifade edebilir ve dönüşümü uygulayabilirdik:
θ artık (− ∞ , ∞) aralığındadır. Şimdi, dönüştürülmüş θ’ parametresi artık düzgün bir şekilde dağılmamaktadır ve görünüşte bilgilendirici olmayan tekdüze önceliğimiz bunun tersi haline gelmiştir. Daha resmi olarak, olasılık dağılımları için dönüşüm kuralını uygularken bunu görebiliriz. θ parametresinde ifade edilen bir olasılık dağılımından başlıyoruz. Daha sonra bunu, g dönüşümünü kullanarak yeni bir ϕ değişkenine dönüştürürüz; burada ϕ = g(θ) , yani g(·) fonksiyonu, θ parametresini ϕ’ye dönüştürür. Dönüşüm kuralının şu şekilde tanımlandığını unutmayın:
Bu durumda f (g^−1 (ϕ) = f (θ) = sabit değişkendir çünkü θ’nın düzgün bir dağılım izlediğini varsaydık. İkinci terim yalnızca g (·) doğrusal bir fonksiyon — ise sabittir, ancak genel olarak sabit değildir ancak bu önceki varsayımımızla çelişir: Prior hakkında çok az bilgimiz olduğunu veya hiç bilgimiz olmadığını ve θ parametresini parametrelemenin a prior olan doğru bir yol olmadığı için bir dönüşüm uygulamanın bir fark yaratmayacağını ifade etmek istedik. Öncül olarak tekdüze bir dağılım uygun bir seçim değildir. Jerey’in öncüsü (1946), dönüşümler altında değişmez olan ve olasılık yoğunluk fonksiyonu ile tanımlanan parametreli bir rastgele değişken için bir prior tanımlar:
Burada J(θ), parametrelendirilmiş rastgele değişken için θ parametresinin beklenen Fisher bilgisidir. ∝ sembolü “orantılı” anlamına gelir.
Bu, f (θ) = c * √J(θ) olacak şekilde bir c sabitinin olduğu anlamına gelir. Ayrıca f(θ) benzersizdir çünkü tüm gerçek sayıların integrali 1'dir.
Fisher bilgisi (x1'den xn’ye kadar gözlenen bir örnek verildiğinde, X rastgele değişkeninin θ parametresi hakkında içerdiği bilgi miktarını ölçen bir ölçüm) log-olabilirlik fonksiyonunun ikinci türevinin negatifi ile verilir:
(Log) Olabilirlik Fonksiyonu
Olabilirlik fonksiyonu ℒ, bir veya daha fazla θ parametresine bağlı olan belirli bir model verildiğinde mevcut verileri gözlemleme olasılığını veya olabilirliğini ölçer:
Burada x, rastgele bir değişkenin veya X rastgele değişkenlerinin bir vektörünün, yani gözlemlediğimiz veya ölçtüğümüz değerlerin somut gerçeklemesidir.
En önemlisi, θ parametrelerinin değerleri dışında temel olasılık dağılımı fX (. | θ)’nin yoğunluğunu bildiğimizi varsayıyoruz. Örneğin, X rastgele değişkeninin x değerlerinin Gauss dağılımına göre dağıtıldığını biliyor veya varsayıyoruz: X~N ancak parametrelerin θ = (μ, σ) değerlerini bilmiyoruz.
En basit durumda tüm gerçeklemeler için tek bir olasılık dağılımımız vardır ve her gerçekleme diğerlerinden bağımsızdır. Bu durumda olabilirlik fonksiyonu, gözlemlenen her değerle ilişkili bireysel faktörlerin çarpımı ile verilir:
Burada i = 1, …, n, bireysel n gözlemi tanımlayan indekstir. Pratik nedenlerden dolayı sıklıkla LogL = ln (ℒ) tarafından verilen log-olabilirlik fonksiyonunu kullanırız.
Log-olabilirlik fonksiyonunun ilk türevine aynı zamanda “puan fonksiyonu” S(θ) da denir:
Fisher bilgisi şu şekilde yazılabilir:
Beklenen Fisher bilgisi bu durumda I(θ)’nın beklenti değeridir, yani
Farklılaşma ve entegrasyon sırasını değiştirebileceğimiz varsayımı altında (düzenleme varsayımı), şunu gösterebiliriz:
Jerey’in Prior’ı Bijektif Dönüşümler Altında Değişmez
Jerey prior’ının ikili dönüşümler altında değişmez olduğunu göstermek isteyelim. θ parametresi için Jerey’in önceliğini Eşitlik’e göre f (θ) ∝ J (θ) olarak tanımlarız. Daha sonra olasılık dağılımlarının dönüşümü için bu kuralı kullanırız:
Bu nedenle, f(θ) öncesini Jerey kuralına göre ifade edersek ve ardından θ → ϕ’yi dönüştürürsek, dönüştürülmüş değişkeni kullanarak elde edilen önceki sonuç da Jerey kuralını takip eder.
Örnek: Poisson Dağılımı İçin Jerey’in Prior’ı
x1, …, xn örneği verilen Poisson dağılım ailesi için Jerey prior’ını hesaplayın. Poisson dağılım ailesi, Poisson yoğunluğunun parametrelendirilmesinde parametrenin tüm olası değerlerine atıfta bulunduğumuz anlamına gelir. Poisson dağılımını izleyen bir X değişkeni şu şekilde verilir:
k = 0, 1, 2, … tam sayısı için. Hız parametresi olayların ortalama hızını tanımlar. X’in bir Poisson dağılımını takip ettiği söylendiğinde, bu onun olasılık kütle fonksiyonunun denklemdeki gibi olduğu anlamına gelir. Eğer λ bilinmiyorsa X, Poisson dağılım ailesinin üyelerinden biridir. Aile λ ile parametrelenmiştir ve uygun bir λ bulmak amaç olacaktır. Skor fonksiyonu şu şekilde verilir:
Aynı zamanda ln (x^b) = bln(x) ifadesini de kullandık.
Bunu çözmek için, beklenti değerinin doğrusal bir operatör olduğunu, yani E [ax + by] = a E [x] + bE [y] olduğunu hatırlıyoruz. Ek olarak, beklenti değerini oran parametresine bağlayan Poisson dağılımı için uygun bir denkleme ihtiyacımız var:
Burada {^n_k} ikinci türden Stirling sayılarıdır. İkinci cebirsel moment için {²_1}= 1 ve {²_2} = 1'e ihtiyacımız olacak. Dolayısıyla ikinci cebirsel moment için:
Daha sonra beklenen Fisher bilgisini daha ayrıntılı olarak değerlendirebiliriz:
Dolayısıyla Poisson dağılım ailesi için Jerey önceliği şu şekilde verilir:
Bunun, kesin olarak, uygunsuz bir öncelik olduğunu, yani önceki üzerindeki integralin bir (veya hatta sonlu) olmasının gerekmediği anlamına geldiğini unutmayın. Somut problem için bir soruna yol açsın ya da açmasın, posterior dağılım hesaplanırken bunun akılda tutulması gerekir.
Diğer Yaklaşımlar
Önceki tartışmamızda, örneğin sistem hakkında fazla bilgi sahibi olmadığımız için öncekinin etkisini sınırlamak istediğimiz bir duruma odaklanmıştık. Ancak çoğu durumda analiz etmek istediğimiz sistem hakkında birçok ayrıntıyı biliyoruz. Başlangıçtaki tıbbi örneğe dönecek olursak eğer hastanın erkek olduğunu ve risk grubuna ait olmadığını bilirsek önceliğini çok net bir şekilde tanımlayabiliriz.
Aynı durum diğer durumlarda da geçerlidir: Birçok durumda ilgili veriler mevcuttur; örneğin nüfus sayımı, istatistikler veya başvurabileceğimiz diğer analizler şeklinde. Bir bakıma makine öğrenimi yaklaşımında kullandığımız eğitim verilerini aynı zamanda ön bilgi olarak da yorumlayabiliriz. Verilerin sistemimizi iyi temsil ettiğinden emin olmak için bu veriler, makine öğrenimi modelini uygulamak istediğimiz sistem hakkında en azından örtülü olarak sahip olduğumuz tüm bilgileri açıklar. Bu aynı zamanda veri kalitesinin rolünü de vurgulamaktadır: Veriler hatalı veya taraflıysa, bunun en azından potansiyel olarak çıktı üzerinde önemli bir etkisi olabilir.
Diğer bazı durumlarda uzman bilgisine sahip olabiliriz ve önceki bilgileri kullanarak bilgimizi daha sonraki hesaplamalara dahil edebiliriz. Aynı şekilde, örneğin bir sistemin belirli bir parametre değerleri kümesi dahilinde çalışacak şekilde sınırlandırıldığını biliyorsak, modele fiziksel süreçlerden veya mühendislikten kısıtlamalar ekleyebiliriz. Her durumda, istatistiklere Bayesci yaklaşım bizi kullanmak istediğimiz öncelik hakkında düşünmeye ve seçimi açıkça yapmaya zorlar.
1. Soru
Jerey’s Prior onu Bayes istatistiklerinde özellikle faydalı kılan hangi özelliğe sahiptir?
Jerey’s prior, değişkenlerin yeniden parametrelendirilmesi veya dönüştürülmesi altında değişmez. Bu, probleminizi farklı bir parametrelendirme veya değişken dönüşümü açısından ifade ederseniz Jerey’nin önceliğinin değişmeden kalacağı anlamına gelir. Bu özellik özellikle Bayes istatistiklerinde kullanışlıdır çünkü önceki seçiminizin probleminizi temsil etmek için seçtiğiniz spesifik yola bağlı olmamasını sağlar.
2. Soru
Bayes formülü nedir?
Posterior = prior * olabilirlik / kanıt
3. Soru
Benford Yasasının formülü nedir?
P(d) = log_10 (1 + 1/d)
Eşlenik Öncüller(Conjugate Priors)
Prior, Bayes istatistiğinde önemli bir rol oynar. Daha önce, dikkate almak istediğimiz sistem hakkındaki önsel bilgimizi dahil etmek için prior’ı nasıl kullanabileceğimize ve mümkün olduğunca az bilgiyi kodlamak istiyorsak ne yapmamız gerektiğine bakmıştık. Ancak Bayes formülüne tekrar baktığımızda prior’ın oynadığı başka bir önemli rolü de fark ediyoruz. Önceki denklemlere dönüp bakarsam posteriori olasılık şu şekilde yazılabilir:
Sürekli değerler durumunda, toplamı bir integralle değiştirmemiz gerekir; örneğin, ayrık olayları değil de bir olasılık dağılımının sürekli değerlerini dikkate alıyorsak:
Burada θ, belirlememiz gereken dağılımın parametresidir, f (θ) bu parametreye bağlı olan öncüldür, x gözlenen veridir, olasılık f (x | θ) ve a posteriori dağılım ile verilmektedir. f (θ | x) ile verilir. Bu, paydanın normalizasyonunu değerlendirmeden önce olasılık zamanlarının tüm olası değerlerini toplamamız (veya entegre etmemiz) gerektiği anlamına gelir.
Benzer şekilde, belirlemek için a posteriori dağılımını kullanmak istiyorsak, örneğin en olası değer için parametreyi “integre etmemiz” gerekir, yani Bayes formülü üzerinden toplam veya integral alırız, bu da bizi yine olasılık çarpı öncekinin toplamına veya integraline götürür.
Olasılığı çok fazla etkileyemeyiz (olabilirlik, gözlemlenen verilerin tanımını formalize eder). Ancak prior’ı etkileyebiliriz. Toplamı veya integrali önceki olasılık süreleri üzerinden gerçekleştirmemiz gerektiğinden, bu toplamın veya integralin daha kolay olmasını sağlayacak şekilde öncelik parametrelendirmesini seçebiliriz. Bilgisayarların yaygın kullanımından önce bu çok önemliydi çünkü böyle bir integralin yürütülmesi hızla zorlaşıyordu. Bilgisayar kullanımında bile sayısal değerlendirmenin karmaşıklığı (özellikle birden fazla parametreyi dikkate almamız gerekiyorsa) hızla zorlaşır.
Çare olarak, olasılık ile birleştirildiğinde ortaya çıkan kombinasyonun yine kolayca kullanabileceğimiz bir olasılık dağılımı, özellikle de yaygın olarak kullanılan bir olasılık dağılımının kapalı biçiminde ifade edilebilecek şekilde önceliğini seçebiliriz. Bu öncelik seçimlerine “birleşik öncelikler” (conjugate priors) deriz.
Conjugate Prior
Bir posteriori dağılım prior ile aynı olasılık dağılımları ailesindense, belirli bir olasılık fonksiyonuna göre bir prior sınıfına conjugate prior adı verilir.
Conjugate prior teorisi ilk olarak Raia ve Schlaifer tarafından 1961'de geliştirildi. Sonuçta bir conjugate seçmenin kolaylık sağlayacağını akılda tutmak önemlidir. Eğer a priori bilgimizi bir conjugate prior cinsinden tanımlayabilirsek, o zaman Bayes formülünün daha ileri düzeyde ele alınmasını kolaylaştırabiliriz. Ancak eğer böyle bir seçim yapamıyorsak o zaman bunu “zorlamaya” çalışmamalıyız.Conjugate prior’larının kısa bir listesi aşağıda verilmiştir:
Örnek: Conjugate Beta Prior
Adil bir yazı tura attığımızı veya bir A/B Testi yaptığımızı düşünün. Örneğin, parayı toplamda beş kez attığımızda “tura”nın arka arkaya beş kez gelmesi durumunu araştırmak istiyoruz. Bunu binom dağılımıyla tanımlanan bir dizi Bernoulli denemesi olarak tanımlayabiliriz. Dolayısıyla olasılık şu şekilde verilir:
Burada k, n denemede gözlemlediğimiz “dikkat” sayısıdır (örneğin, bizim durumumuzda n = k = 5) ve p, “dikkat” gözlemleme olasılığıdır (örneğin, p = 0). Adil bir para için 5. A posteriori dağılımını (örneğin, arka arkaya beş “tura” gösteren adil bir paranın olasılığını) hesaplamak için aşağıdaki miktarı hesaplamamız gerekir: p (θ | k) = p (k | θ) p (θ) Şimdilik, sürekli normalleştirme işlevi gören paydayı göz ardı ediyoruz. Şimdi daha önce belirtildiği gibi Beta dağıtımını seçiyoruz:
Ve bunu bir araya getiren iki parametreye bağlı olarak şunu elde ederiz:
Açıklamanın takip edilmesini kolaylaştırmak için son adımda sabit kısımları çıkardık. Bunu şu şekilde yeniden düzenleyebiliriz:
Yukarıdaki ifadenin yine şu parametrelerle bir Beta dağılımı olduğunu görebiliriz: Beta (k + α, n − k + β). Bu, a posteriori dağılımın önceki dağılımlarla aynı aileden olduğu anlamına gelir. Bizim durumumuzda hem önceki hem de sonraki bir Beta dağılımıdır. Dolayısıyla beta dağılımı, olasılıkta kullanılan binom dağılımına göre conjugate prior’dır.
1. Soru
Bir priori ne zaman conjugate prior olur? Eğer prior aynı dağılım ailesine aitse, prior’a conjugate prior denir.
2. Soru
Poisson dağılımıyla çalışırken, Bayesyen çıkarımda prior olarak hangi dağılım kullanılabilir ve sonuç ne olur? Poisson dağılımının conjugate prior’ı Gamma dağılımıdır. Bu, Poisson olasılığınız varsa ve prior (öncül) inançlarınızı Bayesyen çıkarım kullanarak güncellemek istiyorsanız, prior olarak Gamma dağılımını kullanabilir ve sonuç olarak posterior dağılım da Gamma dağılımı olacaktır.
3. Soru
Bilinen varyans ile Normal dağılım için conjugate prior dağılım nedir ve Bayesyen çıkarım ile prior inançları güncellemek ne anlama gelir?
Bilinen varyans ile Normal dağılımın konjugat öncülü Normal dağılımıdır. Bu, normal olasılığı olan bir durumda öncül inançlarınızı Bayesyen çıkarım kullanarak güncellemek istiyorsanız, öncül olarak Normal dağılımını kullanabilir ve sonuç olarak sonsal dağılım da yine Normal dağılım olacaktır.
Bayesian ve Frequentist Yaklaşım
Olasılıkları düşünürken buna iki farklı şekilde yaklaşabiliriz. Örneğin, bir zarı atmaya veya parayı atmaya devam ederek sonucu gözlemleriz. Zar durumunda, her sayının yukarıya gelme sıklığını gözlemleriz. Bir madeni para söz konusu olduğunda gözlemlediğimiz “tura” veya “yazı” sayısını sayabiliriz.
O halde “turaları” gözlemleme olasılığını nasıl tanımlayacağız? Defalarca yazı tura atıp şunu söyleyebiliriz: “Tura” olasılığı, paranın tura yüzünü yukarı bakacak şekilde gözlemleme sayımızın, çok sayıda yazı tura atma sınırı için paranın atış sayısına bölünmesiyle elde edilir:
Bu mantıkla, olasılığı uzun süren süreçlerdeki veya deneylerdeki olayların sıklığı veya bir popülasyonun rastgele bir örneği olarak anlayabiliriz. Buna istatistikte “Frequentist” yaklaşım denir. Bu düşünce ekolünde, verilerin rastgele fakat sabit bir sürecin somut bir gerçekleşmesi olarak gözlemlendiğini söylüyoruz. Madeni para örneğinde, parayı sık sık attığımızı veya alternatif olarak, atabildiğimiz tamamen aynı madeni paralardan oluşan çok sayıda bir popülasyona sahip olduğumuzu varsayıyoruz. Bu, olasılık tanımımızı temel aldığımız süreç veya deneyin parametrelerinin sabit olduğu anlamına gelir. Örneğin, madeni para adildir ve yazı veya tura gelme olasılığı %50'dir. Bu sayı, %50 sabittir ve hiçbir belirsizlik yoktur. Bu yorumda gözlemlediğimiz veriler rastgele bir örnektir. Paranın çok sayıda atılması gibi bir süreç olduğunu hayal edip, gözlemlediğimiz verileri bu modelle karşılaştırıp, gözlemlenen verilerin modelden beklediğimizle uyumlu olup olmadığını değerlendiriyoruz.
Öte yandan günlük yaşamımızda olasılıkları bu şekilde kullanmıyoruz. “Toynak sesi duyduğunuzda zebraları değil, atları düşünün” sözüne daha önce de rastlamıştık: Geceleri gökyüzünde bir ışık gördüğümüzde bunun bir uzay gemisi veya uydu yerine bir uçaktan ya da bir arabadan kaynaklanma ihtimalinin çok daha yüksek olduğunu söyleriz. Bu, olasılıklar hakkında Bayesci düşünme tarzıdır: Gözlemlediklerimize bir derece makullük veya inanç atarız. Madeni para örneğine dönecek olursak, bunun adil bir madeni para olup olmadığını önceden bilmiyoruz. Başlangıçta buna inanma eğiliminde olabiliriz ancak emin değiliz. Bu mantıkla, madalyonun tura veya tura gösterme olasılığına p = 0,5'te en yüksek değerine sahip olabilecek ancak oldukça geniş bir öncelik atayacağız. Yazı tura atışlarını gözlemledikçe inancımızı güncelleyebilir ve öncekini gözlemlerimize uyacak şekilde uyarlayabiliriz, örneğin paranın adil olduğu gibi.
Bunu yukarıdaki Frequentist yaklaşımla karşılaştırdığımızda iki büyük fark görüyoruz: İlk olarak, Bayes yaklaşımında a priori bilgimizi veya inancımızı ifade eden bir öncül tanımlamamız gerekiyor. Gökyüzündeki ışık durumunda, P(uzaylılar)’ın P(düzlem)’den çok daha düşük olduğunu söyleyebiliriz.
Bu öncelik Frequentist tanımında mevcut değildir. Ayrıca modelin parametrelerini bir değişken olarak ele alıyoruz: Frequentist’in görüşüne göre madeni para sabittir ve tura gelme olasılığı sabittir ancak belki de bilinmemektedir. Bayesian yönteminde, Frequentist yaklaşımdan farklı olarak, modelin parametresi, yani tura gelme olasılığı, bir olasılık dağılımı kullanılarak açıklanan rastgele bir değişkendir. Öte yandan veriler sabittir çünkü onları biz gözlemlemişizdir.
İki yaklaşım arasındaki temel fark olasılık konusundaki anlayışlarıdır. Frequentist’in görüşüne göre olasılıklar, uzun süren deneylerde veya bir popülasyonda olayların meydana gelme frekanslarıdır; Bayes istatistiklerinde “inanç” derecemizi temsil ederler ve bir olasılık dağılımı kullanılarak rastgele bir değişken olarak modellenirler.
Frequentistler ve Bayesçiler arasındaki tartışmanın çoğu, olasılıkların anlaşılması ve ele alınması etrafında yoğunlaşıyor. Frequentist’in görüşüne göre, bir öncelik kullanmanın istatistiksel analize öznel bir bakış açısı kattığı söylenebilir: Önceliği belirlemenin tek bir yolu olmadığından ve aslında bunu uzman bilgisini birleştirmek için kullanabileceğimize göre, cevap bu öznel seçime bağlıdır. Öte yandan Bayesçiler asıl meselenin bu olduğunu iddia edebilirler: Varsayımlarımızı açıkça ortaya koyuyoruz ve tekil olaylar için bile olasılıkları hesaplayabiliyoruz. Örneğin belirli bir adayın seçimi kazanma olasılığı nedir? Bir Frequentist’in bakış açısına göre bu soru pek bir anlam ifade etmiyor: Seçimi tam olarak aynı ayarlarla sonsuz sıklıkta tekrarlayamayız ve sonuçları gözlemleyip olasılıklar hakkında karar verebileceğimiz, söz konusu ülkenin tam kopyalarından oluşan bir nüfusa da sahip değiliz. Bayes istatistiklerinde varsayımlarımızı önceden modelleyebilir ve a posteriori olasılığı hesaplayabiliriz.
1. Soru
Bayes istatistiklerinde ele alınan veriler nedir?
Bayes istatistiklerinde veriler sabit olarak kabul edilir. Verileri sabit olarak ele almak, gözlemlenen verileri bilinen ve belirsizliğe tabi olmayan veriler olarak kabul ettiğimiz anlamına gelir. Bu, gözlemlenen verilere dayanarak ilgilenilen parametreler hakkındaki inançlarımızı güncellemeye odaklanmamızı sağlar.
2. Soru
Bayes istatistiklerindeki hangi unsur Frequentist’lerle en zıt düşer?
Bayes istatistiklerinde, sıklıkçı yaklaşımlarla sıklıkla çelişen bir unsur, önceki inançların veya ön bilgilerin dahil edilmesidir. Frekans istatistikleri tipik olarak önceki inançları içermez ve yalnızca gözlemlenen verilere dayanır. Bayes istatistiklerinin, ön bilgilerin (prior) açıkça analize dahil edildiği bu yönü, frekansçılar için bir tartışma noktası olabilir.
Özet
Bayes istatistiği gözlemlediğimiz verileri kullanarak çıkarımlar yapmamızı sağlar. Bayes istatistiğinin merkezinde, olasılık dağılımlarını kullanarak gözlemlediğimiz verileri tanımlamak için kullandığımız olasılığı, veriler göz önüne alındığında belirli bir sistem hakkındaki tüm bilgimizi ifade eden sonsalın hesaplanmasından önceki ile ilişkilendiren Bayes teoremi vardır.
Öncelik (prior) , Bayes istatistiğinin en önemli kısmıdır çünkü ön bilgimizi, uzman görüşümüzü ve hatta belirli bir hipoteze olan öznel inanç derecemizi şifreler. Uygun bir öncelik seçmek zorlu bir iştir ve bunu yapmanın tek bir yöntemi yoktur. Bazı durumlarda, mümkün olduğu kadar az bilgiyi şifrelemek isteyebiliriz ve Jerey kuralı böyle bir öncelik oluşturmamıza izin verir. Diğer durumlarda, sahip olduğumuz bilgiyi açık hale getirmek için prior’ı kullanırız.
Prior’ın hesaplanmasını kolaylaştırmak için, prior ile aynı dağılım ailesinden olma özelliğine sahip eşlenik öncülleri de (conjugate priors) seçebiliriz. Prior’ı kullanmak bir bakıma doğal düşünme tarzımıza karşılık gelse de, prior’ın kullanımı aynı zamanda en tartışmalı noktadır. Eleştirmenler, öznel bilgilerin bu şekilde kullanılmasının sonuçların genelleştirilmesini veya kişiden kişiye aktarılmasını zorlaştırdığına işaret etmektedirler.