İleri Matematik: Bilgi Teorisi

Cahit Barkin Ozer
17 min readOct 28, 2023

--

MSE kullanılarak tahmin ile gözlemlenen olaylar arasındaki farkın nasıl ifade edileceğini, Gini katsayısını, bilgi ve shannon entropilerini, Kullback Leibler uzaklaşmasını, iki olasılık fonksiyonunu karşılaştırmak için çapraz entropinin nasıl kullanılacağını öğreneceğiz.

Bilgi teorisi bilginin ölçülmesine, işlenmesine ve iletilmesine odaklanır. Entropi kavramı, bilgi bilimi alanında Claude Shannon tarafından ortaya atılmıştır ve bir veri akışında yer alan bilginin miktarının belirlenmesi de dahil olmak üzere birçok önemli uygulamaya sahiptir. Ayrıca olasılık dağılımları ile veri sınıflarında üyelik arasındaki benzerlik derecesini ölçmek için ilgili araçlar geliştireceğiz. Bu tür teknikler, bir olayın bir veya daha fazla önceden tanımlanmış sınıfa atanmasıyla ilgili sınıflandırma görevlerinde ve ayrıca belirli bir durumda bir miktarın tahmin edilmesine veya buna odaklanan regresyon görevlerinde faydalıdır.

Ortalama kare hatası, Kulback-Leibler sapması ve çapraz entropi gibi çeşitli ölçümler, bilgi teorisi ilkelerinden türetilebilir ve yeni veya bilinmeyen olayların tahmin edilmesine veya buna yönelik algoritmik yaklaşımlarda öncü bir rol oynayabilir.

Ortalama Hataların Karesi (MSE)

Çoğu durumda, gözlemlenen değerler üzerinden bir miktarı tahmin etmemiz gerekir. Bunu yapmanın bir yolu, bir veya daha fazla bağımsız değişkeni tahmin etmek istediğimiz bir değerle veya bağımlı değişkenle ilişkilendirdiğimiz regresyon işlemidir. Bağımsız değişkenlere özellikler (features), bağımlı değişkene de etiket (label) adı verilir. Bağımsız değişkenleri X ile ve bağımlı değişkeni y ile gösterirsek, y = f(X, ai) olacak şekilde bir ilişki kurmaya çalışırız. Burada f, bağımsız değişken X ile bağımlı değişken y’yi eşleştiren bir fonksiyonel gösterimdir. Bu eşleme bir veya daha fazla ai parametresine bağlı olabilir.

X sınıfı, belirli bir veri kümesindeki değişkenlerin bir koleksiyonudur ve x, bu sıralı değişkenlerin belirli bir değer kümesine karşılık gelir. X vektörünün tanım kümesi, şimdiye kadar karşılaştığımız bir vektör uzayının tüm gereksinimlerini tam olarak karşılamayabilir; belirli bir olay için bağımsız değişkenlerin tüm gözlemlerini dikkate aldığımızı ifade etmek için uygun bir gösterimdir. Herhangi bir x → somut gözlem kümesi için bu f(.) eşlemesi bir ŷ tahmini ile sonuçlanır. Modellemedeki bariz görev, f(X, ai)’yi tahmin etmektir; bu, örneğin açık bir istatistiksel veya nedensel model oluşturarak veya geçmiş gözlemlerden öğrenmek için bir makine öğrenimi algoritması kullanılarak yapılabilir.

Böyle bir modelin önemsiz olmayan en basit örneği, verilerin gerçek değerlerini tahmin etmek için kullanılan fonksiyonun, tek bir x değişkeni için y = mx + b çizgisi olduğu doğrusal regresyondur. Bu durumda iki serbest parametremiz vardır (serbest parametreler, bir modelde veriler kullanılarak belirlenmesi gereken parametrelerdir), yani a1 = m ve a2 = b.

Böyle bir model geliştirmek için, yalnızca X değişkenlerinin gözlemlenen değerlerine değil, aynı zamanda ai parametrelerini uygun şekilde seçebilmek için karşılık gelen gözlemlenen gerçek değerler y’ye de ihtiyacımız var. Modelin geliştirilmesi sırasında, ai parametrelerinin mevcut değerlerine dayalı olarak tahmin edilen değer ŷ’nin bir ara tahminini elde ederiz ve parametrelerin daha da nasıl optimize edileceğini belirlemek için bir ölçüme ihtiyacımız vardır. Modelin son parametre değerlerini optimize ettikten sonra modelin doğruluğunu değerlendirmemiz gerekir.

En basit ve en popüler ölçümlerden biri ortalama hatanın karesidir:

MSE, gözlemlenen gerçek değer y ve modelin tahmini ŷ açısından simetriktir. Gözlemlenen y değerinden uzak olan ŷ tahminlerine güçlü bir ceza uygular. Her ne kadar bu istenen bir miktar gibi görünse de, tahmin edilen değerlerin büyük bir kısmı gözlemlenenlere yakın olsa bile, metriğin birkaç uç değer tarafından domine edilebileceği anlamına da gelir. Bir tahmin modelinin değerlendirilmesinde MSE ve diğer metrikler iki farklı şekilde kullanılabilir. Bir kullanım model oluşturma sırasında, diğeri ise model test etme ve değerlendirme sırasındadır.

  1. Kayıp fonksiyonu: Model oluşturma sırasında ai parametreleri optimize edilirken bir kayıp fonksiyonu kullanılır.
  2. Puan fonksiyonu: Modelin öngördüğü değerleri, model oluşturulduktan sonra gözlemlenen değerlerle karşılaştırmak için bir puan fonksiyonu kullanılır.

Kayıp fonksiyonu durumunda, metrik doğrudan model parametrelerini optimize etmek için kullanılır. Model parametrelerinin nihai değeri/değerleri, farklı bir kayıp fonksiyonunun farklı optimal parametrelere yol açması anlamında kayıp fonksiyonuna bağlı olacaktır. Tahmin edilen değerlerin (ŷ) gerçek değerler (y) ile karşılaştırıldığında değerlendirmesi, kayıp fonksiyonundan farklı olabilen veya olmayabilen bir skor fonksiyonu kullanılarak yapılır.

Gini Katsayısı

Gini endeksi veya Gini katsayısı, frekans dağılımlarındaki değerlerin eşitsizlik derecesinin istatistiksel bir ölçüsüdür. Bir ülke içindeki gelirin (veya servetin) dağılımını ölçmek için yaygın olarak uygulanır. Endeks 1921 yılında İtalyan Corrado Gini tarafından geliştirilmiştir. Katsayı, yüzde 0 farka ve dolayısıyla toplam eşitliğe karşılık gelen sıfırdan, yüzde 100 farka ve dolayısıyla mükemmel eşitsizliğe karşılık gelen 1'e kadar değişir. 1'in üzerindeki değerler ancak negatif gelir veya karın yani borçlu kişilerin olması durumunda mümkündür. Gini endeksinin değeri ne kadar yüksek olursa eşitsizlik de o kadar belirgin olur. Belirli bir ülkedeki insanların gelir dağılımına ilişkin Gini katsayısını belirlemek için, ülkedeki tüm insanların gelirini buluruz ve bu verileri, kazanılan gelirin kümülatif payına karşı kümülatif nüfus yüzdesi olarak sunarız. Ortaya çıkan Lorenz Eğrisi’nin bir örneği aşağıdaki şekilde gösterilmektedir:

Gini endeksinin arkasındaki ana fikir, zenginliğin bir ülkenin nüfusu boyunca ne ölçüde eşit dağıldığını veya dağılmadığını göstermektir. Araştırmacılar genellikle söz konusu ülkenin hükümetinin bu oranı mümkün olduğu kadar düşük tutmaya çalışıp çalışmadığı, yani gelir eşitliği için çaba gösterip göstermediğiyle de ilgilenirler. Zaten bildiğimiz gibi Gini katsayısı 0 ≤ G ≤ 1, Lorenz Eğrisi’nde gösterilen alanların oranıdır.

Aşağıda birkaç ilginç durum incelenmektedir:

1. A = 0 ise Lorenz Eğrisi Eşitlik Doğrusu ile çakışır.

2. Eğer G = 0 ise, “mükemmel” bir gelir dağılımı vardır, bu da mükemmel bir şekilde tekdüze bir gelir dağılımı anlamına gelir yani ülkedeki tüm insanlar aynı düzenli para akışına sahiptir.

3. A çok büyükse B alanı çok küçük olur. Bu durumda G ≈ 1 (Gini katsayısı büyüktür) ve çok eşitsiz bir gelir dağılımı söz konusudur.

Örnek

Diyelim ki çok küçük bir ülkede sadece 10 kişi yaşıyoruz. Bize a1, a2, …, a10 diyelim ve ülkenin toplam gelirinin günlük 100 dolar olduğunu ve bu gelirin nüfusa eşit olarak dağıtıldığını, böylece her yerleşik ai’nin gelirinin günlük 10 dolar olduğunu varsayalım (i=1, … , 10). A ve G’yi değerlendirelim.

Bu durumda A=0 ve G=0; Lorenz Eğrisi ve eşitlik çizgisi çakışmaktadır. Yukarıdaki grafikteki mükemmel eşitlik çizgisi gerçekleşir.

Örnek

Nüfusun kümülatif oranının (yatay eksende) gelirin kümülatif yüzdesine (dikey eksende) grafiğinin aşağıda gösterildiği gibi olduğunu ve Lorenz eğrisinin y=x^5 ile tanımlandığını varsayalım.

Gini katsayısın belirleyin. A bölgesinin, eşitlik çizgisi ile Lorenz eğrisi arasındaki alanı bulmamız gerekiyor. Bunu yapmanın bir yolu, eşitlik çizgisinin altındaki üçgen bölgenin alanını bulmak ve Lorenz eğrisinin altındaki alanı çıkarmaktır. Eşitlik çizgisinin altındaki üçgenin alanı tüm karenin alanının yarısıdır, dolayısıyla 0,5'tir. IB, B bölgesinin Lorenz eğrisi altındaki alanı göstersin. IB o zaman:

Ve dolayısıyla A bölgesinin alanı 0,5−0,1666= 0,333'tür. Artık Gini katsayısını bulabiliriz.

Gini Safsızlığı

Gini katsayısı Gini safsızlığıyla karıştırılmamalıdır. Ne yazık ki pratikte terminoloji birbirinin yerine kullanılmaktadır. “Gini endeksi” terimi genellikle Gini safsızlığı için kullanılır ve daha fazla karışıklığı önlemek için bağlamı dikkatlice kontrol etmemiz gerekir. Yukarıda tartışılan Gini endeksine benzer şekilde Gini safsızlığı, bir kümedeki öğelerin dağılımının homojenliğinin bir ölçüsüdür ve bir veri kümesindeki bir nesnenin yanlış sınıflandırılması olasılığıyla ilgilidir.

Belirli bir veri kümesinde N sınıflandırma grubumuz veya sınıfımız olduğunu varsayalım ve pi’nin, i sınıfına ait rastgele bir örneğin olasılığı olduğunu varsayalım. Daha sonra, veri kümesindeki bir öğeye bir sınıf atarız ve sonraki iki deney için aşağıdaki durumları elde ederiz:

  1. Aynı i kategorisi için pi² olasılığıyla aynı çıktıyı elde ederiz.
  2. Kategoriye bakılmaksızın ∑ i = (1..N) pi² olasılığıyla aynı çıktıyı elde ederiz.
  3. Yukarıdakileri kullanarak 1 −∑ i = (1..N) pi² olasılıkla iki farklı çıktı elde ederiz.

Bu nedenle, Gini safsızlığını bulmak için, herhangi bir sınıflandırmada yanılma olasılığını bulmamız ve ardından tüm sınıflandırmaları toplamamız gerekir. Gini safsızlığı

Bazen bu formülü başka yollarla yazmak hesaplama açısından faydalı olabilir. Σ i=(1..N)pi = 1 olduğunu hatırlayın; bu, her öğeyi mevcut sınıflardan birine atamamız gerektiği anlamına gelir ve dolayısıyla pi = 1− Σjipj olur.

Burada son adımda ∑ i=(1..N) pi = 1 gerçeğini kullandık, bu da N sınıflandırma dışında başka olası sonuçların olmamasının bir sonucudur.

Entropi, Shannon Entropisi, Kullback-Leibler Uzaklaşması

Entropi

Entropi, kuantum mekaniği yasaları dışında belki de en kafa karıştırıcı fiziksel niceliktir. Günlük dilimizde entropi, bir sistemdeki rastgelelik derecesi ile ilişkilidir. Örneğin, çayda çözünen bir küp şekerin, şekerin çözünmesi doğal olduğu için daha yüksek bir rastgelelik düzeyine sahip olduğunu söyleyebiliriz, ancak elimizde tatlı bir çayın kendiliğinden çaya ve dibinde bir küp şekere ayrıldığını hiç gözlemlemeyiz. Ayrıca “entropinin zamanın okunu tanımladığını” da sık sık duyarız. Zamanın oku, zamanın daima ileriye (geriye değil) doğru hareket ettiğini ve reaksiyonların bu yönde ilerlediğini gösteren bir kavramdır. Bu analojilerin kökeni anlaşılabilir ancak entropi kavramını tam olarak yansıtmazlar. Üstelik entropi, tarihsel olarak ilk kez termodinamikte, ardından istatistiksel fizikte tanıtılmıştır. İlk bakışta her ikisi de çok farklı gibi görünse de, dikkatli bir incelemeden sonra birbirlerine eşdeğer oldukları görülür. Bu nedenle bilgi teorisine geçmeden önce entropiyi daha temel düzeyde anlamak faydalı olacaktır.

Entropinin termodinamik anlayışıyla başlıyoruz ve bazı reaksiyonların kendiliğinden meydana gelirken bazılarının kendiliğinden meydana gelmediğini kendimize hatırlatıyoruz. Bu konuyu daha ayrıntılı olarak ele alan konu Fiziksel Kimya’dır. Örneğin, çay gibi sıcak bir içecek ortam sıcaklığına kadar soğur, mevcut hacme bir gaz genişler ve bir top, durana kadar yere her çarptığında biraz daha aşağıya sıçrar. Top örneğinde bunu sezgisel olarak anlayabiliriz, çünkü her sıçramada top kinetik enerjisinin bir kısmını yere aktarır ve bu da yerdeki atomların rastgele termal hareketine dönüşür, yani yer biraz ısınır. Ancak sıcak bir zemin üzerinde duran topun kendiliğinden havaya sıçradığını hiç gözlemlemedik. Bu da ancak yerdeki tüm atomların birlikte hareket etmesi ve topu uzaklaştırması durumunda gerçekleşebilir. Daha sonra, sistemin enerjisinin dağılmasına yol açan değişiklikleri arayarak, sıçrayan top veya genişleyen gaz gibi kendiliğinden gerçekleşen reaksiyonları tanımlayabiliriz: Top her seferinde biraz daha az sıçradıkça, atomların rastgele hareketine aktarılan enerjiyi yere kaybeder.

Entropinin termodinamik tanımı, bir sistemdeki değişimin süreç içinde kaybettiği enerjiyle ilgili olduğu ve bunun da ısı ile aktarılan enerji miktarıyla ifade edilebileceği fikrine odaklanmaktadır. Bu oldukça karmaşık gelebilir ancak termodinamikte bir sistemin (iç) enerjisi, belirli bir sistemin ne kadar iş yapabileceğinin bir ölçüsüdür. İç enerji, enerjiyi ısı olarak aktararak veya iş yaparak değiştirilebilir: dU=δQ+δW.

Örneğin, sıkıştırılmış bir gaz bir türbini döndürebilirken mevcut alanı dolduran bir gaz bunu yapamaz. Seken top örneğinde gördüğümüz gibi ısı, iş durumunda düzgün hareketin aksine atomların rastgele hareketiyle ilgilidir. Bundan sonra, bir sistemin “faydalı” iş yapma yeteneğinin, rastgele harekete aktarılan ısı miktarıyla orantılı olarak azaldığı sonucuna varabiliriz. Dahası, bunun sıcaklığa bağlı olması sezgisel olarak mantıklıdır: Halihazırda sıcak olan bir sisteme biraz daha fazla ısı eklemenin etkisi, soğuk bir sisteme göre çok daha azdır. Bu aslında entropinin termodinamik bakış açısıyla tanımıdır:

Burada S entropiyi, δQ ısı değişiminin artan miktarını ve T sistemin sıcaklığını gösterir. Bu tanım, seken top örneğini düşünürsek, entropiyi neden rastgelelikle ilişkilendirdiğimizi anlamamızı sağlar. Yere bir miktar ısı aktarıldıkça yerdeki atomlar biraz daha hareket eder ve hareketleri daha rastgele veya daha düzensiz hale gelir.

Ne yazık ki, entropinin termodinamik anlayışı günlük anlayışımızı iyi açıklasa da, entropiyi bilgi bilimindeki herhangi bir kavramla ilişkilendirmemize gerçekten yardımcı olmamaktadır. Bu nedenle daha derin bir anlayış kazanmak için istatistiksel fiziğe dönmemiz gerekir. İstatistiksel fizikte, büyük toplulukların ortaya çıkan özellikleriyle ilgileniriz, birden çok atom veya molekülün kuantum düzeyindeki etkileşiminin ayrıntılı bir açıklamasıyla ilgilenmeyiz. Bunun yerine, çok sayıda molekülün nasıl davrandığını analiz eder ve onlara, birbirine çarpan küçük sert toplarlarmış gibi varsayarız. Bu basitleştirme makroskobik miktarları analiz etmemize olanak tanır: Örneğin, bir mol su yaklaşık 1023 su molekülünden oluşur. Bir mol, bir maddenin miktarının temel birimidir ve tam olarak 6.02214076 · 1023 parçacık (atom, molekül vb.) içerir.

Bu kadar çok sayıdaki molekülün tüm etkilerini tam olarak hesaplamak neredeyse imkansızdır; örneğin az miktardaki suyun sobanın üzerine konulduğunda nasıl ısındığını açıklamak için de buna gerek yoktur. Bu yaklaşımda, moleküllerin etkileşiminden kaynaklanan bir sistemin toplam enerjisine olan katkıyı ihmal ediyoruz; bunun yerine moleküllerin minik “bilardo topları” gibi etrafta uçtuğunu, sürekli olarak birbirlerine çarptığını ve dolayısıyla sadece enerjiyi değil aynı zamanda hareket doğrultularını da değiştirdiğini varsayıyoruz. Sonuç olarak büyük topluluğumuz bu bilardo toplarından veya N moleküllerinden oluşur; her molekül belirli bir ϵi enerji durumundadır. Bu “enerji durumu” kavramı önemlidir, çünkü farklı enerji seviyeleri (ϵi) sürekli değil ayrıktır; örneğin, bazı moleküller ϵ0 temel durumunda, diğerleri ise bir sonraki ϵ1 seviyesindedir,…. ϵ0 temel durumunda, tüm moleküllerin düzenli bir kafes içinde hareketsiz olduğunu ve artık hareket etmediğini hayal edebiliriz; bu tam olarak doğru değildir, ancak yararlı bir benzetme görevi görür. Temel durum bir parçacığın (örneğin atom, molekül) en düşük enerjisidir.

Yalnızca çok sayıda molekülle ilgilendiğimiz için, ortalama olarak ni moleküllerinin ϵi enerji durumunu işgal ettiğini söylüyoruz. İstatistiksel fizik yasaları bize moleküllerin olası durumlar arasındaki dağılımının tek bir parametre tarafından, yani sıcaklık tarafından yönetildiğini söyler.

Bunu şu şekilde görselleştirebiliriz: Bir sistem ne kadar sıcaksa, yani sıcaklığı ne kadar yüksekse, o kadar fazla enerji durumuna ulaşılabilir ve moleküller o kadar fazla hareket edip biribirine çarpabilir. Her çarpışmada, bazı moleküller bir miktar enerji kaybedip daha düşük bir duruma geçecek, diğer moleküller ise bu enerjiyi kazanarak daha yüksek bir duruma geçecetirk, ancak ortalama olarak durumların popülasyonu aynı kalacaktır.

Çok düşük sıcaklıklarda yalnızca birkaç enerji durumuna erişilebilir. Bu bağımlılık bizi entropi hakkındaki istatistiksel anlayışımıza ve bunun yukarıda tartıştığımız rastgelelik veya düzenlilikle nasıl ilişkili olduğuna daha da yaklaştırmaktadır. Yalnızca sıcaklık düştükçe sistemin temel durumu ϵ0'a erişilebilir. Bu durumda {N, 0, 0, …} yazabiliriz. Sıcaklık biraz daha yüksekse, daha fazla duruma erişilebilir ve sistemin başka bir konfigürasyonu {N, −2, 2, 0, …} olabilir; burada temel durumun üzerindeki ilk ϵ1 durumuna artık erişilebilir. Genel olarak sistemin enerji durumlarının popülasyonu {n0,n1,n2,…} ile tanımlanır ve bu, hangi molekülün hangi durumda olduğuna bağlı olarak W farklı yollarla elde edilebilir. Sistemi çok sayıda birbirinin aynı toplardan oluşan bir sistem olarak hayal edersek, hangi topun hangi duruma gireceğine dair birçok farklı seçimle, bunları birbirinden ayıramadığımız için aynı durum konfigürasyonunu elde edebileceğimizi görebiliriz. Aşağıdaki W değişkeni, bu konfigürasyonun “ağırlığı” olarak adlandırılır ve şu şekilde verilir:

Bu araçlarla Boltzmann entropisini tanımlayabiliriz:

Burada kB Boltzmann sabitidir (kB = 1,38 · 10–23m2kgs–2K–1) ve W konfigürasyonun ağırlığıdır. Boltzmann sabiti kB = 1,38 · 10–23m2kgs– 2K–1 . Yukarıdaki mantıktan yola çıkarak bu miktarın daha önce gördüğümüz termodinamik tanımla aynı şekilde davrandığını görebiliriz.

Sistemi tanımlayan tek parametre, bir miktar ısı (q) değişimiyle değiştirebileceğimiz T sıcaklığıdır. T → 0 limitinde yalnızca temel duruma erişilebilir, bu da yalnızca tek bir konfigürasyonun mümkün olduğu anlamına gelir, bu da W = 1'e ve dolayısıyla ln 1 = 0 olarak S = 0'a yol açar. Yalnızca bir duruma erişilebildiğinden miktar, “Rastgelelik” minimum düzeydedir ve sıcaklığı artırdıkça (bir miktar ısı ekleyerek) artar çünkü daha fazla durum erişilebilir hale gelir.

Elbette bunun istisnaları da var. Bir örnek karbon monoksittir (CO). Temel durum, bir karbon atomu C’yi bir oksijen atomu O’nun takip edeceği şekildedir ve sıcaklık düştükçe, erişilebilir tek durum CO CO CO olmalıdır… çünkü sistem yavaş yavaş düzenli bir kafes halinde “donar”. Bununla birlikte, durum OC, enerji açısından CO’dan çok farklı değildir ve bu nedenle, CO’ya dönüşmek için yeterli enerji bulunmadığından OC konfigürasyonunun “tuzağa düşürülmesi” meydana gelebilir ve T → 0 olduğundan, kafesimiz şu şekilde görünebilir: :COCOOC…. Bu bize, CO konfigürasyonunu 0 ile ve OC konfigürasyonunu 1 ile gösterebileceğimizi ve bir bit akışı olarak ifade edilen yukarıdaki dizinin 001… okuyacağını hayal edersek, entropinin bilgi bilimi ile ilgili olarak nasıl kullanılabileceğine dair ilk bakışı sağlar. Daha sonra kullanmak üzere Boltzmann entropisini şu şekilde yeniden yazabiliriz:

Stirling yaklaşımını (ln x! ≈ x ln x − x) kullanarak faktöriyelleri basitleştiririz:

N = ∑i ni’yi kullanarak entropiyi şu şekilde ifade edebiliriz:

Burada pi = ni/N, i durumundaki moleküllerin oranı veya molekülün i durumunda olma olasılığıdır.

Shannon Entropisi

Bilgi teorisinin babası Claude Shannon, bilgi kaybı olmadan bir mesaj göndermek için gereken minimum kodlama boyutunu tanımlamak için entropi terimini icat etmiştir. Bunun iki bileşeni var. İlk olarak, bilgiyi iletmek için elde edebileceğimiz maksimum sıkıştırma oranı nedir? Bu entropi ile ilgilidir. Diğeri teknik uygulama ve bir iletim kanalının maksimum kapasitesiyle ilgilidir. İkincisi elektrik mühendisliğinin bir parçasıdır ve geri kalanı için ilk kısma odaklanacağız.

Bilgi teorisinde, bir sistemden elde edebileceğimiz bilgi miktarıyla ilgileniriz ve bir A olayının bilgi içeriği şu şekilde tanımlanır:

Burada p(A), olayın meydana gelme olasılığıdır. Bir olayın olasılığı arttığında bilgi içeriğinin azaldığını fark ederiz; bir olayın olasılığı ne kadar artarsa, onun hakkında o kadar az “şaşırırız” ve onu o kadar çok bekleriz, bu da onun yalnızca zaten sahip olduğumuz bilgiyi doğruladığı anlamına gelir. Olayın her zaman meydana geldiği p(A) = 1 ekstrem durumunda, daha fazla bilgi eklenmez. Ayrıca bağımsız olaylardan kaynaklanan bilgilerin toplayıcı olduğunu da not ediyoruz: I(A1∩A2) = I(A1) +I(A2).

Şimdi, p(X) olasılık dağılımına göre {x1, x2, …, xn} değerlerini alabilen ayrık bir X değişkeni tarafından tanımlanan daha büyük sistemlere dönüyoruz. Shannon entropisi daha sonra bir sonucun ortalama bilgi içeriği olarak tanımlanır.

Burada E[.] ortalamayı hesaplamak için kullandığımız beklenti değeridir (E[x]=∫xp(x)dx veya E[x]=∑ixipi). Bu tanımı denklem 6.14 ile karşılaştırdığımızda, doğal logaritmadan iki tabanına olan taban değişikliği ve Shannon entropisinin NkB sabitlerine sahip olmaması ve bunlarla doğrudan ilişkili olmaması dışında bunların aynı fiziksel sistem olduğunu görüyoruz. Toplulukların entropisini istatistiksel fizik bağlamında zaten incelediğimiz için bu bağlantı şaşırtıcı değil. Her iki durumda da, olası bir ayrık değerin veya durumun işgal edilme olasılığını belirleyen bir p olasılık fonksiyonu cinsinden tanımlanan büyük sistemlerle ilgileniyoruz.

Şu ana kadar etkinlik alanı ayrıktı. Frekans yerine olasılık yoğunluk fonksiyonunu dikkate alarak, sonsuz sayıda olası değere sahip temel değişkenler için Shannon entropisini anlamlı bir şekilde tartışmak mümkündür. Ölçtüğümüz değişkenin altında yatan topoloji önem kazanmaktadır. Olası değer bir gerçel sayı ise yukarıdaki denklemi integral formda yazabiliriz.

Burada p(x) olasılık yoğunluk fonksiyonunu temsil eder.

Örnek

Yazı tura atmanın entropisini hesaplayabiliriz. Adil bir para için yazı ve tura gelme olasılığı yüzde 50'dir. Shannon entropisi:

Bu durumda entropi maksimumdur çünkü şu ana kadar gözlemlediklerimize dayanarak bir sonraki yazı tura atmanın sonucunu tahmin edemeyiz. Bu nedenle, yazı veya tura gelirse ortaya çıkan bilgiyi kodlamak için yazı tura başına bir bit’e ihtiyacımız vardır. Ancak, eğer para adil değilse ve turalar yazı için q olasılığından daha yüksek bir p olasılığıyla geliyorsa, entropimiz farklı olacaktır: H = −p log2(p) − q log2(q).

Bu sayı 1'den küçüktür, çünkü tura gelme olasılığı artık daha yüksektir ve tura gelirse daha az “şaşırırız”.

Örnek

00100010 dizisinin Shannon entropisini hesaplayın. Öncelikle sistemimizin sıfır ve bir olmak üzere yalnızca iki durumu olduğunu not edelim. Her birinin sayısını saydığımızda sekiz karakterden altı sıfır ve iki birimimizin olduğunu görüyoruz. Dolayısıyla sıfır alma olasılığı p(0) = 6/8 = 3/4 ve bir alma olasılığı p(1)=2/8=1/4'tür. Shannon entropisi bu durumda H=−0,75log2(0,75)−0,25log2(0,25)=0,811 bit olur. Bunu yukarıdaki yazı-tura atışı ile karşılaştırabiliriz: Eğer sıfırlar (tura) birler (yazı) kadar sık gelseydi H = 1 olurdu. Sıfır daha az bilgi taşır, çünkü bir sonraki harfin sıfır olacağını 3/4 olasılıkla tahmin edebiliriz.

Kullback-Leibler Sapması

p(x) ve q(x) olasılık dağılımlarının ne kadar farklı olduğunu belirlemek için entropi kavramını kullanabiliriz. Bunların her biri için Shannon entropisini tanımlayabiliriz ve p(x) ile q(x) arasındaki bağıl entropiyi veya Kullback-Leibler(KL) sapmasını şu şekilde tanımlayabiliriz:

Ayrık dağılımlı durumlar için:

Sürekli dağılımlı durumlar için:

Aynı rastgele değişken üzerindeki iki olasılık dağılımı arasındaki bağıl entropi, iki dağılımın ne kadar farklı olduğunun bir ölçüsüdür. Gibbs’in eşitsizliği karşılanmaktadır:

Burada DKL(p||q) = 0 yalnızca p(x) = q(x) ise. Kullback-Leibler sapması bazen KL “uzaklaşması” olarak da adlandırılır, ancak p ve q’de simetrik olmadığı için kesin olarak bir mesafe değildir, yani p ve q yer değiştirirse değeri değişir.

Çapraz Entropi

Şaşırtıcı olmayan bir şekilde, bir veri kümesinden olasılık dağılımı çıkarımı yaptığımızda her zaman doğru sonuç almayız. Bu olasılığı daha resmi olarak tartışabilmek istiyoruz ve bu amaçla çapraz entropiyi tanıtıyoruz. İki olasılık dağılımı göz önüne alındığında, bunlara p ve q diyelim, aynı temel değişkenler kümesinde, p’nin gerçek dağılım olduğunu ve q’nun yalnızca optimize ettiğimiz dağılım olduğunu varsayalım. Uzaydaki bir olayı tanımlamak ne kadar zordur (ihtiyaç duyduğumuz veri bitlerinin sayısıyla ölçülür)? P ve q’nun çapraz entropisi bu soruyu yanıtlama çabasıdır.

Çapraz entropiyi tanımlamak için rastgele değişken x’in entropisini ve gerçek olasılık dağılımı p ile onu tahmin etmek için kullandığımız q arasındaki Kullback-Leibler uzaklaşmasını kullanacağız. Temelde, uzaydaki bir olayı tanımlamanın “ne kadar zor olduğu”, entropi ile ölçülen doğal zorluk (belirsizlik) artı Kullback Leibler uzaklaşması ile ölçülen p’nin q ile tahmin edilmesinin neden olduğu ilave zorluktur. Denklem 6.19 ile tanımlanan Kullback-Leibler uzaklaşmasının Dk(p||q) olduğunu hatırlayın:

Logaritmanın özelliklerini kullanarak bu şu şekilde yeniden yazılabilir:

Burada H(x), denklem 6.17 ile tanımlanan x dağılımının Shannon entropisidir ve H(p, q) şu şekilde tanımlanır:

Ve p ve q’nun çapraz entropisi olarak adlandırılır. Çapraz entropi, H(p, q sayısı) sayısı, gerçek dağılım p olduğunda şemamızı dağılımı kullanarak kodladığımızda bir olayı tanımlamamız için gereken ortalama bit sayısını temsil eder. Kullback-Leibler uzaklaşması nedeniyle çapraz entropi de genel olarak asimetriktir, H(p, q) ≠H(q, p). Çapraz entropinin bir diğer temel özelliği, gerçek dağılımın entropisi ile aşağıdan sınırlanmış olmasıdır. Kodlama şemamızda gerçek dağılımı kullandığımızda mümkün olan en küçük çapraz entropinin elde edildiğini unutmayın. Yani, yukarıdaki kullanarak Shannon Entropisini elde ediyoruz:

Makine öğrenimi uygulamalarında çapraz entropi, modelin optimizasyonu sırasında, özellikle olayların iki veya daha fazla kategoriye ayrıldığı sınıflandırma görevlerinde sıklıkla bir kayıp fonksiyonu olarak kullanılır. Makine öğreniminde algoritmalar açıkca programlanmaz, ancak belirli ilişkileri öğrenmek için verileri kullanır. Model oluşturma ve eğitim sırasında, olayın içinde bulunduğu gerçek kategoriyi biliyoruz — bu bizim p’mizdir, yani gerçek kategori için pk = 1 ve diğerleri için pl = 0'dır. Tahmin modeli her olası kategori için bir olasılık döndürür; örneğin q1=0,1, q2=0,7, q3=0,01, …. olayın kategorilerden birine ait olması gerektiğinden ∑i qi = 1 toplamı 1'e eşittir. Dolayısıyla çapraz entropi, q modelinin gerçek p’yi ne kadar iyi tanımladığını belirler.

Özet

Bilgi teorisi bilginin toplanmasını, sınıflandırılmasını, depolanmasını, işlenmesini ve yayılmasını inceleyen çok disiplinli bir alandır. Alan hem temel teorik çerçeve ve teorilerle hem de pratik uygulamalarla ilgilidir. Bilgi bilimi, bilgisayar bilimi, bilişsel ve sosyal bilimler gibi çok çeşitli alanların yönlerini içerir. Bilgi teorisindeki temel teorinin önemli bir yönü, bir veri akışında ne kadar bilgi bulunduğunu ve bu bilginin mümkün olan en küçük kayıpsız kodlamayla nasıl iletileceğini anlamaktır. Bunda kullanılan önemli bir araç entropidir.

Büyük fiziksel sistem topluluklarının ortaya çıkan özelliklerini tanımlamak için entropiyi nasıl kullanabileceğimizi anlayarak, kavramın bilgi biliminde nasıl kullanıldığını da anlayabiliriz. Ayrıca, bir model ile gözlemlenen veriler arasındaki ikinci dereceden sapmayı ölçmek için kullanılan, yaygın olarak kullanılan ortalama hataların karesi (MSE) yönteminden başlayarak, tahmine dayalı modellerin nasıl değerlendirileceğini inceledik.

Gini endeksi sıklıkla Gini safsızlığıyla karıştırılır. Gini endeksi, bir ülkenin gelir (veya zenginlik) dağılımını incelemek için yaygın olarak uygulanan istatistiksel bir dağılım ölçüsüdür. Gini safsızlığı aynı zamanda bir safsızlık ölçüsüdür, ancak makine öğreniminde, özellikle karar ağaçlarının oluşturulmasında, herhangi bir sınıflandırmanın yanlış olma olasılığını belirlemek için kullanılır. Aynı değişken üzerindeki iki olasılık dağılımı arasındaki Kullback-Leibler uzaklaşması, iki dağılım arasındaki benzerlik derecesini tanımlamak için kullanılır.

Yazımızı entropiyi tahmin etmenin gerçekte ne anlama geldiğini ve bunu ne kadar doğru bir şekilde yapabildiğimizi araştırarak sonlandırdık ve bize yardımcı olması için olasılık dağılımlarını karşılaştırmak için kullanılan çapraz entropi aracını inceledik.

Kaynaklar

[1] Wikipedi, (13 Aralık 2022), Bilgi Teorisi

[https://tr.wikipedia.org/wiki/Bilgi_teorisi]

[2] Buse Köseoğlu, (11 Şubat 2021), Model Performansını Değerlendirmek: Regresyon:

[https://medium.com/yaz%C4%B1l%C4%B1m-ve-bili%C5%9Fim-kul%C3%BCb%C3%BC/model-performans%C4%B1n%C4%B1-de%C4%9Ferlendirmek-regresyon-48b4afec8664]

[3] Wikipedi, (21 Ekim 2023), Gini Katsayısı:

[https://tr.wikipedia.org/wiki/Gini_katsay%C4%B1s%C4%B1]

[4] Abdullah Atcılı, (4 Ocak 2022), Karar Agaclari Algoritmasi:

[https://medium.com/machine-learning-t%C3%BCrkiye/karar-agaclari-algoritmasi-b823c23997d0]

[5] Yasin Hoca, (7 Şubat 2017), Shannon Entropy:

[http://www.yasinhoca.com/2017/02/shannon-entropy.html]

[6] Sadi Evren Şeker, (8 Temmuz 2013), Kullback Leibler Uzaklığı (kullback-leibler divergence):

[https://bilgisayarkavramlari.com/2013/07/08/kullback-leibler-uzakligi-kullback-leibler-divergence/]

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet