Pekiştirmeli Öğrenme Yaklaşımları
Model tabanlı ve model bağımsız yaklaşımları, keşif ve sömürü dengesini inceliyoruz.
Basit Açıklama
1. Model-Free (Model Bağımsız) Pekiştirmeli Öğrenme
Model bağımsız pekiştirmeli öğrenme, çevrenin nasıl davrandığına dair bir model oluşturmadan, doğrudan çevreyle etkileşimlerden öğrenmeyi içerir. Temel kavramlar şunlardır:
- Politika (Policy): Bir politika, belirli durumlarda hangi eylemlerin seçileceğini tanımlayan bir haritalamadır. Model bağımsız RL’de politikalar doğrudan deneyime dayanarak optimize edilir.
- Değer Fonksiyonu (Value Function): Belirli bir durumdan (durum değeri fonksiyonu) veya durum-eylem çiftinden (örneğin Q-değerleri) beklenen toplam ödülü tahmin eder.
- Geçici Fark (Temporal Difference — TD) Öğrenme: Mevcut tahminleri, gerçek ödüllerle ve gelecekteki tahminlerle karşılaştırarak değer fonksiyonlarını güncellemek için kullanılan yaygın bir yaklaşımdır.
Örnekler:
- Politika tabanlı yöntemler (REINFORCE gibi): Politika fonksiyonunu doğrudan öğrenir.
- Değer tabanlı yöntemler (Q-Learning, Deep Q-Networks gibi): Değer fonksiyonunu tahmin eder ve buradan politika türetir. Daha basit ve büyük ya da bilinmeyen ortamlarda etkili olabilir. Örnek verimliliği düşüktür, yavaş yakınsar ve uzun vadeli ödül bağlantılarını kurmada zorlanabilir.
2. Model-Based (Model Tabanlı) Pekiştirmeli Öğrenme
Model tabanlı pekiştirmeli öğrenme, bir model oluşturarak veya çevre modeline erişerek gelecekteki durumları ve ödülleri tahmin etmeyi içerir.
- Model: Çevre dinamiklerinin bir temsilidir ve genellikle iki fonksiyondan oluşur:
- Geçiş Fonksiyonu (Transition Function): Mevcut durum ve eylem verildiğinde bir sonraki durumu tahmin eder.
- Ödül Fonksiyonu (Reward Function): Bir durum-eylem çifti için anlık ödülü tahmin eder.
- Planlama (Planning): Ajan, çevreyle simüle edilmiş etkileşimler yaparak farklı eylem dizilerini değerlendirmek için modeli kullanır.
- Örnekler: Dyna-Q gibi algoritmalar model tabanlı planlamayı model bağımsız yöntemlerle entegre eder. Robotikte Model Öngörücü Kontrol (Model Predictive Control — MPC) sıkça kullanılır. Daha örnek verimlidir; simüle edilmiş etkileşimlerden öğrenebilir ve daha iyi uzun vadeli karar alabilir. Güvenilir bir model öğrenmek zor ve hesaplama açısından maliyetli olabilir.
3. Keşif-Sömürü İkilemi (Exploration-Exploitation Dilemma)
Bu, pekiştirmeli öğrenmede temel bir zorluktur. Ajan şu iki seçenek arasında kalır:
- Keşif (Exploration): Daha iyi stratejiler veya ödüller keşfetmek için yeni eylemler denemek.
- Sömürü (Exploitation): Mevcut bilgiye dayanarak anlık ödülü maksimize etmek.
Neden bir ikilem?
Keşif başlangıçta düşük ödüller getirebilir ancak zamanla daha iyi stratejilere yol açabilir. Öte yandan sömürü güvenli bir tercihtir ancak ajanı yerel optimumda sıkıştırabilir.
4. Keşif-Sömürü İkilemine Model Bağımsız ve Model Tabanlı Yöntemlerle Yaklaşım
Model Bağımsız Yöntemler
- Epsilon-Greedy Stratejisi: Ajan, ϵ olasılıkla rastgele bir eylemi (keşifi), 1−ϵ olasılıkla en iyi bilinen eylemi (sömürüyü) seçer. ϵ (epsilon) değeri genellikle zamanla azaltılır.
- Softmax Keşfi: Eylemler, daha yüksek değerli eylemleri tercih eden ancak keşfe izin veren bir olasılık dağılımına göre seçilir.
- Üst Güven Sınırı (UCB: Upper Confidence Bound): Belirsizlik tahminlerini dikkate alarak potansiyel ödülü en yüksek olan eylemleri seçer.
Model Temelli Yöntemler
- Belirsizlik Tahmini: Dinamikler veya ödül tahminlerinde belirsizliği açıkça modelleyin. Bayesian yöntemler bu belirsizliği nicelleştirmeye yardımcı olabilir.
- Thompson Örnekleme (Thompson Sampling): Eylemler, optimal olma olasılıklarına göre bir dağılımdan örneklenir.
- Merak Odaklı Keşif (Curiosity-Driven Exploration): Ajanı yeni veya tahmin edilemeyen durumları keşfettiği için ödüllendiren bir yöntemdir.
Yöntemlerin Karşılaştırılması:
Model bağımsız yöntemler genellikle basit sezgilere (örneğin epsilon-greedy) dayanırken, model-based yöntemler daha sofistike planlama ve belirsizlik tahmini ile daha iyi keşif stratejileri sağlayabilir.
Giriş
Karmaşık ortamlarda karar almak çok zorlu bir iştir. Kümülatif beklenen ödülleri, yani getiriyi optimize etmek için eylemlerimizi uygun şekilde seçmeliyiz.
MDP (Markov Decision Problems yani Markov Karar Problemleri) Markov özelliğini sağlayan karar problemlerine denir. Yani mevcut durum verildiğinde, gelecekteki durumlar geçmiş durumlardan bağımsızdır.
Sıralı veya Markov karar problemlerini (MDP) tartışırken, problemin özellikleri hakkında tam bilgiye sahip olduğumuzu, özellikle de eylem a’yı gerçekleştirerek bir durum s’den bir sonraki durum s’ye nasıl geçileceğini belirlememizi sağlayan geçiş olasılıkları P(s′ | s, a) ve eylemi gerçekleştirerek elde ettiğimiz beklenen ödül r(s, a) hakkında tam bilgiye sahip olduğumuzu varsaydık.
Bunlar tam olarak biliniyorsa, en azından prensipte, dinamik programlama gibi teknikleri kullanarak sıralı veya Markov karar problemini “çözebiliriz” ve bu da Bellman’ın optimallik denklemine yol açar. Değer veya politika yinelemesi gibi teknikler, belirli bir karar probleminde optimal olarak nasıl davranılacağını belirlemek için kullanılabilir.
Bu yaklaşım, durumların ve/veya eylemlerin sayısı çok büyük veya sürekli olduğunda sınırlarına ulaşır. Ayrıca, birçok gerçekçi senaryoda, geçiş olasılıkları veya ödül hakkında hiçbir bilgiye sahip değiliz. Pekiştirmeli öğrenme alanı, esas olarak, bir ajanın ortamı keşfetmesi ve gelecekte daha iyi hareket edebilmek için eylemlerinden öğrenmesi gereken bu tür durumlarla nasıl başa çıkılacağıyla ilgilenir. Temelde, bu durumu iki farklı şekilde ele alabiliriz: Ya geçiş olasılıklarını ve ödülleri öğrenmek için ortamla etkileşime girerek çevrenin parametrelerini öğrenmeye çalışırız ya da bunlara sahip olduğumuzda, tam sıralı veya Markov karar problemini biliyormuşuz gibi aynı yöntemleri uygulayabiliriz. Buna “model tabanlı öğrenme” denir.
Bir model öğrenmeden doğrudan “iyi” eylemleri nasıl seçeceğimizi de öğrenebiliriz. Buna da “modelsiz öğrenme” denir. İki seçenek de diğerinden daha iyi değildir çünkü her ikisinin de kendine göre avantajları vardır ve her biri için bir dizi yaklaşım önerilmiştir. Hangi yaklaşımın izleneceği, ele alınan probleme de bağlıdır.
Her iki durumda da, çevreyi bilmediğimizden, ajanların eylemler gerçekleştirmesi ve yeni durum s′ ile ödül r(s, a)’yı gözlemlemesi gerekir. Ayrıca genel kümülatif ödülü optimize etmek istediğimizden, bilinmeyen eylemleri yürütmek, optimum olmayabileceği ve vasat altı ödüllere yol açabileceği anlamında risklidir. Ancak, yalnızca daha önce gerçekleştirdiğimiz ve bildiğimiz eylemlere bağlı kalırsak, şimdiye kadar deneyimlediklerimizden bile daha iyi olan eylemleri kaçırabiliriz. Buna “keşif-sömürü ikilemi” denir.
Model Bağımsız Öğrenme
Modelden bağımsız yaklaşımlar, ardışık veya Markov karar problemleriyle karşılaştığımızda ve en önemlisi, bir durumdan bir sonrakine belirli bir eylem yoluyla geçiş yapmamızı sağlayan geçiş olasılıkları P(s′∣s,a) ile elde edeceğimiz ödülleri bilmediğimiz durumlarda kullanılır. Modelden bağımsız yaklaşımlar ikiye ayrılır: Bilinmeyen karar probleminin değer fonksiyonunu tahmin etmeye yönelik modelden bağımsız tahmin ve değer fonksiyonunu optimize etmeye yönelik modelden bağımsız kontrol.
Model bağımsız pekiştirmeli öğrenmenin ana fikri, çözümü yani en iyi eylemi nasıl seçeceğimizi, önce ortamın bir modelini oluşturmak zorunda kalmadan doğrudan öğrenmektir. Ortamı bilmediğimizden, onu öğrenmenin tek yolu deneyimler yoluyla olur: Durum s’yi gözlemleriz, eylem a’yı seçeriz ve hangi ödül r’yi elde ettiğimizi ve hangi yeni durum s’de son bulduğumuzu gözlemleriz. Bu diziye ayrıca “deneyim demeti” (experience tuple) (s, a, r, s’) denir.
Monte Carlo yöntemi, adını kumarhaneleriyle ünlü Monte Carlo kasabasından alır ve yöntemde kullanılan rastgele yaklaşıma gönderme yapar.
Çevreden öğrenmenin nispeten basit bir yolu Monte Carlo Değerlendirmesi olarak adlandırılır, bkz. (Sutton & Barto, 2018b, s. 92). Başlangıçta, eylemimizi a olarak seçtiğimiz bir π politikası seçeriz ve Varbitrarily bir durum değeri fonksiyonu ve çevreyle etkileşimden elde edilen tüm getirileri, yani kümülatif iskontolu ödülü tutan boş bir liste başlatırız. Bir durumun değerinin, örneklem ortalaması kullanılarak yaklaşık olarak hesaplanabilen getirinin beklenen değeri olduğunu unutmayın.
Monte Carlo Politikası Değerlendirmesi (Her Ziyarette)
- Başlat:
- Değerlendirmek için π politikası.
- Keyfi durum-değer fonksiyonu V.
- Tüm eyaletlere ait iade listesi: İade[s].
2. Tekrar et:
a) Bir bölüm oluşturmak için π politikasını kullanın:
- s0,a0,r1,s1,a1,r2,…,sk−1,ak−1,rk.
b)Bölümdeki tüm s durumları üzerinde döngü kurun. Oluşturulan bölümdeki s durumunun her bir oluşumu için:
- A. Bu s oluşumu için r_i dönütünü alın.
- B. return r_i’yi listeye ekle Returns(s)
- C. Değer fonksiyonunu hesaplayın:
V(s)=1/N∑jReturns[sj]
Monte-Carlo yöntemi, bir politika π’yi doğrudan deneyimlerden değerlendirmeye olanak tanır. Geçiş olasılıklarını belirlememize gerek yoktur ve eylemlerimizin ardından gelen ödülleri gözlemleyebiliriz, ancak bu ödüllerin arkasındaki fonksiyonu veya mantığı bilmemiz gerekmez. Bu nedenle, Monte-Carlo yaklaşımı, altta yatan karar verme probleminin yapısını bilmemize gerek olmadığı için modelden bağımsız (model-free) bir öğrenme algoritmasıdır.
Bu yaklaşım, değer fonksiyonunu tahmin etmek için mümkün olan en basit yöntemi kullanır: Gözlemlenen getirilerin ortalamasını almak. Ancak, bu yaklaşımın çevre ile etkileşime girerek tüm bölümleri oluşturmasını gerektirdiği unutulmamalıdır. Bu durum, Monte-Carlo yöntemini oldukça zaman alıcı hale getirir çünkü değerlendirmek istediğimiz her politika π için uzun sekanslar oluşturmamız gerekir.
Ayrıca, bölümlerin tamamlanmasını gerektirir, yani sistemin sona erdiği bir durumun (örneğin, “oyun bitti” gibi) var olması gerekir. Ancak, duruma bağlı olarak böyle bir son durum olmayabilir ya da bu duruma ulaşmak uzun sürebilir.
Bölüm (episode), başlangıç durumundan sona kadar çevreyle etkileşimlerin dizisidir.
Zamansal fark (TD) öğrenmesinde, temel geçiş olasılıklarını veya ödül mekanizmalarını bilmeden doğrudan çevre ile etkileşime girerek öğreniriz. Monte-Carlo yaklaşımına benzer şekilde, TD öğrenmesi de model bağımsızdır. Ancak, Monte-Carlo yaklaşımından farklı olarak, tam bölümler üretmek yerine çevrim içi öğrenebilir ve her çevre etkileşiminden sonra ajanın davranışını iyileştirebiliriz. Zamansal fark öğrenmesinde öne çıkan yaklaşımlar Q-öğrenme (Q-learning) ve SARSA’dır.
Q-öğrenmenin temel fikri, başlangıçta herhangi bir başlangıç durumu s_0 için rastgele bir eylem-değer fonksiyonu Q(s,a) ile başlamaktır. Daha sonra, çevre ile etkileşim kurarken, mevcut bilgiye dayanarak o durum için eylem-değer fonksiyonunu Q(s,a) maksimize eden bir eylem aaa seçeriz, yani en yüksek ödülü getiren eylemi alırız. Sonrasında, yeni durumu ve elde ettiğimiz gerçek ödülü gözlemleyerek Q-değerlerini yinelemeli olarak aşağıdaki şekilde güncelleriz:
Burada α küçük bir öğrenme oranıdır. Q-öğrenme algoritması başlangıçta Watkins tarafından geliştirilmiştir (C. J. C. H. Watkins, 1989; C. J. Watkins & Dayan, 1992), daha fazla ayrıntı için ayrıca bkz. Sutton & Barto, 2018b, s. 131–132. Q-öğrenme ile SARSA arasındaki temel fark, Q-öğrenmenin “politika dışı” bir algoritma olması, SARSA’nın ise eylemlerin belirli bir politikaya göre seçildiği “politika içi” bir algoritma olmasıdır. Q öğrenmede, belirli bir durum için eylem-değer fonksiyonu Q(s, a)’nın mevcut bilgisini en üst düzeye çıkaran eylemi açgözlülükle seçeriz.
Model Tabanlı Öğrenme
Model tabanlı pekiştirmeli öğrenmenin arkasındaki genel sezgi, çevreyle etkileşimden edindiğimiz deneyimi çevrenin bir modelini oluşturmak için kullanmamız ve ardından bu modeli, eylemlerimizi yönlendirecek en iyi politikayı tasarlamak için dinamik programlama gibi yöntemleri kullanmak için kullanmamızdır. Genel fikir, daha iyi bir model oluşturmak için çevreyle yinelemeli olarak etkileşim kurmaktır. Aşağıdaki şekilde bunu görebilirsiniz:
Bir uzay, belirli bir ilişki veya yapıya sahip matematiksel nesnelerden oluşur.
Model daha sonra durum uzayı S, eylem uzayı A, geçiş olasılıkları P(s′∣s,a) ve ödüller R ile tanımlanır. Bu fonksiyonların önceden tamamen bilindiği durumlardan farklı olarak, artık çevre hakkındaki mevcut bilgimizi yansıtan bazı parametreler θ üzerine bağlıdır. Durum uzayını ve eylem uzayını bildiğimizi varsayarsak, modelimiz Mθ, geçiş olasılıkları ve ödüller için tahminler olan Pθ(s′∣s,a) ve Rθ değerlerinden oluşur.
Tamamen bilinen bir problemde olduğu gibi, Pθ fonksiyonu, mevcut durum sss’den yeni durum s′’ye, belirli bir eylem a aracılığıyla nasıl geçileceğini belirler ve ödül Rθ tarafından belirlenir. Ancak, tamamen bilinen karar verme problemlerinden farklı olarak, bu model parametrelerini deneyim bölümlerinden öğrenmemiz veya belirlememiz gerekir. Bu deneyimler, (s0,a0,r1,s1,…,sk) gibi deneyim çiftleri (tuples) şeklinde toplanır.
Bunu uygulamanın en basit yolu, tüm deneyim çiftlerini (s_t, a_t, r_{t+1}, s_{t+1}) içeren bir arama tablosu (lookup table) oluşturmaktır. Daha sonra, ilgili durum-eylem çifti (s,a) ile karşılaştığımızda bu tabloya başvururuz. Modele daha fazla deneyim ekledikçe, tahminler daha doğru hale gelir ve yaklaşık dinamik programlama veya planlama adımı daha iyi çalışır. Örneğin, temel model daha sonra politika yinelemesi veya değer yinelemesi ile çözülebilir, ancak modelin tamamen bilinmediği, yani yaklaşık dinamik programlama kullanıldığı unutulmamalıdır.
Beklendiği gibi, arama tablosu yaklaşımı, karmaşık veya sürekli ortamlarda pek verimli değildir. Modeli daha verimli öğrenmek için kullanılabilecek yöntemlerden biri Dyna algoritmasıdır (Sutton, 1990). Temel fikir, belirli bir başlangıç durumundan ve karar verme problemine ait ilk modelden yola çıkmaktır. Daha sonra, bir eylem seçilir, elde edilen ödül ve yeni durum gözlemlenir ve bu bilgiler modelin güncellenmesi için kullanılır.
Şu adımlar n kez tekrarlanır:
- Bilinen bir durumdan bilinen bir eylem alınır,
- Ödül ve gözlemlenen yeni durum temelinde model güncellenir,
- Durum-değer veya durum-eylem fonksiyonu iyileştirilir.
Bu süreç süresiz olarak tekrar edilir. Bu yaklaşımın temel mantığı, tüm durum-eylem çiftlerini sonsuz kez ziyaret etmek pratik olmadığında, her yeni deneyimin önceki bilgiyi geliştirmesidir.
Ball ve arkadaşları, “Ready Policy One” (Ball, Parker-Holder, Pacchiano, Choromanski & Roberts, 2020) algoritmalarında Dyna algoritmasının genel fikrini takip ederler, ancak model tabanlı pekiştirmeli öğrenmeye aktif öğrenme açısından yaklaşırlar. Ana fikir, “gerçek dünya” örneklerini toplamanın maliyetli olması, ancak bir dünya modeli kullanarak ajanın davranışını optimize etmenin çok daha “ucuz” olmasıdır. Bu nedenle, dünya modelini kullanarak optimal bir politika bulmak, gerçek ortamla etkileşime geçerek politika öğrenmekten hesaplama açısından çok daha kolaydır.
Dünya modeli, ajanın hareket ettiği ortamın model tabanlı bir tanımıdır. Önemli nokta, çevreden gelen verileri, dünya modelinin tahminleriyle uyuşmadığı ve politikanın iyileştirilmesi açısından önemli olduğu bölgelerde eklemektir.
Bazı durumlarda, çevrenin mükemmel bir modelini oluşturabiliriz ve belirli bir eylem verildiğinde ortamın durumunun nasıl değişeceğini belirleyebiliriz. Ancak bazı ortamlarda, bir ödül almak uzun sürebilir, yani ilk eylemin etkisini değerlendirmek için uzun bir “eylem dizisi” (trajectory) izlememiz gerekebilir. Teorik olarak, nispeten basit bir politika kullanarak bir eylem alabilir ve bir son durum (terminal state) ile karşılaşana kadar devam edebiliriz.
Örneğin, bir oyunda bir hamle yapabilir, yeni durumu gözlemleyebilir ve ardından tüm olası hareketleri deneyerek hangi hareketin en umut verici olduğunu değerlendirebiliriz. Daha sonra geriye dönük olarak bu hareketin iyi olup olmadığına karar verebiliriz. Aşağıdaki şekil, Tic-Tac-Toe (X-Oyunu) için bu süreci örneklendirmektedir. Rakibin hamlelerini bilmediğimiz için, oyunun her aşamasında tüm olası hamleleri oynayarak en umut verici olanı belirleriz.
Bir oyuncunun kazandığı nihai duruma ulaştığımızda, sonucu geriye doğru yayarak en umut verici hamleyi belirleriz. Ancak, küçük ortamlar dışında, takip etmemiz gereken (oyun) arama ağaçlarının sayısı hızla çok büyük hale geldiğinden bu yaklaşım pratik olmaktan çıkar. Örneğin, satranç gibi oyunları veya özellikle Go oyununu (Shotwell, 1994) ele alabiliriz. Go’da, iki oyuncu oyun tahtasının mümkün olduğunca büyük bir kısmını ele geçirmeye çalışır. Bir taş yerleştirdiğimizde, yeni durumu tam olarak biliriz. Kurallar nispeten basittir, ancak oyun tahtasının büyüklüğü göz önüne alındığında, yaklaşık olarak 10¹⁷⁰ konum olduğu tahmin edilmektedir (Tromp & Farnebäck, 2006). Bu tür karmaşık senaryolar “Monte Carlo Ağaç Araması” (Coulom, 2006) yöntemiyle ele alınabilir. Temel olarak, tam bir ağaç araması yapmak yerine yalnızca en umut verici bölümleri inceleriz. Temel algoritma, belirli bir kısıt sağlanana kadar tekrar eden aşağıdaki dört adıma ayrılabilir. Örneğin, belirli bir hesaplama kaynağının tükenmesi veya oyundaki zaman sınırının dolması gibi.
Seçim: Mevcut (oyun) durumundan başlarız ve tam olarak keşfedilmemiş bir düğüme ulaşana kadar arama ağacında ilerleriz. Bu, bu düğümün altındaki tüm olası hamlelerin henüz araştırılmadığı anlamına gelir. Düğümler arasında nasıl hareket ettiğimiz, bu durumun kaç kez ziyaret edildiği veya bu durum için beklenen toplam ödül gibi bazı ölçütlere bağlıdır.
Genişletme: Şimdi ağacı genişletir ve içinde bulunduğumuz düğüme bir veya daha fazla alt düğüm ekleriz. Her yeni düğüm, yeni bir (oyun) durumunu temsil eder.
Simülasyon: Eklenen her bir alt düğüm için çevrenin gelecekteki davranışı simüle edilir. Bir oyun durumunda, ya terminal duruma (kazanma/kaybetme) ulaşana kadar ya da belirli bir kriter karşılanana kadar (örneğin, geçen süre veya maksimum derinlik) oyunun oynanışı simüle edilir. Ağacın bu yeni kısmı şimdi değerlendirilir.
Geri Yayılım: Önceki simülasyon adımının sonucu, seçme adımlarında düğüm seçiminde kullanılan metriklerin güncellenmesi için ağacın yukarısına doğru yayılır.
AlphaGo’nun (Silver ve diğerleri, 2016) Go oyununda insan seviyesini aşan performansa ulaşmadaki başarısı, Monte Carlo Ağaç Araması ve değer ve politika değerlendirmesi için derin sinir ağlarına dayalı pekiştirmeli öğrenme yaklaşımlarının bir kombinasyonuna dayanır. Model tabanlı pekiştirmeli öğrenmenin başarısı, nihayetinde çevreden belirlenen modelin doğruluğuna bağlıdır. Ajanın politikası modelden türetildiğinden, doğruluk doğrudan politikanın kalitesini veya etkinliğini ve dolayısıyla ajanın eylemlerini etkiler.
Janner ve diğerleri, bu sorunu ele almak için “Model Tabanlı Politika Optimizasyonu” (MBPO) adlı bir çerçeve önermektedir (Janner, Fu, Zhang & Levine, 2019). Yaklaşımlarının ardındaki temel fikir, belirli bir durumdan uzun vadeli tahminler yapmanın zor olmasıdır, çünkü modelin içerdiği küçük hatalar zamanla birikerek büyür. Bu da modelin, geleceğe ne kadar uzağa bakılırsa o kadar güvenilmez hale gelmesi anlamına gelir.
Trajektoriler (trajectory), mevcut durumdan itibaren yapılan eylemlerin sırasıdır. Ancak, optimal bir politika türetmek için geleceğe uzun vadeli bakmamız gerekir. Yazarlar, bu sorunu, ajanın çevre ile etkileşime girdiği daha önce görülmüş rastgele bir durumdan başlayarak ve ajanın eylemlerine dayalı olarak gelecekteki durumların kısa trajektorilerini üretmek için bir model topluluğu kullanarak ele alır. Temel olarak, modelin başlangıç durumundan uzak geleceğe bakarak uzun bir trajektori oluşturmasını sağlamak yerine, MBPO, birçok rastgele durumdan kısa trajektorileri olasılıksal olarak kullanarak belirli bir görev için optimal politikayı küçük “dilimlerden” oluşturur.
Model tabanlı pekiştirmeli öğrenme yaklaşımlarını araştırırken karşılaşılan zorluklardan biri, yeni önerileri mevcut algoritmalar ve yaklaşımlarla karşılaştırmaktır. Yeni araştırmaların karşılaştırılabilir olmasını sağlamak için Wang ve diğerleri, model tabanlı algoritmalara özellikle uygun 18 ortam sağlayarak bir kıyaslama (T. Wang ve diğerleri, 2019) önermektedir.
Keşif ve Sömürü Karşılaştırması
Pekiştirmeli öğrenme problemlerinin temelinde, beklenen (uzun vadeli) ödülü en üst düzeye çıkarmak için eylemleri gerçekleştirmek yatar. Uygun eylemleri seçmek özellikle çevrenin bir modeline sahip olmadığımız durumlarda zordur, yani geçiş olasılıkları bilinmiyorsa. Bu durumda, çevre hakkında bilgi edinmenin tek yolu, deneyim çiftleri (s, a, r, s′) ile özetlenen deneyim kazanmaktır; burada bir durumu gözlemleriz, bir eylem gerçekleştiririz, bir ödül alırız ve yeni bir durumu gözlemleriz. Ancak, asıl soru şudur: Hangi eylemi seçmeliyiz?
Belirli bir durum ve eylem kombinasyonu için eylem-değer fonksiyonu Q(s, a)’yı biliyorsak, hangi eylemin en iyi olduğunu belirleyebiliriz. Örneğin, Q(s, a)’yı maksimize eden eylemi seçebiliriz. Ancak, eğer böyle bir kombinasyonla daha önce hiç karşılaşmadıysak, Q-fonksiyonunun değerini tahmin etmek oldukça zordur.
Bildiğimiz ve daha önce karşılaştığımız kombinasyonlarla devam etmek cazip gelebilir ancak o zaman, karşılaşmadığımız bazı diğer eylemlerin çok daha iyi olup olmadığını bilemeyiz. Öte yandan, bilinmeyen eylemler beklenen genel performansımız üzerinde felaket niteliğinde bir etkiye sahip olabilir. Bu durum, “keşif ve sömürü ikilemi” (exploration vs. exploitation dilemma) olarak bilinir: Bildiğimiz ancak belki de vasat sonuçlara sahip olan eylemlerle mi devam etmeliyiz, yoksa yeni bir şey denemeyi göze mi almalıyız?
Bu, sezgisel olarak ünlü Feynman restoran problemine (Gottlieb, 2017) benzer. Bu problem, bir restoranda n tane menü öğesi varken yemek deneyimlerinin toplam derecelendirmesini en iyi hale getirmeyi amaçlar. Restoran problemi analitik olarak çözülebilirken, ilgili pekiştirmeli öğrenme problemi daha karmaşıktır: Bir restoranda olduğumuzu ve menüde kaç öğe bulunduğunu ya da bir “bölüm” boyunca orada kaç kez yemek yiyeceğimizi bilmediğimizi varsayalım.
En iyi yemeği nasıl belirleyebiliriz? Bir yandan, birkaçını deneyip favori yemeğimizle devam edebiliriz, ancak bu birkaç gece sonra oldukça sıkıcı olabilir ve belki de çok daha fazla beğeneceğimiz başka bir yemek vardır.
Daha resmi olarak, çevre hakkında mevcut bilgilerimizle her zaman en yüksek ödülü veren eylemi seçersek, bu yaklaşımı “açgözlü” (greedy) olarak adlandırırız (Sutton & Barto, 2018b, s. 26). Ancak bu şekilde yeni eylemleri keşfetmeyiz, yalnızca edindiğimiz bilgiyi sömürürüz. Keşfi dahil etmenin en basit yolu, küçük bir olasılık ϵ tanımlamaktır. Bu olasılık, mevcut en iyi bilinen eylemi mi (açgözlü) yoksa sonucu bilinmeyen yeni bir eylemi mi seçeceğimizi belirlemek için kullanılır. Bu yaklaşım ϵ-açgözlü (ϵ-greedy) olarak adlandırılır. En basit yöntem, yeni eylemi mevcut eylem uzayından a ∈ A rastgele seçmektir. ϵ-açgözlü politikayı şu şekilde özetleyebiliriz:
at* en yüksek anlık ödüle veya (toplam) getiriye yol açan mevcut en iyi eylemdir. Çevreyi keşfetmeye başladığımızda başlangıçta daha büyük bir ϵ değerine izin vermeli ve daha sonra çevre hakkında daha fazla bilgi edindikçe değerini yavaşça azaltmalıyız.
Bir diğer yaygın yaklaşım ise Boltzmann denklemi ile tanımlanan bir olasılığa göre eylemi seçmektir:
Burada T, eğitim süreci sırasında ayarlanması gereken serbest bir parametredir. Fiziksel sistemlerde sıcaklıkla ilişkili olan T değeri burada yeni eylemlerin keşfedildiği hızı kontrol eder. ϵ-açgözlü stratejiyle karşılaştırıldığında bu yaklaşım, durum eylem fonksiyonu Q(s, a)’nın mevcut bilgisini, yani bir eylemin ne kadar “iyi” olduğunu hesaba katar. Yüksek “sıcaklıkların” sınırında, yani T → ∞, Q(s, a)’nın gerçek değeri küçük bir rol oynar ve bir eylem seçme olasılığı P(a) ∝ 1 / |A| ile düzgün bir dağılıma yaklaşır. Sıcaklık düşürüldükçe yaklaşım daha açgözlü hale gelir ve en yüksek Q(s, a) değerlerine sahip olanları tercih eder. Cesa-Bianchi ve diğerleri (Cesa-Bianchi, Gentile, Lugosi ve Neu, 2017) bu yaklaşımın teorik arka planını daha derinlemesine tartışmaktadır.
|A|, A’daki öğe sayısını belirtir.
Thompson Örneklemesi (Thompson, 1933, 1935) başlangıçta haydut problemlerinde ortaya çıkmıştır, ancak sonlu ufuklu Markov karar problemlerinde de kullanılabilir, örneğin bkz. (Osband, Russo ve Van Roy, 2013). Bu yaklaşımda, eylemler Bayesçi bir yöntemle ardıl (posterior) dağılıma göre seçilir. Sezgisel olarak bunu, bir eylemin “başarısını” tanımlayan bir olasılık dağılımı oluşturmak ve bu dağılımı hangi eylemin seçileceğini belirlemek için kullanmak olarak anlayabiliriz.
Not: Burada bahsedilen matematiksel bir problemdir. Kumar bir dolandırıcılıktır, asla kazanılamaz ve aşırı bağımlılık yapıcıdır. Oynamayın ve özenmeyin.
Birden fazla slot makinesinde oynayarak elde edilen ödülü maksimize etmeye çalıştığımız çok kollu haydut probleminde, başlangıçta tüm makinelerin eşit olduğunu varsayarız ve ödülleri elde etmek için uniform bir dağılım kabul ederiz. Oynamaya başladıkça, hangi makinelerin hangi ödülleri verdiğine dair gözlemlerimize dayanarak olasılık dağılımını güncelleyebiliriz. Güncellenmiş bu olasılık dağılımları, sonraki hamlelerimizi yönlendirmek için kullanılabilir. Yeterince uzun oynadıktan sonra, her bir kollu haydut, başarı oranını ve ondan elde edilebilecek ödülü tanımlayan bir olasılık dağılımıyla ilişkilendirilecektir. Konuyla ilgili daha derinlemesine bir tartışma için bkz. (Russo, Roy, Kazerouni ve Osband, 2017).
Osband ve arkadaşları (Osband, Blundell, Pritzel ve Roy, 2016), Thompson örneklemesi fikri üzerine çalışmalar yapmıştır. Thompson örneklemesinin en büyük zorluklarından biri, ardıl dağılımın yani başarı oranının hesaplanması gerekliliğidir. Çok kollu haydut gibi küçük problemler için bu mümkünken, karmaşık senaryolarda hesaplanamaz hale gelir. Bunun yerine, yazarlar derin Q-ağları (Deep Q-Networks) kullanmış, ancak tek bir Q(s, a) tahmini hesaplamak yerine, örnekleme veya Q-değerlerinin bir dağılımını oluşturmak için önyükleme (bootstrapping) tekniğini kullanmışlardır. Böylece, bu k farklı Q_k = 1, …, N değerleri, Q-değerinin belirsizliği hakkında bir tahmin sağlar. Öğrenme sürecinde, rastgele bir Q_k tahmini seçilir ve eylem şu şekilde belirlenir:
at = max_a Q_k(s_t, a).
Stadie ve diğerleri (2015), ϵ-açgözlü, Boltzmann ve Thompson örneklemesinin etkinliğini araştırıyor ve keşif şemasını daha da iyileştirmek için bir keşif “bonusu” öneriyor.
Yukarıdaki tartışma, eylemimizin kalitesini değerlendirmemizi sağlayan bir ödülü çevreden aldığımızı varsayar. Ancak, birçok durumda ödüller seyrektir. Örneğin, bir video oyunu hayal edin; burada bir ajan, yeni bir seviyeye geçmeden veya daha fazla keşif yapmadan önce gizli bir anahtar ya da hazine bulmak için ortamı keşfetmelidir. Böyle bir senaryoda, ajan neredeyse tüm eylemleri için hiçbir ödül almaz, ta ki anahtarı bulana kadar. Bu tür durumları modellemek oldukça zordur çünkü ajan, çevrede rastgele dolaşarak gerçek bir deneyim kazanamaz ve keşfini nasıl yönlendireceğini veya çevreyi anlama ve öğrenme sürecini nasıl ilerleteceğini belirleyemez.
Schmidhuber (Schmidhuber, 1991) ve daha yakın zamanda Pathak ve diğerleri (Pathak, Agrawal, Efros & Darrell, 2017) tarafından önerilen “Merak” (Curiosity) yaklaşımı, bu durumu içsel bir ödül tanıtarak ele almayı amaçlar. Bu nedenle, bir ajanın toplam ödülü içsel ödül r_i ve dışsal ödül r_e olmak üzere iki bileşenden oluşur ve dışsal ödül genellikle sıfırdır. İçsel ödülün temel fikri, mevcut durum s ve verilen bir eylem aaa ile bir sonraki durum s′ tahmin edilirken ajanın bu tahmini yapmadaki zorluğuna dayanır. Tahmin edilen ve gerçek bir sonraki durum arasındaki fark ne kadar büyükse, ajan o kadar çok şey öğrenebilir. Pathak ve diğerleri (2017) çalışmasında kritik bir içgörü, yalnızca eylemlerle etkilenebilen durum değişikliklerine odaklanmak ve ajanın kontrolü dışında kalan durum değişikliklerini göz ardı etmektir.
Yazarlar, bu durumu rüzgarın hareket ettirdiği yapraklara benzetir — ajan ortamı keşfederken, tüm yapraklar rüzgar nedeniyle pozisyonlarını ve yönlerini değiştirir. Bu nedenle, yeni durum tahmin edilen durumdan oldukça farklı olabilir çünkü çevredeki tüm yapraklar farklı konumlara gelmiştir; ancak bu, ajanın eylemleriyle veya çevrede nasıl hareket etmesi gerektiğiyle genellikle çok az ilişkilidir. Temelde, karmaşık ve gerçekçi ortamların bazı kısımlarının ajan tarafından keşfedilememesi ve dışsal etkenler nedeniyle rastgele değişmesi bu durumu yaratır. İçsel ödülü bu tür değişikliklere dayandırmak, ajanın gerçekten öğrenebileceği şeylerden dikkatini dağıtır.
Yukarıdaki yaklaşımlar, model tabanlı olmayan pekiştirmeli öğrenmeye (model-free RL) odaklanmaktadır. Eğer model tabanlı bir yaklaşım seçersek, aşağıdaki algoritmalar keşif-kazanç (exploration-exploitation) ikilemini ele alır: “Açıkça Keşfet veya Kazan” (Explicit Explore or Exploit, E³) algoritması (Kearns & Singh, 2002), çevreyi öğrenirken keşif ve kazanç aşamaları arasında açık bir ayrım yaparak bu soruna yaklaşır. Spesifik olarak, algoritma ortamı bilinen ve bilinmeyen Markov karar süreçleri olarak ayırır ve durumları bilinen ve bilinmeyen olarak sınıflandırır. Bilinen durumlar, yeterince sık ziyaret edilmiş ve geçiş olasılıkları ile beklenen ödüllerin “yeterince doğru” tahmin edilebildiği durumlardır. Bilinmeyen bir durum belirli bir sayıda ziyaret edildikten sonra, bilinen durumlar kümesine taşınır. Bu şekilde, bilinen geçiş olasılıkları ve ödüllerle bir Markov karar süreci oluşturabilir ve optimal bir politika geliştirebiliriz. Algoritmanın temel yapısı aşağıdaki gibidir:
- Başlangıçta bilinen bir durum bulunmaz. Herhangi bir keyfi durum s0'dan başlayın.
- Yeni bir duruma ulaşmak için bir eylemde bulunun.
- Tekrar et:
a) Eğer durum bilinen bir durum değilse, bu durumda şimdiye kadar en az gerçekleştirilen eylemi gerçekleştirin.
b) Durum bilinen bir durumsa, beklenen getiriyi maksimize eden en uygun politikayı hesaplayın. Bu getiri en uygun olana yakınsa, politikayı T adım boyunca yürütün. Aksi takdirde, bizi mümkün olduğunca çabuk bilinmeyen bir duruma geri götüren bir politika seçin.
Bu nedenle, genel fikir, bilinen karar probleminden sömürü aşamasında en uygun ödülü elde etmektir. Aksi takdirde, bilinmeyen durumlara geri dönüp ve Markov karar probleminin modelini öğrenmeye ve iyileştirmeye devam edin.
E³ algoritması gibi, “R-max” algoritması (Brafman & Tennenholtz, 2002) da ajan çevreyi keşfederken Markov karar probleminin bir modelini oluşturur. Bu yaklaşımın arkasındaki sezgi şu şekildedir: Yine MDP’yi bilinen ve bilinmeyen durumlara ayırırız. Bilinmeyen bir durum-eylem çiftiyle karşılaşırsak, sabit bir ödül R_max belirleriz. Bir durum-eylem kombinasyonu yeterince sık ziyaret edildiyse, “bilinir” hale gelir ve gerçek ödül kullanılır. Esasen, ajan çevreyi keşfederken bilinen ödüller ve geçiş olasılıkları olan bir MDP oluşturur ve gerçek değerler bilinene kadar Rmax’ı bir vekil olarak kullanır.
Daha sonra bilinen MDP’den optimal politika hesaplanabilir:
Dyna algoritması (Sutton, 1990) ayrıca ajanın ve çevrenin etkileşiminden gelen deneyimleri kullanarak çevrenin bir modelini oluşturur ve modeli günceller. Ancak, algoritma başlı başına bir eylemin nasıl seçileceğini belirtmez. Sutton’ın önerdiği gibi, Q-öğrenmeyi kullanabilir ve ϵ- açgözlülükle mevcut Q(s, a) değerini en üst düzeye çıkaran eylemi seçebiliriz. Ancak, özellikle model oluşturmanın erken aşamalarında, çevre ve dolayısıyla model parametreleri hakkında çok az bilgiye sahibiz.
“Öncelikli süpürme” (prioritized sweeping) (Moore & Atkeson, 1993b) ve “genelleştirilmiş öncelikli süpürme” (generalized prioritized sweeping) (Andre, Friedman, & Parr, 1998), hangi durum-eylem kombinasyonunun seçilmesi gerektiği sorusunu ele alır. Bunu rastgele seçebiliriz ancak bu verimsiz olur. Bunun yerine, seçim | r + γmaxaQ(s′, a) − Q(s, a) farkına (yani zamansal fark hatasının mutlak değerine) dayanır. Bu, bir eşiği aşarsa, bu durum-eylem çiftinden diğerlerinden daha fazla şey öğrenebiliriz ve çevreyle etkileşimden en fazla şeyi öğrenmek için bu durumlardan örneklemeyi önceliklendirmeliyiz.
Özet
Pekiştirmeli öğrenme algoritmaları genel olarak modelden bağımsız (model-free) veya model tabanlı (model-based) olarak kategorize edilebilir. Modelden bağımsız yaklaşımlarda, doğrudan gerçek ortamdan elde edilen gözlemler ve bu ortamla etkileşimlere dayanarak eylem seçimlerini optimize etmeye çalışırız. Öte yandan model tabanlı yaklaşımlar, önce çevre ile etkileşimden bir model oluşturmaya ve ardından eylem seçimlerini yönlendiren bir politikayı optimize etmeye odaklanır. Bir model oluşturmanın nedenlerinden biri, çevreden elde edilen deneyimlerin zor veya hesaplama açısından maliyetli olması, buna karşın bir modele dayalı olarak politika optimize etmenin çok daha kolay olmasıdır. Her iki durumda da pekiştirmeli öğrenme ajanı, bilinen eylemleri kullanarak (uzun vadeli) ödülü optimize etmek — ki bu pekiştirmeli öğrenmenin temel amacıdır — veya çevreyi keşfederek potansiyel olarak daha faydalı eylem dizileri bulmak arasında bir seçim yapmak zorundadır. Bu durum, sömürü-keşif ikilemi (exploitation-exploration dilemma) olarak bilinir ve bu duruma yaklaşmak için çeşitli algoritmalar geliştirilmiştir.
Daha fazla pekiştirmeli öğrenme ile ilgili kaynak için:
[https://youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u&si=bUspO7kviIFMoC7Y]