Sitemap

Mutlak Sıfır: Sıfır Veriyle Güçlendirilmiş Öz-Oyun Mantığı

22 min readMay 12, 2025

Çok ses getiren “Absolute Zero: Reinforced Self-play Reasoning with Zero Data” makalesini Türkçe inceliyoruz.

Özet

LLM’ler, tıpkı bir öğrencinin öğretmenin verdiği soruları çözerek öğrenmesi gibi çalışıyor. “Doğrulanabilir Ödüllerle Pekiştirmeli Öğrenme (RLVR)” denen bir yöntemle, öğrenciye sadece doğru cevabı verip “Aferin!” ya da “Yanlış!” diyerek (yani ödül vererek) akıl yürütmeyi öğretiyorlar. Bu, öğrencinin çözüm yolunu adım adım takip etmeye göre daha pratik, ancak bir sorun var: Öğrenciye sürekli yeni ve kaliteli sorular hazırlamak gerekiyor. Bu soruları hep insanlar hazırlıyor ve bu hem çok zahmetli hem de bir yerden sonra tıkanabilir. Dahi bir öğrencinin öğretmenden konuyu daha iyi öğrendiğini hayal edin, öğretmen bu senaryoda öğrenci için soru bulmakta zorlanmaya başlar.

İşte bu makale, “Absolute Zero” (Mutlak Sıfır) adında yepyeni bir fikir ortaya atıyor. Bu fikirdeki yapay zeka, kendi kendine yeten bir dahi öğrenci gibi:

  1. Kendi Sorularını Kendi Yazar: Başkalarının soru hazırlamasını beklemez. Kendi öğrenmesini en iyi sağlayacak problemleri kendisi icat eder.
  2. Kendi Çözer: İcat ettiği bu problemleri çözmeye çalışır.
  3. Kendi Kendini Değerlendirir: Çözümünün doğru olup olmadığını kontrol etmek için güvenilir bir hakem kullanır. Bu makalede bu hakem, bir kod çalıştırıcı. Yani, yazdığı kodun doğru çalışıp çalışmadığına bakarak kendini denetler.
  4. Dışarıdan Yardım Almaz: Tüm bu süreci hiçbir insan yapımı soru kümesine veya cevaba bakmadan, tamamen kendi kendine yapar. Tıpkı hiç okula gitmeden, sadece deneyerek ve kendi hatalarından öğrenerek ustalaşan biri gibi.

Bu fikri hayata geçiren sisteme “Absolute Zero Reasoner (AZR)” (Mutlak Sıfır Muhakeme) adını vermişler. AZR, özellikle kodlama ve matematik problemleri üzerine yoğunlaşmış bir sistem. Kendi kendine kodlama görevleri (çıkarım, tümdengelim, tümevarım gibi farklı mantık yürütme türlerini içeren) üretiyor, çözüyor ve kod çalıştırıcı sayesinde “doğru” ya da “yanlış” geri bildirimi alarak kendini geliştiriyor.

Model başarılı olmuş mu peki?

İnanılmaz ama gerçek! AZR, sıfırdan başlamasına ve hiç dışarıdan (insan yapımı) veri kullanmamasına rağmen, matematik ve kodlama testlerinde en iyi performansı (SOTA) göstermiş. Hatta binlerce insan tarafından özenle hazırlanmış veriyle eğitilmiş diğer yapay zeka modellerini bile geride bırakmış! Bu, kendi kendine daha zor sorular yazarak öğrenen bir öğrencinin, en iyi okullara gidip özel ders alan öğrencileri geçmesi gibi bir durum.

Diğer İlginç Bulgular:

  • Kodlama Bilgisi İşe Yarıyor: Kodlama üzerine eğitilmiş bir modelle başlayınca, AZR daha da başarılı oluyor. Yani kodlama, genel akıl yürütmeyi güçlendiriyor gibi.
  • Öğrendiklerini Başka Alanlara Taşıyor: Sadece kodlama öğrenmesine rağmen matematik başarısı da fırlıyor. Bu, öğrendiklerini genelleme yeteneğinin çok güçlü olduğunu gösteriyor.
  • Büyük Model Daha Çok Öğreniyor: Model ne kadar büyükse, kendi kendine öğrendiği şeyler o kadar fazla oluyor.
  • Kendi Kendine Not Alıyor: Model, problemleri çözerken sanki kenara not alır gibi yorumlar yazmaya veya deneme-yanılma yapmaya başlıyor. Bu davranışları ona kimse öğretmemiş!
  • Dikkat! Tehlike Çanları: Bazen modelin biraz “ürkütücü” düşünce zincirleri ürettiği de görülmüş. Yani bu kendi kendine öğrenme süreci denetimsiz bırakılırsa güvenlik riskleri olabilir.

Yani bu çalışma, yapay zekanın insanlara bağımlı olmadan, kendi kendine problemler yaratarak ve çözerek, adeta kendi deneyimleriyle öğrenebileceği yeni bir dönemin kapısını aralıyor. Veri kıtlığı sorununu çözme potansiyeli taşıyan ve belki de insan zekasını aşabilecek yapay zekalara giden yolda önemli bir adım olabilir.

Öz

Doğrulanabilir ödüllerle pekiştirmeli öğrenme (RLVR), büyük dil modellerinin akıl yürütme yeteneklerini geliştirmede etkili olmuştur. Son RLVR çalışmaları, sıfır veri (zero-setting) altında çalışarak akıl yürütme sürecinin etiketlenmesi gibi gözetimli veriye ihtiyaç duymaz; ancak hâlâ insan eliyle hazırlanmış soru-cevap koleksiyonlarına bağımlıdır. Bu tür yüksek kaliteli verilerin azlığı, uzun vadede insan denetimine dayalı sistemlerin ölçeklenebilirliğini sorgulatmaktadır. Ayrıca, gelecekte yapay zekâ insan zekasını aşarsa, insanlar tarafından verilen görevlerin öğrenmeye katkısı sınırlı olabilir.

Bu sorunları çözmek için yazarlar “Absolute Zero” adlı yeni bir RLVR paradigması önermektedir. Bu paradigmada, tek bir model kendi öğrenme sürecini maksimize edecek görevleri kendisi üretir ve bu görevleri çözerek tamamen dış veri kullanmadan akıl yürütme yeteneğini geliştirir. Bu kapsamda geliştirilen “Absolute Zero Reasoner (AZR)”, kendi eğitim müfredatını ve akıl yürütmesini kendi kendine geliştirir. Kod yürütücüsü kullanarak hem oluşturduğu görevleri hem de yanıtları doğrular; bu da doğrulanabilir ödül mekanizması sağlar.

AZR, dış veri kullanılmadan eğitilmesine rağmen, kodlama ve matematiksel akıl yürütme görevlerinde en iyi (SOTA) performansa ulaşmış, insan üretimi verilerle eğitilmiş diğer modellere üstünlük sağlamıştır. Ayrıca, AZR farklı model boyutlarında ve model türlerinde etkili biçimde çalışabilmektedir.

Kod: [https://github.com/LeapLabTHU/Absolute-Zero-Reasoner]

Proje Sayfası: [https://andrewzh112.github.io/absolute-zero-reasoner/]

Modeller: [https://huggingface.co/collections/andrewzh/absolute-zero-reasoner-68139b2bca82afb00bc69e5b]

Loglar: [https://wandb.ai/andrewzhao112/AbsoluteZeroReasoner?nw=nwuserandrewzhao112]

Şekil 1. Absolute Zero Reasoner (AZR), SIFIR VERİ ile en son teknoloji (state-of-the-art) performansa ulaşmaktadır. Hiçbir altın standart etiket veya insan tarafından tanımlanmış sorguya dayanmadan, önerdiğimiz kendi kendine oyun oynama (self-play) yaklaşımıyla eğitilen Absolute Zero Reasoner, hem matematik hem de kodlama alanlarında genel akıl yürütme yeteneklerinde etkileyici iyileşmeler göstermektedir; üstelik tamamen dağılım dışı (out-of-distribution) olarak çalışmasına rağmen. Dikkat çekici bir şekilde, AZR her iki alanda da on binlerce uzman etiketli örnekle eğitilmiş modelleri, ortalama birleşik puanda geride bırakmaktadır.
Şekil 2. Absolute Zero Paradigması. Denetimli öğrenme, davranış kopyalama için insan tarafından hazırlanmış akıl yürütme izlerine dayanır. Doğrulanmış ödüllerden öğrenilen pekiştirmeli öğrenme, ajanların kendi kendine akıl yürütmeyi öğrenmesini sağlar, ancak hâlâ uzmanlarca tanımlanmış öğrenme dağılımına ve ilgili QA (soru-cevap) çiftlerinden oluşan seçilmiş bir kümeye bağlıdır; bu da alan bilgisi ve manuel çaba gerektirir. Buna karşılık, insan tarafından hazırlanmış hiçbir veri olmadan akıl yürütme modellerini eğitmek için yeni bir paradigma olan Absolute Zero’yu tanıtıyoruz. Bu paradigmada, ajanın öğrenilebilirliğe göre optimize edilmiş görevleri özerk bir şekilde önermesi ve bu görevleri nasıl çözeceğini birleşik bir model kullanarak öğrenmesi gerektiğini öngörüyoruz. Ajan, doğrulanabilir geri bildirim sağlayan bir çevreyle etkileşim kurarak öğrenir ve bu sayede tamamen insan müdahalesi olmaksızın güvenilir ve sürekli öz-iyileştirme gerçekleştirebilir.

Giriş

Büyük Dil Modelleri (LLM’ler), yakın zamanda Doğrulanabilir Ödüllerle Pekiştirmeli Öğrenme (RLVR) yöntemi kullanılarak akıl yürütme yeteneklerinde dikkat çekici ilerlemeler kaydetmiştir (Lambert ve diğerleri, 2024). Ara adım taklitlerini açıkça kullanan yöntemlerin aksine, RLVR yalnızca sonuç temelli geri bildirimi kullanır ve geniş görev veri kümeleri üzerinde büyük ölçekli pekiştirmeli öğrenmeyi mümkün kılar (DeepSeek-AI ve diğerleri, 2025; Team ve diğerleri, 2025; Jaech ve diğerleri, 2024; OpenAI, 2025b;a). Özellikle dikkat çeken bir varyant ise, herhangi bir ön-öğretim (distillation) verisi olmadan, ne insan üretimi ne de yapay zeka üretimi akıl yürütme izleri kullanılmaksızın, görev ödülleriyle doğrudan temel model üzerinde RLVR uygulayan “sıfır” RLVR paradigmasıdır (DeepSeek-AI ve diğerleri, 2025).

Ancak, bu yöntemler hâlâ uzmanlar tarafından titizlikle seçilmiş akıl yürütme soru–cevap çiftlerine büyük ölçüde bağımlıdır; bu durum, uzun vadeli ölçeklenebilirlikleri hakkında ciddi endişelere yol açmaktadır (Villalobos ve diğerleri, 2024). Akıl yürütme modelleri gelişmeye devam ettikçe, büyük ölçekli ve yüksek kaliteli veri kümeleri oluşturma çabası kısa süre içinde sürdürülemez hale gelebilir (Yue ve diğerleri, 2025). Benzer bir ölçeklenebilirlik darboğazı, LLM ön eğitimi alanında da tespit edilmiştir (Sutskever ve diğerleri, 2024). Ayrıca, yapay zeka sistemleri gelişip potansiyel olarak insan zekasını aştıkça, yalnızca insan tarafından tasarlanmış görevlere bağımlı olmak, bu sistemlerin kendi kendine öğrenme ve gelişme kapasitesine kısıtlamalar getirme riski taşımaktadır (Hughes ve diğerleri, 2024).

Bu durum, insan tasarımı görevlerin ötesindeki olasılıkları araştırmaya başlayan ve yapay zekaların insan zekasını aşabileceği bir geleceğe hazırlık yapan yeni bir paradigma ihtiyacını ortaya koymaktadır. Bu doğrultuda, biz “Mutlak Sıfır (Absolute Zero)” adını verdiğimiz yeni bir akıl yürütme modeli paradigmasını öneriyoruz. Bu paradigmayla model, öğrenilebilirliği maksimize eden görevleri tanımlamayı ve onları etkili şekilde çözmeyi aynı anda öğrenerek, dış veriye ihtiyaç duymadan kendi kendine gelişim sağlar. Önceki kendi kendine oyun (self-play) yöntemlerinin aksine, ki bunlar dar alanlarla, sabit işlevlerle veya kolayca istismar edilebilecek ödül modelleriyle sınırlıdır (Silver ve diğerleri, 2017; Chen ve diğerleri, 2025; 2024), Absolute Zero paradigması açık uçlu ortamlarda çalışacak şekilde tasarlanmıştır ve gerçek bir çevreye dayalı kalmaktadır.

Bu yöntem, doğrulanabilir ödül kaynağı olarak çevreden gelen geri bildirime dayanır. Bu, insanların dünyayla etkileşim yoluyla nasıl öğrendiğini ve akıl yürüttüğünü yansıtır ve sinirsel ödül modellerinin istismarı gibi sorunların önlenmesine yardımcı olur (Hughes ve diğerleri, 2024). AlphaZero’nun (Silver ve diğerleri, 2017) kendi kendine oyunla gelişmesine benzer şekilde, önerdiğimiz paradigma da insan denetimine gerek duymaz ve tamamen kendi kendine etkileşimle öğrenir. Absolute Zero paradigmasının, büyük dil modellerinin kendi kendilerine insanüstü akıl yürütme yeteneklerine ulaşabilmelerini sağlama yönünde umut verici bir adım olduğuna inanıyoruz.

Bu yeni akıl yürütme paradigması üzerine inşa edilen Absolute Zero Reasoner (AZR) adlı sistemi tanıtıyoruz. AZR, kodlama görevleri önerir ve çözer. Kod yürütücüsünü açık uçlu fakat temellendirilmiş bir ortam olarak ele alıyoruz; bu ortam, hem görev bütünlüğünü doğrulamak hem de kararlı eğitim için doğrulanabilir geri bildirim sağlamak açısından yeterlidir. AZR’ye üç tür kodlama görevi oluşturma yetkisi veriyoruz: bir programdaki belirli bir öğeyi çıkarsama ve akıl yürütme, girdi-çıktı üçlüsü. Bu görevler, üç tamamlayıcı akıl yürütme türüne karşılık gelir: Tümevarım, tümdengelim ve abdüksiyon.

Tüm sistemi, önerilen çok görevli yapıya uygun şekilde tasarlanmış yeni bir pekiştirmeli öğrenme avantaj kestirici ile uçtan uca eğitiyoruz. Herhangi bir dağılım içi veri kullanılmadan eğitilmesine rağmen, AZR matematik ve kodlama alanındaki çeşitli akıl yürütme görevlerinde dikkat çekici yetenekler sergilemektedir. Matematikte, AZR, alanına özel denetimle ince ayar yapılmış sıfır akıl yürütme modelleriyle karşılaştırılabilir bir performansa ulaşmıştır. Kodlama görevlerinde ise, RLVR ile kod verileriyle özel olarak eğitilmiş modelleri aşarak yeni bir performans rekoru kırmıştır. Ayrıca AZR, “sıfır” ayarlarında, alan içi veriyle eğitilmiş tüm önceki modelleri ortalama 1,8 puan farkla geride bırakmıştır.

Bu çarpıcı sonuçlar, insan tarafından seçilmiş, alana özel verilere ihtiyaç duyulmadan genel akıl yürütme becerilerinin ortaya çıkabileceğini göstermekte ve Absolute Zero’yu umut verici bir araştırma yönü olarak, AZR’yi ise bu yolda önemli bir dönüm noktası olarak konumlandırmaktadır.

AZR’nin sıfır insan verisiyle elde ettiği bu dikkat çekici sonuçların yanı sıra aşağıdaki ilginç bulgulara da ulaştık:

  • Kod ön kabulleri akıl yürütmeyi güçlendiriyor. Temel Qwen-Coder-7b modeli, başlangıçta matematik performansında Qwen-7b’den 3,6 puan gerideydi. Ancak AZR eğitimi sonrası, kodlayıcı varyantı temeli 0,7 puan geride bıraktı. Bu, güçlü kodlama yeteneklerinin AZR eğitimi sonrası genel akıl yürütme gelişimini artırabileceğini düşündürüyor.
  • Alanlar arası aktarım AZR için daha belirgin. RLVR sonrası uzman kod modelleri, matematik doğruluğunu ortalama yalnızca 0,65 puan artırırken; kendi önerdiği kodlama görevleriyle eğitilen AZR-Base-7B ve AZR-Coder-7B sırasıyla 10,9 ve 15,2 puan artış göstermiştir. Bu, çok daha güçlü genelleştirilmiş akıl yürütme yeteneklerinin kazanıldığını gösterir.
  • Büyük temeller daha büyük kazançlar getiriyor. Performans iyileşmeleri model boyutuyla ölçeklenir: 3B, 7B ve 14B kodlayıcı modeller sırasıyla +5,7, +10,2 ve +13,2 puan kazanmıştır. Bu da AZR için ölçeklemenin faydalı olduğunu gösterir.
  • Ara planlar olarak yorumlar kendiliğinden ortaya çıkıyor. Kod tümevarım görevlerini çözerken AZR, adım adım planları yorumlar ve kod olarak birbirine geçirerek üretme eğilimi gösterir (Ek C.3). Bu, ReAct isteme çerçevesine (Yao ve diğerleri, 2023) benzer. Benzer davranışlar, DeepSeek Prover v2 (671B) (Ren ve diğerleri, 2025) gibi çok daha büyük formal matematik modellerinde de gözlemlenmiştir. Bu nedenle, modelin uzun biçimli yanıtlar üretirken ara not defterleri kullanmasına izin vermenin diğer alanlarda da faydalı olabileceğine inanıyoruz.
  • Bilişsel Davranışlar ve Token uzunluğu akıl yürütme türüne göre değişiyor. Adım adım akıl yürütme, sıralama ve deneme-yanılma gibi bilişsel davranışlar AZR eğitimi sırasında kendiliğinden ortaya çıkmıştır. Ancak bu davranışlar, görev türlerine göre özellikle belirgindir. Ayrıca, AZR eğitimi boyunca token sayısı artmaktadır; ancak bu artışın büyüklüğü görev türlerine göre farklılık gösterir: Abdüksiyon yöntemi en fazla artış gösterir çünkü model çıktı eşleşene kadar deneme-yanılma yapar, oysa tümdengelim ve tümevarım daha ılımlı artışlar gösterir.
  • Güvenlik alarmları çalıyor. Llama3.1–8b ile çalışan AZR’nin zaman zaman “vah vah anı” diye adlandırdığımız endişe verici düşünce zincirleri ürettiğini gözlemledik (Şekil 32), bu da güvenlik odaklı eğitime dair gelecekte yapılacak çalışmaların önemini vurgulamaktadır (Zhang ve diğerleri, 2025a).

2. Mutlak Sıfır Paradigması (The Absolute Zero Paradigm)

2.1. Ön Bilgiler

Denetimli İnce Ayar (Supervised Fine-Tuning — SFT)

SFT, her biri insan uzmanlar ya da güçlü AI modelleri tarafından hazırlanmış olan görev-açıklama-cevap (task-rationale-answer) örneklerinden oluşan bir veri kümesine dayanır:
D = {(x, c*, y*)}

  • x: Soru (girdi)
  • c*: Altın zincirleme düşünme (chain-of-thought, CoT)
  • y*: Altın cevap

Model, bu örnekleri taklit ederek, bu cevapların koşullu olasılıklarını maksimize etmeye çalışır (negatif log-olasılığı minimize eder):
L<sub>SFT</sub>(θ) = — E<sub>(x,c*,y*)~D</sub> log π<sub>θ</sub>(c*, y* | x)

Ancak, öncü düzeyde (frontier-level) daha güçlü bir model olmadığı için bilgi aktarımı sınırlıdır ve uzman etiketleme ölçeklenebilir değildir.

Doğrulanabilir Ödüllerle Pekiştirmeli Öğrenme (Reinforcement Learning with Verifiable Rewards — RLVR)

RLVR, yalnızca görev ve cevaptan oluşan bir veri setine ihtiyaç duyar: D = {(x, y*)}

Zincirleme düşünme (CoT) etiketlenmez; model kendi CoT’sini üretir ve ödül, modelin cevabı ile altın cevabın eşleşmesine göre hesaplanır: r(y, y*)

Hedef: Beklenen ödülü maksimize etmektir: J<sub>RLVR</sub>(θ) = E<sub>(x,y*)D, yπ<sub>θ</sub>(·|x)</sub> [r(y, y*)].

Ancak yine de görevlerin ve doğru cevapların insanlar tarafından hazırlanmış olması, ölçeklenebilirliği sınırlar.

2.2. Absolute Zero Yaklaşımı

Absolute Zero, modeli tüm eğitim sürecinde tamamen kendi kendine çalışır hale getirir:

  • Görev oluşturur (propose)
  • Görevi çözer (solve)
  • Çözümünden öğrenir

Hiçbir insan tarafından hazırlanmış veri gerekmez; eğitim yalnızca self-play (kendi kendine oynama) ve çevre ile etkileşim yoluyla gerçekleşir.

Modelin İki Rolü:

  1. Görev Önerici (π<sub>propose</sub>): Yeni görevler üretir.
  2. Çözücü (π<sub>solve</sub>): Önerilen görevleri çözer.

Her iki rol de aynı model parametreleri θ tarafından paylaşılır: π<sub>θ</sub>

Absolute Zero Döngüsü:

Şekil 3. Absolute Zero (Mutlak Sıfır) Döngüsü. Bu döngü, ajan π’nin bir görev (τ) önermesiyle başlar. Bu görev, ortam (çevre) e ile birlikte bir işleme tabi tutulur ve ortaya doğrulanmış bir problem çıkar: girdi(x) ve doğru çıktı(y⋆). Bu aşamada, öğrenmeye uygunluğu gösteren bir ödül (r_propose) verilir. Sonra normal bir pekiştirmeli öğrenme adımı gelir: ajan, x girdisini kullanarak bir çözüm (y) üretmeye çalışır. Ortam, bu çözümün doğru cevap (y⋆) ile ne kadar uyumlu olduğuna bakarak ikinci bir ödül (r_solve) verir. Görev önerme (π_propose) ve çözüm üretme (π_solve) birlikte eğitilir. Bu süreç sonsuza kadar tekrar edebilir.

Görev Önerimi: Model, bir görev önerir: τ ~ π<sub>propose</sub>(·|z)
(z: geçmiş görevlerden örneklenmiş bir koşullayıcı olabilir.)

Görev Geçerliliği: Ortam (environment e), önerilen görevi geçerli bir problem haline getirir: (x, y*) ~ f<sub>e</sub>(·|τ) , burada (x: görev sorusu, y*: altın cevap).

Çözüm: Model, görevi çözer: y ~ π<sub>solve</sub>(·|x).

Ödül Hesaplama: r<sub>propose</sub>(τ, π<sub>θ</sub>): Görevin öğrenilebilirliğini ölçen ödüldür. r<sub>solve</sub>(y, y*): Cevabın doğruluğunu ölçen ödüldür.

Eğitim: Her iki rol de bu ödüller doğrultusunda eğitilir. Süreç sonsuza kadar devam edebilir.

Toplam Amaç Fonksiyonu:

Burada λ parametresi, keşif (yeni görevler bulma) ile çözüm kalitesi arasında bir denge sağlar.

Avantajlar ve Yenilik

  • İnsan verisi tamamen ortadan kaldırılır.
  • Model, kendi görevlerini yaratır ve bu görevler üzerinden deneyim kazanarak sürekli olarak gelişir.
  • Veri üretimi artık insanlara değil, görev önerici politika (π<sub>propose</sub>) ve çevreye (e) aktarılmıştır.
  • Öğrenme döngüsü tamamen otomatiktir ve potansiyel olarak sınırsız ölçeklenebilir.

Bu paradigmanın amacı, modeli tamamen bağımsız bir şekilde mantıklı görevler üretip çözebilen ve zamanla bu görevlerden daha iyi öğrenebilen bir yapay zekaya dönüştürmektir.

3. Mutlak Sıfır Muhakemeci (Absolute Zero Reasoner)

Bu bölümde, “Mutlak Sıfır Paradigması”nı benimseyen ilk girişim olarak Absolute Zero Reasoner (AZR) sunulmaktadır. AZR’de, birleşik bir Büyük Dil Modeli (BDM), hem önermeci (proposer) hem de çözücü (solver) olarak görev yapar: model, öğrenme müfredatını geliştirmek için görevler üretir ve akıl yürütme yeteneklerini iyileştirmek için bu görevleri çözmeye çalışır. Model, her iki rolle birlikte eğitilir; bu sayede, akıl yürütme kapasitesinin sınırlarını zorlayan görevler yaratmayı öğrenirken, aynı zamanda bu görevleri etkili bir şekilde çözme yeteneğini de geliştirir (Bölüm 3.1).

Bu kendi kendine oyun (self-play) eğitim paradigması içinde model, üç temel akıl yürütme biçimine karşılık gelen üç farklı türde kodlama görevinden öğrenir: abdüksiyon (çıkarımsama), dedüksiyon (tümdengelim) ve indüksiyon (tümevarım) (Bölüm 3.2). Kodlama görevlerinin kullanılmasının motivasyonu, programlama dillerinin Turing-tamlığı (Stuart, 2015) ve kod tabanlı eğitimin akıl yürütmeyi geliştirdiğine dair ampirik kanıtlardır (Aryabumi vd., 2024). Güvenilir görev oluşturma ve doğrulama sağlamak için kod, açık uçlu, ifade gücü yüksek ve doğrulanabilir bir araç olarak benimsenmiştir (Bölüm 3.3). Son olarak, model, çok görevli öğrenme için tasarlanmış yeni bir avantaj tahmincisi (advantage estimator) kullanılarak güncellenir (Bölüm 3.3.5). Genel algoritma Algoritma 1'de özetlenmiş ve AZR yaklaşımının bir illüstrasyonu Şekil 4'te vurgulanmıştır.

3.1. Tek Modelde İki Rol: Önermeci ve Çözücü

Büyük Dil Modelleri, hem akıl yürütme görevlerinin formülasyonu hem de çözümlerinin birleşik bir dil uzayında gerçekleşmesi nedeniyle, AZR’yi çok görevli öğrenme bağlamında uygulamak için doğal olarak uygundur. Bu amaçla, tek bir modelin hem yüksek öğrenme potansiyeline sahip görevler üretmesi hem de bunları etkili bir şekilde çözmesi için ödüllendirilmesi önerilmektedir (Denklem 3'teki Mutlak Sıfır hedefi).

Çevrimiçi yayılımın (online rollout) her iterasyonunda AZR, görev türüne (Bölüm 3.2'de tanımlandığı gibi) ve K adet geçmiş, kendi ürettiği örneğe dayanarak yeni akıl yürütme görevleri önerir. Model, bu örneklerden farklı görevler üretmesi için açıkça yönlendirilir, bu da çeşitliliği ve görev uzayının daha geniş kapsamını teşvik eder. Bu görev önerileri filtrelenir ve ortam kullanılarak doğrulanabilir geçerli akıl yürütme görevlerine dönüştürülür (Bölüm 3.3). AZR daha sonra bu yeni önerilen görevleri çözmeye çalışır ve model yanıtları için temellendirilmiş geri bildirim alır. Hem görev önerme hem de problem çözme, pekiştirmeli öğrenme kullanılarak eğitilir.

Ödül Tasarımı: Önceki çalışmalar, uygun görev zorluğunun belirlenmesinin akıl yürütme sistemlerinde etkili öğrenmeyi teşvik etmek için kritik olduğunu göstermiştir. Bu motivasyonla, önermeci için, mevcut çözücü için ne çok kolay ne de çözülemez, yani anlamlı öğrenme potansiyeline sahip görevlerin üretilmesini teşvik eden bir ödül fonksiyonu tasarlanmıştır. Somut olarak, önerilen bir görevin öğrenilebilirliğini tahmin etmek için aynı dil modeli çözücü rolünde kullanılır. Çözücünün n adet Monte Carlo yayılımı gerçekleştirilir ve ortalama başarı oranı (r¯solve) hesaplanır. Önermecinin ödülü (rpropose) şu şekilde tanımlanır:

  • rpropose = 0, eğer r¯solve = 0 (çözülemez) veya r¯solve = 1 (çok kolay) ise.
  • rpropose = 1 — r¯solve, diğer durumlarda.
    Bu sezgiye göre, bir görev ya çözmesi çok kolaysa ya da çözülemezse, önermeci için çok az öğrenme sinyali sağlar. Aksine, çözücünün ara sıra başarılı olduğu orta zorluktaki görevler en çok ödüllendirilir, çünkü en zengin geri bildirimi ve en büyük öğrenme potansiyelini sunarlar.

Çözücü için, nihai çıktısının doğruluğuna dayalı basit bir ikili (binary) ödül (rsolve) atanır:

  • rsolve = I(y=y⋆) (y, y⋆’a eşitse 1, değilse 0), burada y⋆ temel gerçek (ground-truth) cevaptır ve eşitlik Python’daki değer eşitliğine göre değerlendirilir.

Bu temel ödüller tanımlandıktan sonra, rpropose ve rsolve’u format farkındalığı olan bir ceza ile birleştiren bileşik bir ödül yapısı benimsenir:

  • R(yπ) = r_role (eğer yanıt geçerliyse; role ∈ {propose, solve})
  • R(yπ) = -0.5 (eğer yanıt yanlış ama iyi biçimlendirilmişse)
  • R(yπ) = -1 (eğer yanıtta biçimlendirme hataları varsa)
    Önermeci için, format kriteri sadece XML yapısını takip etmekten öteye geçer; geçerli üçlüler (triplet) üreten ve filtreleme aşamasını geçen yanıtlar doğru formatlanmış kabul edilir.

3.2. Farklı Akıl Yürütme Modlarını Öğrenme: Dedüksiyon, İndüksiyon ve Abdüksiyon

Şekil 5. Seed AZR Sıfır Üçlüsü Yukarıda gösterilen kimlik (identity) fonksiyonu üçlüsü, AZR’yi kendi kendini başlatan öner-ve-çöz RLVR döngüsünü başlatması için verilen tek üçlüydü. Şunu belirtelim ki, temel LLM (büyük dil modeli), herhangi bir başlangıç programı olmadan da AZR döngüsünü başlatma yeteneğine sahiptir.
Burada başlangıç programı kullanmamız, yaklaşımımızın esnekliğini göstermek içindir: farklı karmaşıklıklardaki mevcut veri kümeleriyle başlangıç programları isteğe bağlı olarak başlatılabilir. Biz kendi sistemimizi en basit programla başlattık.

AZR, kod yürütücüsünü hem esnek bir arayüz hem de doğrulanabilir bir ortam olarak kullanır. Bu kurulum, kod akıl yürütme görevlerinin otomatik olarak oluşturulmasını, yürütülmesini ve doğrulanmasını sağlar. Bir kodlama dilinin program uzayı P, girdi uzayı I ve çıktı uzayı O verildiğinde, bir AZR akıl yürütme görevi (p, i, o) üçlüsü olarak tanımlanır; burada p ∈ P bir program, i ∈ I bir girdi ve o ∈ O programın girdi üzerinde çalıştırılmasıyla üretilen karşılık gelen çıktıdır (o = p(i)). AZR, bu görev üçlüsünün farklı kısımları hakkında akıl yürüterek öğrenir ve her biri üçlünün bir parçasını diğerleri verildiğinde çıkarmaya odaklanan üç farklı temel akıl yürütme modu kullanır:

  1. Dedüksiyon (Tümdengelim): Bir program p ve girdi i verildiğinde çıktı o’yu tahmin etme. Adım adım mantıksal akıl yürütmeyi yakalar.
  • Önermeci olarak: AZR, α = deduction görev türüne ve dedüksiyon tamponu Ddeduction’dan K referans örneğine koşullanarak bir (p, i) çifti üretir. Ortam daha sonra p(i)’yi çalıştırarak o’yu hesaplar ve hatasız çıktı üretildiyse üçlüyü tampona ekler.
  • Çözücü olarak: Model (p, i) alır ve çıktı oπ’yı tahmin eder. Tahmin edilen çıktı, olası varyasyonları (küme sıralaması veya kesirler gibi) hesaba katmak için Python’da tür farkındalığı olan değer eşitliği kullanılarak doğrulanır.
  1. Abdüksiyon (Çıkarımsama): Program p ve bir çıktı o verildiğinde olası bir girdi i’yi çıkarma. Deneme yanılma veya çevrimiçi aramaya benzer.
  • Önermeci olarak: Politika π_propose’un girdisi ve çıktısı, görev türünün α = abduction olarak değiştirilmesi dışında dedüksiyon görevindeki önermeciyle neredeyse aynıdır. Model, α ve referans örneklere koşullanarak bir (p, i) çifti üretir. Sonra p(i) çalıştırılır ve (p, i, o) üçlüsü elde edilir.
  • Çözücü olarak: Model (p, o) alır ve iπ’yı tahmin eder. Çözüm, p(iπ) = o olup olmadığı kontrol edilerek doğrulanır. Programlar bijektif (birebir ve örten) olmayabileceğinden, tam girdi eşleşmeleri gerektirmek yerine çıktı değer denkliği kullanılır.
  1. İndüksiyon (Tümevarım): Bir dizi girdi-çıktı örneği {(i_n, o_n)}’den bir program p sentezleme. Kısmi bilgiden genelleme yapmayı gerektirir.
  • Önermeci olarak: AZR, Dabduction ∪ Ddeduction’dan geçerli bir p programı örnekler, N yeni girdi ve bir m mesajı üretir ve karşılık gelen çıktıları hesaplamak için ortamı kullanır. Bu, indüksiyon tamponu Dinduction’da saklanan genişletilmiş bir görev temsili (p, {(i_n, o_n)}, m) oluşturur. Sonsuz sayıda fonksiyon girdileri çıktılara eşleyebileceğinden indüksiyon görevi kısıtlı değildir, bu nedenle m mesajı, problemin çözücü için uygun şekilde koşullanmasına yardımcı olur.
  • Çözücü olarak: Modele girdi-çıktı çiftlerinin ilk yarısı ve m mesajı gösterilir ve kalan gizli girdileri çıktılarına doğru şekilde eşleyen bir pπ programı sentezlemesi gerekir. Saklı tutulan (held-out) örneklerin kullanılması, if-else mantığıyla aşırı öğrenmeyi (overfitting) engeller ve genelleştirilmiş indüksiyonu teşvik eder.

(Şekil 5'te bahsedilen “Tohum AZR Sıfır Üçlüsü”, AZR’nin kendi kendine önyükleme (bootstrap) döngüsünü başlatmak için sağlanan tek ve en basit birim fonksiyon üçlüsüdür.)

3.3. Absolute Zero Reasoner Öğrenme Algoritması

Şekil 4. Absolute Zero Reasoner Eğitim Sürecinin Genel Görünümü
Her adımda Absolute Zero Reasoner şu şekilde çalışır: 1.İlk olarak, geçmişte kendi oluşturduğu ve bir bellekte sakladığı üçlü bilgilere dayanarak bir görev türü (çıkarım, tümdengelim veya tümevarım — Bölüm 3.2) seçer ve bu doğrultuda bir görev grubu ÖNERİR.2.Önerilen görevlerden geçerli olanlar, Python kullanılarak filtrelenir ve anlamlı kod tabanlı akıl yürütme sorularına dönüştürülür. 3.Her önerilen görev için, Denklem (4)’te tanımlanan bir “öğrenilebilirlik ödülü” (rpropose) hesaplanır. 4.Ardından, Absolute Zero Reasoner bu soruları ÇÖZER.5.Çözümlerin doğruluğu Python ile kontrol edilir ve Denklem (5)’te açıklanan “doğruluk ödülü” (rsolve) hesaplanır. 5.Son olarak, sistem hem rpropose hem de rsolve ödüllerine göre, TRR++ (Bölüm 3.3.5) yöntemi kullanılarak tüm görev türleri için birlikte güncellenir.

Bu bölümde, tamponların başlatılması (3.3.1), bu tamponların kullanımı (3.3.2), geçerli görevlerin oluşturulması (3.3.3), çözümlerin doğrulanması (3.3.4) ve son olarak avantaj tahmincisi hesaplaması (3.3.5) dahil olmak üzere AZR kendi kendine oyun algoritmasının detayları tartışılmaktadır.

3.3.1. Tampon Başlatma (BUFFER INITIALIZATION)
AZR kendi kendine oyununu başlatmak için, önce temel dil modeli kullanılarak geçerli üçlülerden oluşan bir tohum kümesi (Dseed) oluşturulur. Dseed boşsa, Şekil 5'teki “sıfır üçlüsü” kullanılır. Dedüksiyon ve abdüksiyon görevleri için BDM, filtrelenen, yürütülen ve geçerli üçlüler olarak saklanan (p, i) çiftleri üretmesi için yönlendirilir. Başlangıçta D0_abduction = D0_deduction = Dseed olarak ayarlanır. İndüksiyon tamponu da benzer şekilde, Dseed’den programlar örneklenerek ve eşleşen girdi setleri ve mesajlar üretilerek başlatılır. Bu aşamada model güncellemesi yapılmaz.

3.3.2. Görev Önerme Girdileri ve Tampon Yönetimi
Kendi kendine oyun aşamasında, abdüksiyon ve dedüksiyon görevlerinin önermecisi için tampondan K adet geçmiş üçlü örneklenir ve önermeciye bağlam içi örnekler olarak sunulur. Çeşitliliği teşvik etmek için farklı bir görev üretmesi istenir. İndüksiyon önermecisi için, Dabd ∪ Dded birleşiminden bir üçlü örneklenir ve bu üçlünün programı p, N eşleşen girdi {i_n} ve bir doğal dil mesajı m üretmek için kullanılır. Kararlı eğitim için, bir çözücü problem grubu B’den az geçerli önerilmiş görev içeriyorsa (önermeci formatlamaya uymuyorsa), kalan kısım ilgili görev tamponundan önceden doğrulanmış üçlülerle doldurulur. Tamponlar, geçerli üçlüler üretildiğinde büyür.

Algoritma 1 Mutlak Sıfır Mantıkçının (AZR) Kendi Kendine Oynama Eğitimi

3.3.3. Geçerli Görevlerin Oluşturulması

  • Öneri Görevi Doğrulaması: Dedüksiyon ve abdüksiyon için önerilen (p, i) çiftinden doğru o çıktısını elde etmek için görev doğrulama prosedürü kullanılır. İndüksiyon için, önerilen {i_n} girdi setindeki her bir girdi için karşılık gelen o_n çıktısı elde edilir. Görev doğrulama prosedürü şunları içerir:
  1. Program Bütünlüğü: Program p’nin girdi i ile Python’da hatasız çalışıp bir çıktı o döndürmesi.
  2. Program Güvenliği: os.sys, sys, shutil gibi zararlı olabilecek hassas paketlerin kullanımının kısıtlanması.
  3. Determinizm Kontrolü: Sadece deterministik programlar dikkate alınır, yani bir programın aynı girdi için her zaman aynı çıktıyı vermesi (p(i)’nin her bağımsız çalıştırmada aynı kalması). Bu, programı j=2 kez bağımsız olarak çalıştırıp tüm çıktıların eşit olup olmadığını kontrol ederek yaklaşık olarak uygulanır.
  • Çözme Görevi Oluşturma: Bir görev önerisi bu üç kontrolü geçerse, geçerli bir görev olarak kabul edilir. Çözücü için girdiler (x) şu şekilde hazırlanır: dedüksiyon için x = (p, i); abdüksiyon için x = (p, o); indüksiyon için x = ({i_n, o_n}_(n=1)^(N//2), m) (test senaryolarının yarısı ve bir program açıklaması m kullanılır).

3.3.4. Cevap Doğrulama

  • Abdüksiyon: Çözücüden alınan iπ için p(iπ) = p(i⋆) eşitliği kontrol edilir (⋆ altın bilgiyi ifade eder). p bijektif olmak zorunda olmadığı için iπ ve i⋆ doğrudan karşılaştırılmaz.
  • Dedüksiyon: oπ = o⋆ eşitliği kontrol edilir.
  • İndüksiyon: Tüm {pπ(i⋆_n) = o⋆_n}_N eşleşmeleri kontrol edilir.

3.3.5. Göreve Bağlı REINFORCE++ (Task-Relative REINFORCE++ — TRR++)
AZR, rolleri ve görev türlerini birleştirdiği için çok görevli pekiştirmeli öğrenme kurulumunda çalışır. REINFORCE++’daki gibi tek bir global temel çizgi (baseline) hesaplamak yerine, altı görev-rol yapılandırmasının (3 görev türü x 2 rol) her biri için ayrı temel çizgiler hesaplanır. Bu, her görev kurulumuna göre uyarlanmış daha yapılandırılmış bir varyans azaltmaya olanak tanır. Normalize edilmiş avantaj A_norm şu şekilde hesaplanır:
A_norm_task,role = (r — µ_task,role) / σ_task,role
burada ortalama (µ) ve standart sapma (σ), her görev türü ve rolü içinde hesaplanır ve bu da altı farklı temel çizgiyle sonuçlanır.

4. Deneyler

Tablo 1. Qwen2.5–7B modellerine dayalı olarak RL (Pekiştirmeli Öğrenme) ile eğitilmiş çıkarım sisteminin akıl yürütme testlerindeki performansı. Farklı modellerin performansı üç standart kodlama testinde (HumanEval+, MBPP+, LCBv1–5) ve altı matematik testinde (AIME’24, AIME’25, AMC’23, MATH500, Minerva, OlympiadBench) değerlendirilmiştir. Kodlama ve matematik testlerindeki ortalama performansların ortalaması alınarak genel ortalama hesaplanmıştır: ORT = (KodOrt + MatOrt)/2. “+” işareti, temel modele göre mutlak yüzde artışı ifade eder. Tüm modeller, Qwen2.5–7B modelinin farklı varyantları kullanılarak eğitilmiştir; kullanılan varyantlar ve veri kullanımı etiketlenmiştir, detaylar Tablo 4'te verilmiştir.
Tablo 6. (a) Dağıtımdaki (In-Distribution) ve (b) Dağıtım Dışı (Out-of-Distribution) Akıl Yürütme Görev Performansları. (a) Farklı model boyutları ve türleri için eğitim sürecinde AZR’nin dağıtımdaki yeteneklerini değerlendirmek amacıyla kullanılan üç görev türüne ait puanlar: CruxEval-I (abduksiyon), CruxEval-O (dedüksiyon), ve LiveCodeBench-Execution (yine dedüksiyon). (b) Farklı model boyutları ve türleri arasında ortalama kodlama görevleri, matematik görevleri ve bunların genel ortalaması kullanılarak raporlanan dağıtım dışı akıl yürütme performansı. Tüm kıyaslama sonuçlarının ayrıntılı dökümüne Tablo 5’te ulaşabilirsiniz.
Şekil 7. Modelin Önerdiği Bir Görev ve Bu Göreve Verdiği Yanıtın Kaçınım (Abduction) Görevi Bağlamında Örneği. (Solda) Model, kaçınım görevine yönelik olarak kendi başına bir girdi ve program önerir. Bu program çalıştırılarak geçerliliği kontrol edilir ve karşılık gelen çıktı elde edilir. (Sağda) Modelin kaçınım görevini çözme sürecindeki akıl yürütmesi: Model, verilen kod ve çıktıya bakarak orijinal girdiyi tahmin etmeye çalışır. Süreç, modelin programı analiz etmesiyle başlar; ardından bir başlangıç girdisi önerir ve bu girdiye göre kodu işleterek bir çıktı üretir. Üretilen çıktı ile hedef çıktı arasında uyuşmazlık varsa, model bu farkı değerlendirir ve girdiyi adım adım düzeltir. Bu işlem, doğru çıktı elde edilene kadar tekrar eder. İlginç bir şekilde, model “doğru” olarak tanımlanmış girdiden farklı bir girdiye ulaşsa da, doğru çıktıyı ürettiği için bu cevap doğru kabul edilir.
Tablo 2. Ablasyon (Ablation) Sonuçları. 7B tabanlı model kullanılarak Absolute Zero Reasoner’daki görev türleri ve önerici rolü üzerinde çıkarmalar yapıldı. ‘/’ işareti, yapılandırmanın standart AZR kurulumuna göre değişmediğini gösterir. Tümevarımı kaldırmak veya yalnızca tümdengelim kullanmak, ciddi performans düşüşlerine yol açmaktadır (satır 1 ve 2). Önerici rolü için, K referanslarına dayalı koşullandırmayı kaldırmak (satır 3) ve önerici rolüyle ilgili eğitimi atlamak (satır 4) da performansta bozulmaya neden olmaktadır. Genel olarak, tüm bileşenler genel akıl yürütme yetisi için kritik öneme sahiptir.

4.1. Deney Kurulumu

Eğitim Ayrıntıları: Tüm deneylerde tamponlar, Bölüm 3.1’de açıklanan şekilde başlatılmıştır. AZR modelleri, 64 × 6 (2 rol × 3 görev türü) boyutunda toplu işlem (batch) ile eğitilmiştir. Sabit bir öğrenme oranı olan 1e−6 ve AdamW optimize edicisi (Loshchilov & Hutter, 2019) kullanılmıştır. Tüm hiperparametrelerin tam listesi Tablo 3’te sunulmuştur.

Ana deneylerde, AZR modelleri Qwen2.5–7B ve Qwen2.5–7B-Coder üzerinde eğitilmiş ve sırasıyla Absolute Zero Reasoner-base-7B ve Absolute Zero Reasoner-Coder-7B elde edilmiştir. Ek deneyler, Qwen2.5-Coder-3B, Qwen2.5-Coder-14B, Qwen2.5–14B, Llama-3.1–8B (Yang vd., 2024a; Hui vd., 2024; Dubey vd., 2024) gibi modellerin eğitimini içermektedir.

Değerlendirme Protokolü: Modelleri değerlendirmek için veri setlerini dağılım içi (ID) ve dağılım dışı (OOD) kategorilere ayırdık. Özellikle vurguladığımız OOD kıyaslamalarında kodlama ve matematiksel akıl yürütme olarak iki alt kategoriye ayrılmıştır. Kodlama görevleri için Evalplus (Liu vd., 2023) kullanılarak HumanEval+ ve MBPP+ kıyaslamalarında ve ayrıca LiveCodeBench Generation (v1–5, Mayıs 23–Şubat 25) (Jain vd., 2024) değerlendirme yapılmıştır. Matematiksel akıl yürütme için, yakın zamanda sıfır-atış (zero-shot) eğitilmiş akıl yürütme modellerinde yaygın olarak kullanılan altı standart kıyaslama değerlendirilmiştir: AIME’24, AIME’25, OlympiadBench (He vd., 2024), Minerva, Math500 (Hendrycks vd., 2021) ve AMC’23.

ID kıyaslamaları için, CruxEval-I(nput), CruxEval-O(utput) ve LiveCodeBench-Execution (Gu vd., 2024; Jain vd., 2024) kullanılmıştır. Bu kıyaslamalar, programların girdileri ve çıktılarıyla ilgili akıl yürütme becerilerini ölçer (Li vd., 2025). Tüm temel yöntemler ve AZR sonuçları için greedy decoding (açgözlü çözümleme) kullanılmıştır; bu, yeniden üretilebilirliği garanti altına almak içindir.

Alakalı Çalışmalar

Güçlü akıl yürütme odaklı büyük dil modellerinin (LLM’ler) eğitim sonrası süreçlerinde RL (pekiştirmeli öğrenme) kullanılarak akıl yürütme yeteneklerinin geliştirilmesi, son zamanlarda önemli bir adım olarak ortaya çıkmıştır (Lambert ve diğerleri, 2024). LLM akıl yürütmesini kendi kendine iyileştirme yaklaşımını keşfeden ilk çalışmalardan biri STaR’dır. Bu yöntem, uzman yinelemesi ve sonuç-doğrulamalı yanıtların red örneklemesini kullanarak modelin Adım Adım Düşünme (CoT) becerilerini kademeli olarak geliştirir. Bu alandaki çığır açıcı çalışmalardan biri olan o1 (Jaech ve diğerleri, 2024), bu fikri büyük ölçekte uygulayan ilk çalışmalardan biri olmuş ve yayımlandığı dönemde akıl yürütme görevlerinde en iyi sonuçlara ulaşmıştır. Daha yakın zamanda, R1 modeli (DeepSeek-AI ve diğerleri, 2025), o1'in performansına erişen veya onu aşan ilk açık-ağırlıklı model olmuştur.

En dikkat çekici gelişme ise, RL’nin doğrudan temel LLM üzerine uygulandığı “sıfır ayarı” kavramının tanıtılması olmuştur. Bu, R1 sürecini kopyalamayı veya temel pekiştirmeli öğrenme algoritmasını iyileştirmeyi amaçlayan açık kaynak girişimlerini (Zeng ve diğerleri, 2025b; Liu ve diğerleri, 2025; Cui ve diğerleri, 2025; Hu ve diğerleri, 2025; Yu ve diğerleri, 2025; Yuan ve diğerleri, 2025) teşvik etmiştir. Yakın tarihli çalışmalar, insan tanımlı prosedürel olarak oluşturulmuş bulmacalar üzerinde RL uygulayarak matematiksel başarımda iyileşmeler sağlamıştır (Xie ve diğerleri, 2025). Ayrıca, yalnızca bir insan örneği kullanılarak binlerce örneğin performansına yaklaşmak mümkün olmuştur (Wang ve diğerleri, 2025b).

Biz bu “sıfır ayarını” yeni bir “mutlak sıfır ayarı”na genişletiyoruz. Bu yeni yaklaşımda, RLVR süreci yalnızca temel bir LLM’den (SFT olmaksızın) başlatılmakla kalmaz, aynı zamanda öğreniciye herhangi bir dış istem verisi veya yanıt da sunulmaz. Akıl yürütmeyi geliştirmek için kullanılan tüm veriler modelin kendisi tarafından önerilmiş ve tamamen RLVR ile iyileştirilmiştir. Dahası, amacımız sadece sıfır ayarlı modellerle eşleşmek değil, uzun vadede onları aşmaktır.

Kendi Kendine Oynama (Self-Play)

Kendi kendine oynama paradigması, 2000’li yılların başlarına kadar uzanır. Schmidhuber (2003; 2011) bu yaklaşımı iki ajanlı bir yapıda incelemiş, burada bir öneri ajanı sorular üretirken, bir tahmin ajanı bunlara yanıt vermeye çalışır. Bu dinamik, her iki ajanın da sürekli ve otomatik olarak gelişmesini sağlar; teorik olarak sonsuz ilerlemeye olanak tanır (Schaul, 2024). AlphaGo ve AlphaZero (Silver ve diğerleri, 2016; 2017), bu paradigmayı sıfır toplamlı iki oyunculu Go oyununa uygulayarak, güncel öğrenicinin önceki sürümleriyle yarışarak yeteneklerini kademeli olarak geliştirir. Bu çalışmalar, Go oyununda insan üstü performansı gösteren ilk önemli çalışmalardan olmuştur.

Asimetrik kendi kendine oynama (Sukhbaatar ve diğerleri, 2018; OpenAI ve diğerleri, 2021), denetimsiz ortam tasarımı (Wang ve diğerleri, 2019; Dennis ve diğerleri, 2020), denetimsiz pekiştirmeli öğrenme (Laskin ve diğerleri, 2021; Zhao ve diğerleri, 2022; 2025b) ve otomatik hedef üretimi (Florensa ve diğerleri, 2018) gibi yöntemler, bir ajanın öğrenmesi için yeni görevler icat etmeye odaklanır — genellikle denetimsiz olarak. Bu yaklaşımlarda, hedef belirleme süreci genellikle dinamik ve sürekli evrilen bir yapıdadır.

Üretken çekişmeli ağlar (GAN’ler) (Goodfellow ve diğerleri, 2020) da bu paradigmaya dahildir. Burada bir ayrıştırıcı, gerçek veri ile üretilen veriyi ayırt etmeye çalışırken, üretici ağ ayrıştırıcıyı kandıracak veriler üretmeye çalışır.

Son olarak, SPIN ve Kendini Ödüllendiren Dil Modelleri (Chen ve diğerleri, 2024; Yuan ve diğerleri, 2024), aynı dil modeli örneğini hem üretici hem ödül modeli olarak kullanarak, hem üretken hem ayrıştırıcı yeteneklerini kademeli olarak geliştirir. (Kirchner ve diğerleri, 2024) Anlaşılabilirliği artırmak için Kanıtlayıcı-Doğrulayıcı Oyunu kullanır; (Ye ve diğerleri, 2024) ise hizalama amacıyla kendi kendine oynamayı kullanır. Ancak, ödül modeli akıl yürütme görevlerinde güvenilir olmadığından, ana darboğaz olmaya devam etmektedir (Lambert ve diğerleri, 2024).

SPC (Chen ve diğerleri, 2025) kendi kendine oynama ile insan tarafından hazırlanmış görevler üzerinde eğitim yaparak eleştirmen yeteneklerini artırmıştır. SPAG (Cheng ve diğerleri, 2024) ise belirli bir Adversarial Taboo oyununda kendi kendine oynama ile eğitim almıştır. Eş zamanlı çalışmalar — Genius, EMPO ve TTRL (Xu ve diğerleri, 2025; Zhang ve diğerleri, 2025b; Zuo ve diğerleri, 2025) — etiketsiz ama insan tarafından hazırlanmış dil sorgularını kullanarak RL ajanları eğitir, ancak hâlâ sabit ve insan tanımlı bir öğrenme görev dağılımına dayanırlar.

Son olarak, Minimo (Poesia ve diğerleri, 2024) kendi kendine oynama yaklaşımını biçimsel matematiğe genişletmiştir. Burada, bir önerme ve bir teorem ispatlayıcı ajandan oluşan çift, pekiştirmeli öğrenme kullanılarak ortaklaşa eğitilmiştir. Bizim çalışmamız, kendi kendine oynama paradigmasını temel alır, ancak uzun Adım Adım Düşünme (CoT) zincirleri oluşturmak ve akıl yürütmeyi geliştirmek için bunu kullanan ilk çalışmadır. Ayrıca, problem alanını Python girdi/çıktı/fonksiyon tümevarım/tümdengelim/çıkarım görevleri olarak çerçeveleyerek, RLVR’yi kolaylaştırmak için işler bir ortama oturtan ilk çalışmadır.

Zayıftan Güçlüye Gözetim:

Zayıf öğretmenlerin daha güçlü öğrencilere faydalı rehberlik sağlayabildiği “zayıftan güçlüye gözetim” kavramı önceki çalışmalarda incelenmiştir (Burns ve diğerleri, 2024; Hinton ve diğerleri, 2015; Christiano, 2018; 2019; Demski & Garrabrant, 2019; Leike & Sutskever, 2023; Hubinger ve diğerleri, 2019). Biz de benzer bir durumu ele alıyoruz; burada öğrenci insanüstü yeteneklere sahip olabilir. Ancak, daha zayıf bir öğretmenden gözetim almak yerine, doğrulanabilir ödüller yoluyla öğrencinin gelişimini yönlendirmeyi öneriyoruz. Bu, potansiyel olarak daha güvenilir ve ölçeklenebilir bir öğrenme sinyali sağlayabilir. Ayrıca, önerdiğimiz yöntemde öğrenme görevleri ve hedef dağılımı dış bir denetmen tarafından önceden belirlenmemektedir — bunlar tamamen öğrenci tarafından kendi kendine oluşturulmakta ve böylece modelin özerk uygulamalarla maksimum öğrenme potansiyeline ulaşması sağlanmaktadır.

Sonuç

Bu çalışmada, mevcut Pekiştirmeli Öğrenmeye Dayalı Akıl Yürütme (RLVR) çerçevelerinin veri sınırlamalarını ele alan yenilikçi bir yaklaşım olan Mutlak Sıfır paradigmasını önerdik. Bu paradigmada, akıl yürüten ajanlar kendi öğrenme görev dağılımlarını oluşturmakla ve çevresel geri bildirimlerle akıl yürütme yeteneklerini geliştirmekle görevlendirilir. Ardından, bu paradigmanın kendi uygulamamız olan Mutlak Sıfır Akıl Yürütücüsü (AZR)’yi tanıttık; bu sistem, kod yürütücüsüyle temellendirilen kodla ilgili akıl yürütme görevlerini önerip çözerek eğitilir. Eğitilmiş modellerimizi, hem kod üretimi hem de matematiksel akıl yürütme alanlarındaki dağılım dışı kıyaslamalarla değerlendirdik. Dikkat çekici bir şekilde, bu görevler üzerinde doğrudan eğitilmemiş ve insan uzmanlar tarafından özenle hazırlanmış veri kümelerinden yoksun olmalarına rağmen, akıl yürütme ajanlarımız olağanüstü bir performans sergileyerek genel akıl yürütme skorlarında ve kodlamada alanın en iyisini geride bırakmıştır. Bu durum, mutlak sıfır paradigmasının, kapsamlı alana özel eğitim verisine ihtiyaç duymadan üstün akıl yürütme kabiliyetlerini mümkün kılabileceğini göstermektedir. Ayrıca, AZR’nin farklı model boyutları arasında verimli şekilde ölçeklendiğini ve diğer model sınıflarının yeteneklerini de geliştirebileceğini ortaya koyduk. Bu yeni paradigmanın daha fazla keşfi ve geliştirilmesini teşvik etmek amacıyla, kodları, modelleri ve günlükleri açık kaynak olarak yayımlıyoruz; araştırma topluluğunu da bulgularımız üzerine inşa etmeye davet ediyoruz.

Tartışma

Keşfedilecek daha çok alan olduğuna inanıyoruz. Örneğin, akıl yürütücünün doğrulanabilir geri bildirim aldığı çevrenin değiştirilmesi düşünülebilir; bu çevre, dünya çapında ağ, biçimsel matematik dilleri (Sutton, 2001; Ren ve diğerleri, 2025), dünya simülatörleri veya gerçek dünya gibi kaynakları içerebilir. Ayrıca, AZR’nin genel yapısı, bedenlenmiş yapay zeka (Zitkovich ve diğerleri, 2023; Yue ve diğerleri, 2024) gibi alanlara da genişletilebilir. Daha karmaşık ajan görevleri veya bilimsel deneyler, mutlak sıfır ayarını farklı uygulama alanlarına daha da taşımak için heyecan verici fırsatlar sunmaktadır (Wu ve diğerleri, 2024; 2023). Bunun ötesinde, gelecekteki çalışmalar çok modlu akıl yürütme modellerinin keşfini, p(z) dağılımının ayrıcalıklı bilgileri içerecek şekilde değiştirilmesini, 3. Denklemdeki f fonksiyonunun tanımının modellenmesi veya modelin bu tanımı dinamik olarak öğrenmesine izin verilmesini ve hem önerme hem çözme rollerine keşif/çeşitlilik ödülleri tasarlanmasını içerebilir. Mevcut akıl yürütme literatüründe yeterince takdir edilmese de, keşif bileşeni geleneksel pekiştirmeli öğrenmede uzun zamandır ortaya çıkan davranışların kritik bir itici gücü olarak kabul edilmektedir (Yue ve diğerleri, 2025; Silver ve diğerleri, 2016; Ladosz ve diğerleri, 2022). Yıllarca süren araştırmalar, keşfin çeşitli biçimlerini inceledi; hatta LLM’lerin kullanıldığı alt alanlarda (örneğin, kırmızı ekip çalışmaları — Zhao ve diğerleri, 2025a) bile. Ancak LLM akıl yürütme modellerindeki rolü hâlâ yeterince araştırılmamıştır. Bizim çerçevemiz ise bu durumu bir adım öteye taşıyarak, öğrenme görevi alanı içinde bir meta-seviye keşif sorununu inceliyor — yani ajan yalnızca görevleri nasıl çözeceğini değil, hangi görevlerden öğrenmesi gerektiğini ve bu görevleri nasıl bulacağını da öğreniyor. Sabit bir problem kümesine bağlı kalmak yerine, yapay zekâ akıl yürütücü ajanlar kendi öğrenme görevlerini dinamik olarak tanımlayıp iyileştirerek fayda sağlayabilir. Bu değişim, sadece çözüm alanlarını değil, aynı zamanda problem alanlarının sınırlarını da genişleten güçlü bir yeni sınır açmaktadır. Bu yönün gelecekteki araştırmalar için umut verici ve önemli olduğuna inanıyoruz.

Çalışmamızın bir sınırlaması, kendi kendini geliştiren bileşenlerden oluşan bir sistemin güvenli şekilde nasıl yönetileceğine dair bir çözüm sunmamış olmamızdır. Sürpriz bir şekilde, Llama-3.1–8B modelinden kaynaklanan ve bizim “vay canına anı” olarak adlandırdığımız bazı güvenlik endişesi uyandıran zincirleme düşünme örnekleriyle karşılaştık. Bu bulgular, önerdiğimiz mutlak sıfır paradigmasının görev kürasyonu için insan müdahalesi gereksinimini azaltsa da, hâlâ güvenlik endişeleri nedeniyle denetim gerektirdiğini göstermekte ve bu da gelecekteki araştırmalar için kritik bir yönü işaret etmektedir (Wang ve diğerleri, 2024; 2025a).

Son olarak, yalnızca verilen görevleri çözen değil, aynı zamanda çevrenin yardımıyla kendi öğrenme görev dağılımlarını tanımlayıp geliştiren deneyime sahip akıl yürütme modellerini araştırdık. AZR ile elde ettiğimiz sonuçlar, bu değişimin çok çeşitli akıl yürütme görevlerinde güçlü bir performans sağladığını göstermektedir — hem de insan tarafından özenle hazırlanmış veriler gibi ayrıcalıklı kaynaklara önemli ölçüde daha az ihtiyaç duyarak. Bu durumun, akıl yürütme modellerini insan-küratörlü verilerin sınırlamalarından nihayet kurtarabileceğine ve akıl yürütme modelleri için yeni bir dönemin başlangıcını işaret ettiğine inanıyoruz: “deneyim çağının hoş geldiniz” (Silver & Sutton, 2025; Zhao ve diğerleri, 2024).

Kaynak

Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang, (6 May 2025), Absolute Zero: Reinforced Self-play Reasoning with Zero Data:

[https://www.arxiv.org/abs/2505.03335]

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet