Muhakeme Modelleri’nin Düşünme Yanılsaması
“The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” makalesini Türkçe inceliyoruz.
Not: Çok ses getiren Apple’ın bu makalesi varılan sonuçlarıyla ilgili çok fazla eleştiri almaktadır.
Bu eleştirilerden ilki A. Lawsen, (16 Jun 2025), Comment on The Illusion of Thinking (The illusion of the illusion of Thinking): [https://arxiv.org/abs/2506.09250]
İkincisi The illusion of the illusion of the illusion of Thinking: V.Dantas, (June 17, 2025),[https://drive.google.com/file/d/1imWKj_QKz7V4wngKsYXI4CQw-ERal32M/view] (private arxiv?)
Özet
Bu makale, son dönemde ortaya çıkan ve cevap vermeden önce detaylı düşünme süreçleri üreten Büyük Muhakeme Modelleri’nin (LRM: Large Reasoning Models) gerçek muhakeme yeteneklerini ve sınırlarını sistematik bir şekilde incelemektedir. Araştırmacılar, bu modellerin yeteneklerinin abartılıyor olabileceğini ve mevcut değerlendirme yöntemlerinin yetersiz kaldığını savunmaktadır.
Giriş ve Temel Sorun
OpenAI’nin o1/o3 serisi veya Claude 3.7 Sonnet Thinking gibi yeni nesil dil modelleri, bir soruya cevap vermeden önce <think> etiketleri içinde kendi kendilerine adeta bir “düşünme” süreci sergilerler. Bu, bir problemi çözerken adımları sesli düşünmeye benzer ve genellikle matematik veya kodlama gibi alanlarda daha iyi sonuçlar almalarını sağlar.
Ancak makale, bu başarının yanıltıcı olabileceğini öne süren kritik sorular sorar:
- Bu modeller gerçekten “düşünüyor” mu, yoksa gelişmiş bir örüntü eşleştirme (pattern matching) mi yapıyorlar?
- Problem karmaşıklığı arttıkça performansları nasıl değişiyor?
- “Düşünen” bu modeller, aynı işlem gücü verildiğinde “düşünmeyen” standart modellere kıyasla gerçekten daha mı iyiler?
Mevcut değerlendirme yöntemleri (matematik testleri gibi) bu soruları cevaplamak için yetersizdir. Çünkü bu testlerdeki sorular, modellerin eğitim verilerinde zaten bulunmuş olabilir. Bu duruma veri sızıntısı (data contamination) denir.
Analoji: Veri Sızıntısı
Bir öğrencinin final sınavına hazırlandığını düşünün. Eğer öğrenci, sınavda çıkacak soruların ve cevaplarının tamamını önceden görmüş ve ezberlemişse, sınavdan 100 alması onun konuyu anladığını kanıtlamaz; sadece iyi bir ezberci olduğunu gösterir. Makale, LRM’lerin de popüler test setlerinde benzer bir “ezber” durumu yaşayabileceğini ve bu yüzden gerçek anlama yeteneklerinin ölçülemediğini iddia etmektedir.
Bu sorunu aşmak için araştırmacılar, veri sızıntısı riski olmayan, kuralları net ve karmaşıklığı hassas bir şekilde ayarlanabilen kontrol edilebilir bulmaca ortamları (controllable puzzle environments) kullanmışlardır.
Metodoloji: Kontrol Edilebilir Bulmaca Ortamları
Araştırmacılar, modellerin muhakeme yeteneklerini test etmek için dört farklı bulmaca kullanmıştır:
- Hanoi Kulesi (Tower of Hanoi): Farklı boyutlardaki diskleri, belirli kurallara uyarak bir çubuktan diğerine taşıma problemi. Karmaşıklık, disk sayısı artırılarak ayarlanır.
- Dama Atlama (Checkers Jumping): Tek boyutlu bir hatta dizilmiş farklı renklerdeki pulları, belirli hamlelerle yer değiştirme problemi. Karmaşıklık, pul sayısı ile artar.
- Nehri Geçme (River Crossing): Belirli kısıtlamalar altında (örneğin, kurt ile kuzu yalnız kalamaz) insanları ve nesneleri bir tekneyle nehrin karşısına geçirme problemi. Karmaşıklık, kişi/nesne sayısı ile ayarlanır.
- Blok Dünyası (Blocks World): Bir dizi bloğu başlangıç diziliminden hedef dizilimine en az hamleyle getirme problemi. Karmaşıklık, blok sayısı ile artar.
Bu bulmacalar sayesinde, modelin sadece nihai cevabının doğruluğu değil, aynı zamanda “düşünce” sürecindeki her bir adımının geçerliliği de bir simülatör ile kontrol edilebilmiştir.
Ana Bulgular ve Analizler
Makalenin deneyleri sonucunda üç temel ve şaşırtıcı bulgu ortaya çıkmıştır:
1. Muhakemenin Üç Aşaması (Three Regimes of Complexity):
Düşünen LRM’ler ile düşünmeyen standart LLM’ler (Büyük Dil Modelleri) karşılaştırıldığında, problem karmaşıklığına göre üç farklı performans rejimi gözlemlenmiştir:
- Düşük Karmaşıklık Rejimi: Basit bulmacalarda, düşünmeyen standart modeller, düşünen LRM’lerden daha başarılı ve verimlidir. LRM’ler bu aşamada gereksiz yere “aşırı düşünme (overthinking)” eğilimindedir. Analoji: Aşırı Düşünme: Birisi size “En yakın market nerede?” diye sorduğunda, “Hemen şu köşede” demek yeterlidir. Ancak aşırı düşünen bir model, “Şu köşede bir market var. Ama isterseniz üç sokak ötede daha büyük bir tane daha var, gerçi onun manav reyonu pek iyi değil. Köşedeki markette ayrıca taze simit de bulunur…” gibi gereksiz detaylar vererek hem zaman hem de enerji harcar. Basit problemlerde LRM’ler de benzer bir verimsizlik sergiler.
- Orta Karmaşıklık Rejimi: Problem biraz daha zorlaştığında, LRM’lerin “düşünme” süreci avantaj sağlar ve standart modelleri geride bırakırlar. Bu, adımları planlamanın ve kendini düzeltmenin önemli olduğu noktadır.
- Yüksek Karmaşıklık Rejimi: Problem belirli bir zorluk seviyesini aştığında, hem düşünen hem de düşünmeyen modellerin performansı tamamen çöker (complete collapse) ve doğruluk oranları sıfıra düşer.
2. Muhakeme Modellerinin Çöküşü ve Ölçeklenme Sınırı:
Tüm LRM’ler, problem karmaşıklığı arttıkça doğruluklarının kademeli olarak düştüğü ve belirli bir karmaşıklık eşiğini (complexity threshold) aştıktan sonra tamamen başarısız olduğu gözlemlenmiştir.
Daha da ilginci, karşı-sezgisel (counter-intuitive) bir ölçeklenme sınırı tespit edilmiştir:
- Modeller, problem zorlaştıkça harcadıkları “düşünme çabasını” (üretilen belirteç sayısıyla ölçülür) bir noktaya kadar artırır. Ancak tam da çöküş noktasına yaklaştıklarında, problem daha da zorlaşmasına rağmen, düşünme çabalarını azaltmaya başlarlar.
Analoji: Ölçeklenme Sınırı
Giderek zorlaşan matematik problemleri çözen bir öğrenci düşünün. Kolay ve orta seviye problemler için daha fazla işlem yapar, daha çok kağıt kullanır. Ancak karşısına kapasitesini aşan, aşırı zor bir problem çıktığında, daha fazla uğraşıp tüm zamanını kullanmak yerine, birkaç karalama yapıp “bunu çözemem” diyerek kalemi bırakır. LRM’ler de kendilerine tanınan işlem bütçesi (token budget) olmasına rağmen, problem çok karmaşık göründüğünde adeta “pes edip” daha az düşünerek başarısız olmaktadır.
3. Şaşırtıcı Sınırlılıklar ve Açık Kalan Sorular:
- Algoritmayı Takip Edememe: Araştırmacılar, modellere Hanoi Kulesi bulmacasının çözüm algoritmasını doğrudan verdiklerinde bile (yani modelin sadece adımları uygulaması gerektiğinde), performanslarının artmadığını ve yine aynı karmaşıklık seviyesinde çöktüklerini gözlemlemişlerdir. Bu, modellerin sembolik ve mantıksal adımları tutarlı bir şekilde takip etmede temel bir zayıflığı olduğunu göstermektedir. Analoji: Montaj Talimatları: Birine karmaşık bir IKEA mobilyasının adım adım montaj kılavuzunu verdiğinizi hayal edin. Kişi, kılavuza sahip olmasına rağmen, belirli bir adımdan sonra (örneğin 50. adımdan sonra) vidaları yanlış yerlere takmaya veya parçaları karıştırmaya başlıyorsa, bu onun talimatların mantığını anlamadığını, sadece görsel olarak benzetmeye çalıştığını ve bu benzetmenin karmaşıklık arttıkça başarısız olduğunu gösterir. LRM’lerin algoritma takibi de benzer bir başarısızlık sergilemektedir.
- Tutarsız Muhakeme: Modellerin performansı bulmaca türüne göre dramatik şekilde değişmektedir. Örneğin, Claude 3.7 Sonnet modeli, Hanoi Kulesi’nde 100 adıma kadar hatasız gidebilirken, Nehri Geçme bulmacasında 4–5 adımdan sonra hata yapmaktadır. Bu durum, modellerin genel bir problem çözme yeteneği geliştirmek yerine, eğitim verilerinde sıkça karşılaştıkları problem türlerini (Hanoi Kulesi gibi) “ezberlemiş” olabileceğine işaret etmektedir.
Bu çalışma, günümüzdeki en gelişmiş LRM’lerin bile gerçek, genelleştirilebilir muhakeme yeteneklerinden ziyade, karmaşık örüntü tanıma ve ezberleme mekanizmalarına dayandığını güçlü kanıtlarla ortaya koymaktadır. “Düşünme” olarak pazarlanan süreçler, verimsizlikler (“aşırı düşünme”), ölçeklenme sınırları ve temel mantıksal adımları takip etmede başarısızlıklar içermektedir.
Öz
En yeni nesil öncü (frontier) dil modelleri, cevap vermeden önce detaylı düşünme süreçleri üreten Büyük Akıl Yürütme Modelleri’ni (LRM: Large Reasoning Models) ortaya çıkarmıştır. Bu modeller, akıl yürütme kıyaslamalarında daha yüksek bir performans sergilese de temel kabiliyetleri, ölçeklenme özellikleri ve sınırlılıkları henüz yeterince anlaşılamamıştır. Mevcut değerlendirme yöntemleri, temel olarak yerleşik matematik ve kodlama kıyaslamalarına odaklanmakta ve nihai cevabın doğruluğunu öne çıkarmaktadır. Ancak bu değerlendirme yaklaşımı, sıkça veri kirliliği (data contamination) gibi sorunlar barındırmakta ve akıl yürütme izlerinin (reasoning traces) yapısı ile kalitesine dair bir içgörü sunmamaktadır.
Bu çalışmada, söz konusu boşlukları sistematik olarak araştırmak için tutarlı mantıksal yapıları korurken bileşimsel karmaşıklığın (compositional complexity) hassas bir şekilde ayarlanmasına olanak tanıyan kontrol edilebilir bulmaca ortamlarından faydalanıyoruz. Bu düzenek, sadece nihai cevapların değil, aynı zamanda modelin içsel akıl yürütme izlerinin de analiz edilmesini sağlayarak LRM’lerin nasıl “düşündüğüne” dair değerli bilgiler sunmaktadır.
Farklı bulmacalar üzerinde yürüttüğümüz kapsamlı deneyler sonucunda, öncü LRM’lerin belirli bir karmaşıklık seviyesinin ötesinde tam bir doğruluk çöküşü (complete accuracy collapse) yaşadığını gösteriyoruz. Dahası, bu modeller sezgilere aykırı bir ölçeklenme sınırı sergilemektedir: Akıl yürütme çabaları, problem karmaşıklığı arttıkça belirli bir noktaya kadar yükselmekte, ardından yeterli bir belirteç (token) bütçesine sahip olmalarına rağmen düşüşe geçmektedir.
LRM’leri, eşdeğer çıkarım hesaplama gücü altında standart Büyük Dil Modeli (LLM) muadilleriyle karşılaştırarak üç temel performans rejimi tespit ettik: (1) Standart modellerin şaşırtıcı bir şekilde LRM’lerden daha iyi performans gösterdiği düşük karmaşıklıktaki görevler, (2) LRM’lerdeki ek düşünme sürecinin avantaj sağladığı orta karmaşıklıktaki görevler ve (3) her iki modelin de tamamen çöktüğü yüksek karmaşıklıktaki görevler.
LRM’lerin kesin hesaplama (exact computation) konusunda sınırlılıkları olduğunu bulduk: Bu modeller, belirgin algoritmaları kullanmada başarısız olmakta ve farklı bulmacalar arasında tutarsız bir akıl yürütme sergilemektedir. Ayrıca, akıl yürütme izlerini daha derinlemesine inceliyor, keşfedilen çözüm örüntülerini ve modellerin hesaplamasal davranışlarını analiz ediyoruz. Bu analiz, modellerin güçlü yanlarını ve sınırlılıklarını aydınlatmakta ve nihayetinde onların gerçek akıl yürütme yetenekleri hakkında kritik soruları gündeme getirmektedir.
Giriş
Büyük Dil Modelleri (LLM’ler), son dönemde, muhakeme görevleri için özel olarak tasarlanmış uzmanlaşmış varyantları kapsayacak şekilde bir gelişim göstermiştir. OpenAI’nin o1/o3 [1, 2], DeepSeek-R1 [3], Claude 3.7 Sonnet Thinking [4] ve Gemini Thinking [5] gibi bu modellere Büyük Muhakeme Modelleri (LRM’ler) denmektedir. Bu modeller, kendi üzerine düşünme (self-reflection) içeren uzun Düşünce Zinciri (CoT: Chain-of-Thought) gibi “düşünme” mekanizmalarıyla tanımlanan yeni yapılardır ve çeşitli muhakeme kıyaslamalarında umut verici sonuçlar göstermişlerdir. Bu modellerin ortaya çıkışı, LLM sistemlerinin karmaşık muhakeme ve problem çözme görevlerine yaklaşımında potansiyel bir paradigma kaymasına işaret etmektedir; hatta bazı araştırmacılar bu modelleri daha genel yapay zeka yeteneklerine doğru atılmış önemli adımlar olarak görmektedir.
Bu iddialara ve performans gelişimlerine rağmen, LRM’lerin temel faydaları ve sınırlılıkları henüz yeterince anlaşılamamıştır. Şu kritik sorular hala geçerliliğini korumaktadır: Bu modeller genelleştirilebilir muhakeme yeteneğine mi sahip, yoksa farklı örüntü eşleştirme (pattern matching) biçimlerinden mi yararlanıyor? [6] Problem karmaşıklığı arttıkça performansları nasıl ölçekleniyor? Aynı çıkarım belirteçi bütçesi (inference token compute) sağlandığında, “düşünmeyen” standart LLM benzerlerine kıyasla nasıl bir performans sergiliyorlar? En önemlisi, mevcut muhakeme yaklaşımlarının doğasında var olan sınırlılıklar nelerdir ve daha sağlam (robust) muhakeme yeteneklerine ulaşmak için ne gibi iyileştirmeler gerekebilir?
Bu soruları araştıran sistematik analizlerin eksikliğinin, mevcut değerlendirme paradigmalarındaki sınırlılıklardan kaynaklandığına inanıyoruz. Mevcut değerlendirmeler ağırlıklı olarak yerleşik matematik ve kodlama kıyaslamalarına odaklanmaktadır; bu kıyaslamalar değerli olmakla birlikte, genellikle veri sızıntısı (data contamination) sorunlarından muzdariptir ve farklı ortamlar ve karmaşıklık seviyelerinde kontrollü deney koşullarına izin vermez. Dahası, bu değerlendirmeler muhakeme izlerinin (reasoning traces) yapısı ve kalitesi hakkında bir içgörü sunmazlar. Bu modellerin muhakeme davranışını daha titiz bir şekilde anlamak için, kontrollü deneylere olanak tanıyan ortamlara ihtiyacımız var.
Bu çalışmada, öncü LRM’lerin muhakeme mekanizmalarını problem karmaşıklığı merceğinden inceliyoruz. Standart kıyaslamalar (örn. matematik problemleri) yerine, kontrol edilebilir bulmaca ortamları benimsiyoruz. Bu ortamlar, temel mantığı korurken bulmaca unsurlarını ayarlayarak karmaşıklığı sistematik olarak değiştirmemize ve hem çözümleri hem de içsel muhakemeyi (internal reasoning) denetlememize olanak tanır (Şekil 1, üst). Bu bulmacalar: (1) karmaşıklık üzerinde hassas kontrol sunar; (2) yerleşik kıyaslamalarda yaygın olan veri sızıntısını önler; (3) yalnızca açıkça sağlanan kuralları gerektirerek algoritmik muhakemeyi vurgular; ve (4) hassas çözüm kontrolleri ve detaylı hata analizleri sağlayan, simülatör tabanlı titiz bir değerlendirmeyi destekler.
Ampirik araştırmamız, mevcut Büyük Muhakeme Modelleri (LRM’ler) hakkında birkaç temel bulguyu ortaya koymaktadır:
- Birincisi, pekiştirmeli öğrenme yoluyla öğrendikleri gelişmiş kendi üzerine düşünme mekanizmalarına rağmen, bu modeller planlama görevleri için genelleştirilebilir problem çözme yetenekleri geliştirmekte başarısız olmakta ve performansları belirli bir karmaşıklık eşiğinin ötesinde sıfıra çökmektedir.
- İkincisi, LRM’ler ile standart LLM’leri eşdeğer çıkarım bütçesi altında karşılaştırmamız, üç farklı muhakeme rejimi ortaya koymaktadır (Şekil 1, alt). Daha basit, düşük bileşimsel derinliğe sahip problemlerde standart LLM’ler daha yüksek verimlilik ve doğruluk göstermektedir. Problem karmaşıklığı orta seviyeye çıktığında, düşünen modeller avantaj kazanmaktadır. Ancak, problemler yüksek karmaşıklığa ve daha uzun bileşimsel derinliğe ulaştığında, her iki model türü de tamamen çökmektedir (Şekil 1, alt sol).
- Dikkat çekici bir şekilde, bu çöküş noktasına yakın bir yerde LRM’ler, üretim uzunluğu sınırlarının oldukça altında çalışmalarına rağmen, problem karmaşıklığı arttıkça muhakeme çabalarını (çıkarım zamanı belirteçleri ile ölçülen) azaltmaya başlarlar (Şekil 1, alt orta). Bu durum, LRM’lerin muhakeme yeteneklerinde problem karmaşıklığına bağlı temel bir çıkarım zamanı ölçeklenme sınırlaması olduğunu göstermektedir.
- Son olarak, ara muhakeme izleri veya “düşünceler” üzerine yaptığımız analiz, karmaşıklığa bağlı örüntüler ortaya çıkarmaktadır: Basit problemlerde, muhakeme modelleri genellikle doğru çözümü erken bulmakta ancak verimsiz bir şekilde yanlış alternatifleri keşfetmeye devam etmektedir. Bu, “aşırı düşünme” (overthinking) olarak adlandırılan bir olgudur. Orta karmaşıklıkta, doğru çözümler ancak yanlış yolların kapsamlı bir şekilde araştırılmasından sonra ortaya çıkmaktadır. Belirli bir karmaşıklık eşiğinin ötesinde ise modeller doğru çözümleri bulmakta tamamen başarısız olmaktadır (Şekil 1, alt sağ). Bu durum, LRM’lerin değerli olmakla birlikte temel verimsizlikleri ve net ölçeklenme sınırlamalarını ortaya koyan kısıtlı bir öz-düzeltme (self-correction) yeteneğine sahip olduğunu göstermektedir.
Bu bulgular, mevcut LRM’lerin hem güçlü hem de zayıf yönlerini vurgulamakta, bu sistemlerdeki muhakemenin doğası hakkında sorular ortaya çıkarmakta ve tasarımları ile kullanımları için önemli çıkarımlar sunmaktadır.
Temel katkılarımız şunlardır:
- LRM’lerin yerleşik matematik kıyaslamaları üzerindeki mevcut değerlendirme paradigmasını sorguluyor ve problem karmaşıklığına göre kontrollü deneylere olanak tanıyan algoritmik bulmaca ortamlarını kullanarak kontrollü bir deney düzeneği tasarlıyoruz.
- En gelişmiş LRM’lerin (örn. o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) dahi genelleştirilebilir problem çözme yetenekleri geliştirmekte başarısız olduğunu ve farklı ortamlarda belirli karmaşıklık seviyelerinin ötesinde doğruluklarının tamamen sıfıra çöktüğünü gösteriyoruz.
- LRM’lerin muhakeme çabasında problem karmaşıklığına göre bir ölçeklenme sınırı olduğunu, bunun da belirli bir karmaşıklık noktasından sonra düşünme belirteçlerinde gözlemlenen karşı-sezgisel (counterintuitive) düşüş eğilimiyle kanıtlandığını buluyoruz.
- Nihai doğruluğa dayalı mevcut değerlendirme paradigmasını sorguluyor ve değerlendirmemizi deterministik bulmaca simülatörleri yardımıyla düşünce izlerinin ara çözümlerini kapsayacak şekilde genişletiyoruz. Analizimiz, problem karmaşıklığı arttıkça doğru çözümlerin düşünce süreci içinde yanlış olanlara kıyasla sistematik olarak daha geç ortaya çıktığını göstererek, LRM’ler içindeki öz-düzeltme mekanizmalarına dair nicel bilgiler sunmaktadır.
- LRM’lerin, kendilerine sunulan açık algoritmalardan faydalanamamaları ve bulmaca türleri arasında tutarsız muhakeme sergilemeleri de dahil olmak üzere, kesin hesaplama (exact computation) yapma yeteneklerindeki şaşırtıcı sınırlılıkları ortaya çıkarıyoruz.
Alakalı Çalışmalar
Dil Modellerinde Muhakeme. Büyük Dil Modelleri (LLM’ler), devasa miktarlarda eğitim verisi kullanarak çok sayıda maliyetli eğitim aşamasından geçer. Bu LLM’ler, güçlü sıkıştırma yetenekleriyle birlikte umut verici bir dil anlayışı sergileseler de, zeka ve muhakeme kabiliyetleri bilimsel tartışmaların merkezinde yer alan kritik bir konu olmayı sürdürmektedir [7, 8]. LLM’lerin önceki nesilleri [9, 10, 11], muhakeme odaklı kıyaslamalarda (benchmarks) zayıf bir performans göstermiştir [12, 13, 14, 6]. Bu eksiklikleri gidermek amacıyla, ortak teması hem eğitim verisini hem de çıkarım (test) anındaki hesaplamayı “ölçeklendirmek” olan çeşitli yaklaşımlar araştırılmıştır. Örneğin, nihai cevaptan önce bir Düşünce Zinciri (Chain of Thought — CoT) [15, 16, 17, 18] oluşturmanın ve öz-doğrulama (self-verification) [19, 20, 21] mekanizmalarını dahil etmenin model performansını artırdığı gösterilmiştir. Ancak, yüksek kaliteli ve ölçeklenebilir CoT verisi elde etmek, bu verinin kıtlığı nedeniyle oldukça maliyetlidir. Bir diğer araştırma alanı ise, gözetimli öğrenme veya pekiştirmeli öğrenme (reinforcement learning) yoluyla modellere daha etkili düşünmeyi öğreterek gözetimli veri eksikliğini telafi etmeye odaklanmaktadır [22, 23, 24, 25, 26, 27]. Bu geliştirmelerin dikkate değer bir açık kaynak örneği, doğrulanabilir ödüllerle (verifiable rewards) pekiştirmeli öğrenme uygulamanın model performansını önemli ölçüde artırarak OpenAI’nin o1'i [2] gibi kapalı kaynaklı modellerin seviyesine ulaştığını gösteren Deepseek-R1'dir [3]. Bu gelişmeler, Gemini flash thinking [5], Claude 3.7 Sonnet thinking [4] gibi Büyük Muhakeme Modelleri (LRM’ler) olarak anılan yeni nesil dil modellerini ortaya çıkarmıştır.
Büyük Muhakeme Modellerini Anlamak. Yakın tarihli çalışmalar, muhakeme davranışının çeşitli yönlerini incelemiştir: Büyük Muhakeme Modelleri, düşünce izleri ile nihai cevap arasındaki tutarsızlıklar [28, 29] gibi beliren davranışlar (emergent behaviors) ve araştırmacıların “aşırı düşünme olgusu” (overthinking phenomenon) [30, 31, 32, 33] olarak adlandırdığı verimlilik sorunları göstermiştir. Bu olguda modeller, çözümü bulduktan sonra bile fazlasıyla detaylı ve gereksiz çıktılar üreterek önemli bir çıkarım (inference) hesaplama yükü oluşturmaktadır. Bu çalışmada biz, modelin görev karmaşıklığına göre ne kadar düşündüğünü sistematik olarak analiz ediyoruz. Yakın zamanda Ballon vd. [34], yeni LRM’lerde matematik problemlerinde düşünme arttıkça doğruluğun genellikle düştüğünü göstermiştir. Bunun aksine biz, kontrollü bulmaca ortamlarında zorluk belirli bir seviyeyi geçtiğinde modelin daha az düşünmeye başladığını ve düşünme ile görev karmaşıklığı arasındaki ters korelasyonun yalnızca belirli bir eşiğe kadar geçerli olduğunu gözlemlemekteyiz. Yue vd. [35], pekiştirmeli öğrenmenin gerçekten yeni muhakeme örüntüleri ortaya çıkarıp çıkarmadığını sorgulamış ve muhakeme yapan ile yapmayan modellerin pass@k başarılarının aynı noktada birleştiğini göstermiştir. Biz de MATH-500 veri setinde muhakeme yapan ve yapmayan modellerin pass@k başarılarının birbirine yakın olduğunu gözlemlesek de, bulmacaların orta ve yüksek karmaşıklık seviyelerinde, yaygın değerlendirmelerde kullanılan yerleşik matematik kıyaslamalarında kolayca gözlemlenemeyen farklı örüntüler tespit ettik.
Kontrol Edilebilir Değerlendirme Ortamları. Dil modellerinin muhakeme yeteneklerini değerlendirmek için matematik problemlerine odaklanan önceki çalışmaların aksine, bu çalışma kontrol edilebilir bulmaca ortamları sunmaktadır. Bu ortamlar, tutarlı mantıksal süreçleri korurken problem karmaşıklığının hassas bir şekilde ayarlanmasına olanak tanıyarak muhakeme örüntülerinin ve sınırlılıklarının daha titiz bir şekilde analiz edilmesini sağlar. Kontrol edilebilir ortamlar literatürde nadir değildir [12, 36, 37]. Ancak, öncelikli amacımız yeni bir kıyaslama (benchmark) önermek değil; bunun yerine bu kıyaslamaları, dil modellerinin muhakeme yeteneklerini anlamak amacıyla deneyler tasarlamak için birer araç olarak kullanıyoruz. Konuyla yakından ilişkili bir çalışmada Valmeekam vd. [38], o1-modellerinin önceki modellere kıyasla önemli performans artışları gösterdiğini ortaya koymuştur. Çalışmamız, düşünen/düşünmeyen model çiftlerini (örn. DeepSeek-R1/V3, Claude 3.7 Sonnet düşünen/düşünmeyen) incelemek gibi ek bilgiler sunmaktadır. Ayrıca, LRM’lerin muhakeme izlerini daha derinlemesine inceleyerek çeşitli karmaşıklık seviyelerinde farklı davranışlar ortaya çıkarıyoruz.
Genel olarak, son dönem LRM’lerden elde edilen umut verici sonuçlar kritik bir soruyu gündeme getirmektedir: LLM’lerin daha önce rapor edilen sınırlılıkları ne ölçüde aşıldı? Bu çalışmada, bu LRM’lerin sadece performansını ölçmenin ötesine geçiyoruz. Bu LRM’lerin değişen karmaşıklıktaki problemlerle ne kadar iyi başa çıktığını analiz ediyor ve muhakeme süreçlerinin özelliklerini inceliyoruz.
Matematik ve Puzzle Ortamları
Günümüzde, pekiştirmeli öğrenme (PÖ) tabanlı düşünen modellerde gözlemlenen performans artışlarının, yerleşik matematiksel kıyaslama (benchmark) verilerine daha fazla maruz kalmalarından mı, düşünme belirteçlerine (thinking tokens) ayrılan önemli ölçüde daha fazla çıkarım hesaplama gücünden mi, yoksa PÖ tabanlı eğitimle geliştirilen muhakeme yeteneklerinden mi kaynaklandığı net değildir. Yakın zamanda yapılan çalışmalar [35, 39], PÖ tabanlı düşünen modellerin üst sınır yeteneklerini (pass@k) düşünmeyen standart Büyük Dil Modeli (BDM) muadilleriyle karşılaştırarak bu soruyu yerleşik matematik kıyaslamaları üzerinden araştırmıştır. Bu çalışmalar, eşdeğer çıkarım belirteçi bütçeleri altında, düşünmeyen BDM’lerin zamanla MATH500 [40] ve AIME24 [41] gibi kıyaslamalarda düşünen modellerle kıyaslanabilir bir performansa ulaşabildiğini göstermiştir. Biz de benzer şekilde, Claude-3.7-Sonnet (düşünen ve düşünmeyen versiyonlarıyla) ve DeepSeek (R1 ve V3) gibi öncü Büyük Muhakeme Modelleri (BMM) üzerinde kendi karşılaştırmalı analizimizi gerçekleştirdik. Sonuçlarımız (Bkz. Şekil 2), MATH500 veri setinde, aynı çıkarım belirteçi bütçesi sağlandığında düşünen modellerin pass@k performansının düşünmeyen muadilleriyle kıyaslanabilir olduğunu doğrulamaktadır. Ancak, bu performans farkının AIME24 kıyaslamasında açıldığını ve AIME25'te daha da arttığını gözlemledik.
Açılan bu fark, yorumsal bir zorluk ortaya çıkarmaktadır. Bu durum iki şekilde açıklanabilir: (1) artan karmaşıklığın daha sofistike muhakeme süreçleri gerektirmesi ve bu sayede daha karmaşık problemlerde düşünen modellerin gerçek avantajlarını ortaya çıkarması veya (2) daha yeni kıyaslamalarda (özellikle AIME25'te) veri sızıntısının (data contamination) daha az olması. İlginç bir şekilde, insanların AIME25'teki performansı AIME24'ten daha yüksekti [42, 43], bu da AIME25'in daha az karmaşık olabileceğini düşündürmektedir. Buna rağmen modeller AIME25'te AIME24'e göre daha düşük performans sergilemektedir; bu durum, öncü BMM’lerin eğitimi sırasında veri sızıntısı yaşanmış olabileceğine işaret etmektedir. Bu temellendirilememiş gözlemler ve matematiksel kıyaslamaların problem karmaşıklığının kontrollü bir şekilde değiştirilmesine olanak tanımaması nedeniyle, daha hassas ve sistematik deneyler yapmayı mümkün kılan bulmaca ortamlarına yöneldik.
Bulmaca Ortamları
BMM’lerin muhakeme yeteneğini; kompozisyonel derinlik, planlama karmaşıklığı ve dağılımsal düzenlemeler gibi farklı boyutları kapsayan dört adet kontrol edilebilir bulmaca üzerinde değerlendiriyoruz. Bu bulmacalar aşağıda tanımlanmış ve Şekil 3'te gösterilmiştir.
Hanoi Kulesi, üç çubuk ve n adet farklı boyutta diskten oluşan bir bulmacadır. Diskler ilk çubuğa büyükten küçüğe (en büyük altta olacak şekilde) dizilmiştir. Amaç, tüm diskleri birinci çubuktan üçüncü çubuğa aktarmaktır. Geçerli hamleler şunlardır: her seferinde sadece bir disk hareket ettirmek, sadece bir çubuğun en üstündeki diski almak ve hiçbir zaman daha büyük bir diski daha küçük bir diskin üzerine koymamak. Bu görevin zorluğu, başlangıçtaki disk sayısı ile kontrol edilebilir, çünkü n disk için gereken minimum hamle sayısı 2ⁿ − 1'dir. Ancak bu çalışmada, nihai çözümün optimalliğini değerlendirmiyor, yalnızca her hamlenin doğruluğunu ve hedef duruma ulaşılıp ulaşılmadığını ölçüyoruz.
Dama Atlama (Checker Jumping), kırmızı pullar, mavi pullar ve tek bir boş alandan oluşan tek boyutlu bir bulmacadır. Amaç, tüm kırmızı ve mavi pulların yerlerini değiştirerek başlangıçtaki dizilimi tersine çevirmektir. Geçerli hamleler, bir pulu bitişikteki boş bir alana kaydırmak veya karşı renkten tek bir pulun üzerinden atlayarak boş bir alana inmektir. Bulmaca sürecinde hiçbir pul geriye doğru hareket edemez. Bu görevin karmaşıklığı pul sayısıyla kontrol edilebilir: 2n pul ile gereken minimum hamle sayısı (n + 1)² − 1 olacaktır.
Nehir Geçme (River Crossing), n adet “aktör” ve onlara karşılık gelen n adet “ajanın” bir tekne kullanarak nehri geçmesini gerektiren bir kısıt karşılama ve planlama bulmacasıdır. Amaç, toplam 2n kişiyi nehrin sol kıyısından sağ kıyısına taşımaktır. Tekne en fazla k kişi taşıyabilir ve boş olarak hareket edemez. Bir aktörün, kendi ajanı yanında olmadan başka bir ajanın yanında bulunması geçersiz bir durum oluşturur, çünkü her ajan kendi “müşterisini” rakip ajanlardan korumak zorundadır. Bu görevin karmaşıklığı da mevcut aktör/ajan çiftlerinin sayısıyla kontrol edilebilir. n = 2 ve n = 3 çift için k = 2 tekne kapasitesi, daha fazla sayıda çift için ise k = 3 kapasitesi kullanılmıştır.
Blokların Dünyası (Blocks World), blokların başlangıçtaki bir dizilimden belirli bir hedef dizilime yeniden düzenlenmesini gerektiren bir blok dizme bulmacasıdır. Amaç, bu dönüşüm için gereken minimum hamle sayısını bulmaktır. Geçerli hamleler, herhangi bir yığının en üstündeki blokla sınırlıdır; bu blok ya boş bir yığına ya da başka bir bloğun üzerine yerleştirilebilir. Bu görevin karmaşıklığı, mevcut blokların sayısıyla kontrol edilebilir.
Deneyler ve Sonuçlar
Deneylerimizin çoğu, muhakeme modelleri ve onların düşünmeyen muadilleri olan Claude 3.7 Sonnet (düşünen/düşünmeyen) ve DeepSeek-R1/V3 gibi modeller üzerinde yürütülmüştür. Bu modelleri seçmemizin nedeni, OpenAI’nin o-serisi gibi modellerin aksine, düşünme belirteçlerine (thinking tokens) erişim imkânı sunmalarıdır. Yalnızca nihai doğruluğa odaklanan deneyler için o-serisi modellerin sonuçlarını da raporluyoruz. Claude 3.7 Sonnet modelleri için maksimum belirteç bütçesine (64k) izin veriyoruz. Benzer şekilde, yerel sunuculardaki DeepSeek-R1/V3 modelleri için de maksimum uzunluğun 64k belirtece kadar çıkmasına olanak tanıyoruz. Her bir bulmaca örneği (instance) için 25 örnek (sample) oluşturduk ve her modelin bu örnekler üzerindeki ortalama performansını raporladık. Deneysel kurulumumuz ve sonuçlarımızın kapsamlı detayları Ek’te sunulmuştur.
Karmaşıklık Muhakemeyi Nasıl Etkiler?
Şekil 2'deki gözlemlerden yola çıkarak, problem karmaşıklığının muhakeme davranışı üzerindeki etkisini sistematik olarak incelemek amacıyla, kontrollü bulmaca ortamlarımızda düşünen ve düşünmeyen model çiftlerini karşılaştıran deneyler gerçekleştirdik. Analizimiz, aynı model omurgasına sahip eşleştirilmiş BDM çiftlerine, özellikle de Claude-3.7-Sonnet (düşünen ve düşünmeyen versiyonları) ve DeepSeek (R1 ve V3) üzerine odaklanmıştır. Her bulmacada, problem boyutunu (N) (disk sayısı, pul sayısı, blok sayısı veya nehri geçen eleman sayısı) değiştirerek karmaşıklığı çeşitlendirdik.
Şekil 4, tüm bulmaca ortamlarında her iki model türünün doğruluğunu problem karmaşıklığının bir fonksiyonu olarak sunmaktadır. Bunu tamamlayıcı olarak Şekil 5, (tüm bulmacaların ortalaması alınarak) eşdeğer çıkarım belirteci hesaplama gücü altında bu model çiftlerinin üst sınır performans yeteneklerini (pass@k) göstermekte ve matematiksel kıyaslamalardan (Şekil 2) elde edilen önceki analizleri kontrollü bulmaca ortamlarına genişletmektedir. Bu iki şekilden elde edilen sonuçlar, matematikteki gözlemlerin aksine, bu modellerin davranışlarında karmaşıklığa göre üç farklı rejim olduğunu göstermektedir.
Birinci rejimde, problem karmaşıklığı düşüktür ve düşünmeyen modellerin, daha az belirteç kullanarak verimli bir çıkarımla düşünen modellere kıyasla benzer ve hatta daha iyi performans elde edebildiğini gözlemliyoruz. İkinci rejimde, yani orta karmaşıklıkta, uzun düşünce zinciri (chain-of-thought) oluşturabilen muhakeme modellerinin avantajı ortaya çıkmaya başlar ve model çiftleri arasındaki performans farkı artar. En ilginç olanı, problem karmaşıklığının daha yüksek olduğu ve her iki modelin performansının sıfıra çöktüğü üçüncü rejimdir. Sonuçlar, düşünen modeller bu çöküşü geciktirse de, nihayetinde onların da düşünmeyen muadilleriyle aynı temel sınırlamalarla karşılaştığını göstermektedir.
Daha sonra, düşünme belirteçleriyle donatılmış farklı uzmanlaşmış muhakeme modellerinin artan problem karmaşıklığına nasıl tepki verdiğini inceliyoruz. Deneylerimiz, en son teknoloji beş düşünen modeli değerlendirmektedir: o3-mini (orta ve yüksek konfigürasyonlar), DeepSeek-R1, DeepSeek-R1-Qwen-32B ve Claude-3.7-Sonnet (düşünen). Şekil 6, bu modellerin performansını doğruluk (üstte) ve düşünme belirteci kullanımı (altta) açısından farklı karmaşıklık seviyelerinde göstermektedir.
Sonuçlar, tüm muhakeme modellerinin karmaşıklığa göre benzer bir örüntü sergilediğini göstermektedir: Problem karmaşıklığı arttıkça doğruluk giderek düşer ve modele özgü bir karmaşıklık eşiğinin ötesinde tamamen çöker (sıfır doğruluk). Çıkarım için kullanılan düşünme belirtecinin analizi de bu modellerin öğrendiği ilginç bir örüntüyü ortaya koymaktadır. Muhakeme modellerinin başlangıçta düşünme belirtecini problem karmaşıklığıyla orantılı olarak artırdığını gözlemliyoruz. Ancak, doğruluklarının çöküş noktasıyla yakından örtüşen kritik bir eşiğe yaklaştıklarında, modeller, artan problem zorluğuna rağmen sezgisel olmayan bir şekilde muhakeme çabalarını azaltmaya başlar. Bu olgu en çok o3-mini varyantlarında belirginken, Claude-3.7-Sonnet (düşünen) modelinde daha az şiddetlidir. Dikkat çekici bir şekilde, bu modeller, üretim uzunluk limitlerinin oldukça altında çalışmalarına ve bol miktarda çıkarım bütçesine sahip olmalarına rağmen, problemler karmaşıklaştıkça düşünme aşamasında ek çıkarım hesaplama gücünden yararlanamamaktadır. Bu davranış, mevcut muhakeme modellerinin düşünme yeteneklerinde problem karmaşıklığına bağlı temel bir ölçeklenme sınırlaması olduğunu göstermektedir.
Muhakeme Modellerinin Düşüncelerinin İçinde Ne Oluyor?
Muhakeme modellerinin düşünme süreçlerine dair daha derin bir anlayış kazanmak için, muhakeme izleri (reasoning traces) üzerinde ince taneli bir analiz yürüttük. Şekil 1'de gösterildiği gibi, bulmaca ortamları üzerine kurduğumuz düzenek, nihai cevabın ötesine bakmamıza ve bu modeller tarafından üretilen muhakeme izleri (“düşünceler”) hakkında daha detaylı bilgi edinmemize olanak tanır. Bir modelin düşünceleri içinde keşfedilen ara çözümleri, bulmaca simülatörleri yardımıyla çıkarıp analiz ediyoruz. Araştırmamız, bu ara çözümlerin örüntülerini ve özelliklerini, muhakeme sürecindeki sıralı konumlarına göre doğruluklarını ve bu örüntülerin artan problem karmaşıklığıyla nasıl evrildiğini incelemektedir. Bu analiz için, bulmaca setimiz genelinde Claude-3.7-Sonnet-Thinking tarafından üretilen muhakeme izlerine odaklanıyoruz. İzler içinde tespit edilen her ara çözüm için şunları kaydettik: (1) muhakeme izi içindeki göreli konumu (toplam düşünce uzunluğuna göre normalleştirilmiş), (2) bulmaca simülatörlerimiz tarafından doğrulanan geçerliliği ve (3) ilgili problemin karmaşıklığı. Bu, muhakeme süreci boyunca çözüm gelişiminin ilerleyişini ve doğruluğunu karakterize etmemizi sağlar.
Şekil 7a, tüm bulmaca ortamlarında düşünceler içindeki ara çözümlerin konumu, doğrulukları ve problem karmaşıklığı arasındaki ilişkiyi göstermektedir. Muhakeme izlerinden yaptığımız analiz, yukarıda tartışılan üç karmaşıklık rejimini de bir kez daha doğrulamaktadır. Daha basit problemler için, muhakeme modelleri genellikle düşüncelerinin erken bir aşamasında doğru çözümü bulur, ancak daha sonra yanlış çözümleri keşfetmeye devam eder. Yanlış çözümlerin (kırmızı) dağılımının, doğru çözümlere (yeşil) kıyasla düşüncenin sonuna doğru daha yukarı kaydığına dikkat edin. Literatürde “aşırı düşünme” (overthinking) olarak adlandırılan bu olgu, hesaplama gücünün israf edilmesine yol açar. Problemler orta derecede karmaşıklaştıkça bu eğilim tersine döner: modeller önce yanlış çözümleri keşfeder ve çoğunlukla düşüncenin ilerleyen kısımlarında doğru olanlara ulaşır. Bu kez yanlış çözümlerin (kırmızı) dağılımı, doğru olanlara (yeşil) göre daha aşağı kaymıştır. Son olarak, daha yüksek karmaşıklığa sahip problemler için çöküş ortaya çıkar, yani model düşünce içinde herhangi bir doğru çözüm üretemez.
Şekil 7b, Hanoi Kulesi ortamında düşüncelerin sıralı segmentleri (bölmeleri) içindeki çözüm doğruluğunun tamamlayıcı bir analizini sunmaktadır. Daha basit problemler (daha küçük N) için, düşünme ilerledikçe çözüm doğruluğunun azalma veya salınım yapma eğiliminde olduğu gözlemlenebilir, bu da aşırı düşünme olgusuna dair ek kanıtlar sunar. Ancak bu eğilim, daha karmaşık problemler için değişir; burada çözüm doğruluğu, düşünme ilerledikçe belirli bir eşiğe kadar artar. Bu karmaşıklık eşiğinin ötesinde, “çöküş modunda” doğruluk sıfırdır.
Açık Sorular: Muhakeme Modellerinin Şaşırtıcı Davranışları
Bu bölümde, muhakeme modellerinin kesin problem çözme adımlarını uygulama konusundaki sınırlılıklarına ilişkin şaşırtıcı sonuçları ve modellerin hamle sayısına bağlı olarak farklı davranışlar sergilediğini sunuyoruz.
Şekil 8a ve 8b’de gösterildiği gibi, Hanoi Kulesi ortamında, istemde (prompt) algoritmayı sunsak bile — yani modelin yalnızca belirtilen adımları uygulaması gerekse bile — performansın iyileşmediğini ve gözlemlenen çöküşün yine yaklaşık olarak aynı noktada meydana geldiğini gördük. Bu durum dikkat çekicidir, çünkü bir çözüm bulmak ve tasarlamak, yalnızca verilen bir algoritmayı uygulamaktan çok daha fazla hesaplama (örneğin, arama ve doğrulama için) gerektirmelidir. Bu, muhakeme modellerinin doğrulama ve bir problemi çözmek için mantıksal adımları takip etme konusundaki sınırlılıklarını daha da vurgulamakta ve bu tür modellerin sembolik manipülasyon yeteneklerini anlamak için daha fazla araştırma yapılması gerektiğini düşündürmektedir [44, 6].
Ayrıca, Şekil 8c ve 8d’de Claude 3.7 Sonnet düşünen modelinden çok farklı bir davranış gözlemliyoruz. Hanoi Kulesi ortamında, modelin önerdiği çözümdeki ilk hatası genellikle çok daha sonra, örneğin (N=10) için 100. hamle civarında ortaya çıkarken; Nehir Geçme ortamında model yalnızca 4. hamleye kadar geçerli bir çözüm üretebilmektedir. Bu modelin, 31 hamle gerektiren Hanoi Kulesi’ni (N=5) çözerken neredeyse kusursuz bir doğruluk elde etmesine rağmen, 11 hamlelik bir çözümü olan Nehir Geçme bulmacasını (N=3) çözemediğini belirtmek gerekir. Bu durum, muhtemelen internette N>2 olan Nehir Geçme örneklerinin nadir olduğunu ve dolayısıyla BMM’lerin eğitim sırasında bu tür örneklerle sık karşılaşmamış veya bunları ezberlememiş olabileceğini düşündürmektedir.
Sonuç
Bu makalede, en gelişmiş Büyük Muhakeme Modelleri’ni (LRM’ler), kontrol edilebilir bulmaca ortamları kullanarak problem karmaşıklığı merceğinden sistematik bir şekilde inceledik. Bulgularımız, mevcut modellerdeki temel sınırlılıkları ortaya koymaktadır: Gelişmiş öz-düşünüm (self-reflection) mekanizmalarına rağmen, bu modeller belirli karmaşıklık eşiklerinin ötesinde genelleştirilebilir muhakeme yetenekleri geliştirmekte başarısız olmaktadır. Üç farklı muhakeme rejimi tespit ettik: düşük karmaşıklıkta standart LLM’ler LRM’lerden daha iyi performans gösterirken, orta karmaşıklıkta LRM’ler üstünlük sağlamakta, yüksek karmaşıklıkta ise her ikisi de çökmektedir. Özellikle endişe verici olan, problemler kritik karmaşıklığa yaklaştıkça muhakeme çabasında gözlemlenen ve sezgilere aykırı (counterintuitive) olan azalmadır; bu durum LRM’lerde doğuştan gelen bir hesaplama ölçeklenme sınırı olduğunu düşündürmektedir. Muhakeme izlerine yönelik detaylı analizimiz, basit problemlerdeki verimsiz “aşırı düşünmeden” (overthinking) karmaşık problemlerdeki tamamen başarısızlığa kadar uzanan, karmaşıklığa bağlı muhakeme örüntülerini daha da açığa çıkarmıştır. Bu içgörüler, LRM yetenekleri hakkındaki yaygın varsayımlara meydan okumakta ve mevcut yaklaşımların genelleştirilebilir muhakemeye ulaşma yolunda temel engellerle karşılaşıyor olabileceğini göstermektedir.
Son olarak, LRM’ler üzerinde gelecekteki çalışmalar için birkaç açık soruya yol açan bazı şaşırtıcı sonuçlar sunduk. En dikkat çekici olanı, modellerin kesin hesaplama (exact computation) yapmadaki sınırlılıklarını gözlemlememizdi; örneğin, Hanoi Kulesi’nin çözüm algoritmasını modellere sunduğumuzda dahi bu bulmacadaki performansları artmadı. Dahası, modellerin ilk hatalı hamlesini araştırmak şaşırtıcı davranışlar ortaya çıkardı. Örneğin, Hanoi Kulesi’nde 100'e kadar doğru hamle yapabilirken, Nehri Geçme bulmacasında 5'ten fazla doğru hamle üretemediler. Sonuçlarımızın, bu sistemlerin muhakeme yeteneklerine yönelik gelecekteki araştırmalara zemin hazırlayabileceğine inanıyoruz.
Sınırlamalar
Çalışmamızın bazı sınırlılıkları olduğunu kabul ediyoruz. Bulmaca ortamlarımız, problem karmaşıklığı üzerinde hassas kontrol ile kontrollü deneylere olanak tanısa da, bunlar muhakeme görevlerinin yalnızca dar bir kesitini temsil etmekte ve gerçek dünyadaki veya bilgi-yoğun muhakeme problemlerinin çeşitliliğini tam olarak yansıtmayabilir. Deneylerimizin çoğunun, kapalı kaynaklı en gelişmiş LRM’lere kara kutu (black-box) API erişimine dayanması dikkat çekicidir; bu durum, modellerin içsel durumlarını veya mimari bileşenlerini analiz etme yeteneğimizi kısıtlamaktadır. Ayrıca, deterministik bulmaca simülatörlerinin kullanılması, muhakemenin adım adım mükemmel bir şekilde doğrulanabileceği varsayımına dayanmaktadır. Ancak, daha az yapılandırılmış alanlarda bu tür kesin bir doğrulama mümkün olmayabilir, bu da bu analizin daha genelleştirilebilir diğer muhakeme türlerine aktarılabilirliğini sınırlar.
Kaynak
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar, (7 Jun 2025), The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity: