Pişmanlık Duymadan LoRA
“LoRA Without Regret” blog yazısının Türkçe çevirisidir.
Özet
Bu makale, büyük dil modellerini verimli bir şekilde eğitmek için kullanılan LoRA (Düşük Dereceli Adaptasyon) yönteminin, tam ince ayar (FullFT) ile performansını karşılaştırmaktadır. Araştırmanın temel amacı, LoRA’nın hangi koşullar altında FullFT kadar başarılı olabildiğini belirlemektir.
Makalenin Ana Bulguları ve Sonuçları:
- LoRA, FullFT Kadar Başarılı Olabilir: Doğru koşullar sağlandığında, LoRA tam ince ayar ile aynı performansı ve örnek verimliliğini yakalayabilir. Araştırmacılar bu durumu “pişmanlık duymadan LoRA” rejimi olarak adlandırmaktadır.
- LoRA’nın Uygulandığı Katmanlar Kritik Önem Taşıyor: LoRA’nın başarısı için en önemli faktörlerden biri, sadece dikkat (attention) katmanlarına değil, ağın tüm katmanlarına, özellikle de parametrelerin çoğunu barındıran MLP ve MoE katmanlarına uygulanmasıdır. Sadece dikkat katmanlarına uygulanan LoRA, önemli ölçüde daha düşük performans göstermektedir.
- Pekiştirmeli Öğrenmede (RL) Üstün Başarı: LoRA, pekiştirmeli öğrenme görevlerinde çok düşük derecelerde bile (örneğin derece=1) FullFT ile eşdeğer performans göstermektedir. Bunun nedeni, RL’nin doğası gereği bölüm başına daha az bilgi (bit) öğrenmesi ve bu nedenle yüksek kapasiteye ihtiyaç duymamasıdır.
- Optimal Öğrenme Oranı (Learning Rate): Pratik ve önemli bir bulgu olarak, LoRA için en uygun öğrenme oranının, FullFT için kullanılandan yaklaşık 10 kat daha yüksek olduğu tespit edilmiştir. Bu, hiperparametre ayarını kolaylaştıran bir kuraldır.
- Kapasite ve Yığın (Batch) Boyutu:
- LoRA, kapasitesinin (parametre sayısının) eğitildiği veri kümesindeki bilgiyi depolamaya yettiği sürece iyi performans gösterir.
- Bazı durumlarda LoRA, büyük yığın boyutlarına (batch size) FullFT’den daha duyarlı olabilir ve performansı düşebilir.
Özetle, makale, LoRA’nın doğru uygulandığında (tüm katmanlara uygulanması ve uygun öğrenme oranı seçimi gibi) tam ince ayara güçlü ve verimli bir alternatif olduğunu göstermektedir. Özellikle pekiştirmeli öğrenme gibi daha az kapasite gerektiren görevlerde son derece etkilidir.
Giriş
Günümüzün önde gelen dil modelleri, on trilyonlarca token üzerinde önceden eğitilmiş, bir trilyondan fazla parametre içermektedir. Temel model performansı ölçekle birlikte artmaya devam ediyor, çünkü bu trilyonlarca parametre, yazılı insan bilgisindeki tüm kalıpları öğrenmek ve temsil etmek için gereklidir.
Buna karşılık, eğitim sonrası süreç daha küçük veri kümelerini içerir ve genellikle daha dar bilgi alanlarına ve davranış aralıklarına odaklanır. Bir gigabitlik veya megabitlik eğitim verisinden gelen güncellemeleri temsil etmek için bir terabitlik ağırlıkları kullanmak israf gibi görünmektedir. Bu sezgi, büyük bir ağı çok daha küçük bir parametre kümesini güncelleyerek ayarlayan parametre verimli ince ayarı (PEFT) motive etmiştir.
Önde gelen PEFT yöntemi, düşük dereceli adaptasyon veya LoRA’dır. LoRA (Low Rank Adaptation), orijinal modeldeki her bir ağırlık matrisi W’yu, değiştirilmiş bir sürüm olan W′=W+γBA ile değiştirir. Burada B ve A, birlikte W’dan çok daha az parametreye sahip matrislerdir ve γ sabit bir ölçeklendirme faktörüdür. Esasen LoRA, ince ayar tarafından sağlanan güncellemelerin düşük boyutlu bir temsilini oluşturur.
LoRA, eğitim sonrası maliyet ve hız açısından avantajlar sunabilir ve ayrıca tam ince ayara (bundan sonra FullFT) tercih edilmesinin birkaç operasyonel nedeni de vardır:
- Çok kullanıcılı sunum. LoRA, orijinal ağırlıkları değiştirmeden bir adaptör (yani A ve B matrisleri) eğittiği için, tek bir çıkarım sunucusu bellekte birçok adaptör (farklı model versiyonları) tutabilir ve yığınlanmış bir şekilde aynı anda bunlardan örnekleme yapabilir. Punica: Multi-Tenant LoRA Serving (Chen, Ye, et al, 2023) vLLM ve SGLang gibi modern çıkarım motorları bu özelliği uygular.
- Eğitim için yerleşim (layout) boyutu. Modelin tamamına ince ayar yapıldığında, optimize edici durumunun orijinal ağırlıklarla birlikte, genellikle daha yüksek hassasiyette saklanması gerekir. Sonuç olarak, FullFT genellikle aynı modelden örnekleme yapmaktan bir büyüklük mertebesi daha fazla hızlandırıcı ve dolayısıyla farklı bir yerleşim gerektirir. [Eğitim için, ağırlıkları saklamanın yanı sıra, genellikle tüm ağırlıklar için gradyanları ve optimize edici momentlerini de saklamamız gerekir; ayrıca, bu değişkenler genellikle çıkarım için ağırlıkları saklamak için kullanılan hassasiyetten (bfloat16 veya daha düşük) daha yüksek hassasiyette (float32) saklanır.] LoRA çok daha az ağırlık eğittiği ve çok daha az bellek kullandığı için, örnekleme için kullanılan düzenden sadece biraz daha büyük bir düzende eğitilebilir. Bu, eğitimi daha erişilebilir ve genellikle daha verimli hale getirir.
- Yükleme ve aktarım kolaylığı. Saklanacak daha az ağırlıkla, LoRA adaptörleri hızlı ve kolay bir şekilde kurulabilir veya makineler arasında aktarılabilir.
Bu nedenler, orijinal LoRA makalesinin 2021'de yayınlanmasından bu yana LoRA’nın artan popülaritesini açıklamak için yeterlidir. LoRA: Low-Rank Adaptation of Large Language Models (Hu et al, 2021) Ancak, literatür, LoRA’nın FullFT’ye kıyasla ne kadar iyi performans gösterdiği konusunda net değildir.
LoRA’nın ön eğitime benzeyen durumlarda, yani LoRA parametrelerinin depolama sınırlarını aşan çok büyük veri kümeleriyle, daha düşük performans gösterdiği konusunda fikir birliği vardır. LoRA Learns Less and Forgets Less (Biderman et al, 2024) Ancak eğitim sonrası süreçte tipik olan veri kümesi boyutları için LoRA, temel bilgileri depolamak için yeterli kapasiteye sahiptir. Ancak bu durum, örnek verimliliği ve hesaplama verimliliği konusunda hiçbir garanti vermez. Soru şudur: LoRA, tam ince ayarın performansına ulaşabilir mi ve eğer öyleyse, hangi koşullar altında?
Deneylerimizde, birkaç kilit detayı doğru yaptığımızda LoRA’nın FullFT ile aynı örnek verimliliğiyle öğrendiğini ve aynı nihai performansa ulaştığını görüyoruz.
LoRA için Önemli Olanlar
Bu makale, LoRA’nın FullFT verimliliğine hangi koşullar altında ulaştığını belirlemek için yürüttüğümüz bir dizi gözetimli ince ayar ve pekiştirmeli öğrenme deneyini kapsamaktadır. Bu amaçla, LoRA üzerine yapılan önceki deneylerden farklı olarak birkaç şey yaptık:
- Belirli veri kümeleri ve görevlere odaklanmak yerine, eğitim kümesi boyutu ile LoRA parametre sayısı arasındaki genel ilişkiyi araştırdık.
- Gözetimli öğrenmede, genellik hedefiyle, örnekleme tabanlı değerlendirmeler kullanmak yerine log kaybını ölçtük. Log kaybı ölçümü, eğitim adımları ve eğitim parametreleri aralıklarında temiz sonuçlar ve temiz ölçeklenme yasaları verir.
Şunları bulduk:
- Küçük ve orta ölçekli talimat ayarlama ve akıl yürütme veri kümeleri üzerinde yapılan gözetimli ince ayar için LoRA, tam ince ayar ile aynı performansı gösterir.
- LoRA kapasitesini aşan veri kümeleri için LoRA, FullFT’den daha düşük performans gösterir. Kaybın altına inemeyeceği belirgin bir tabana ulaşmak yerine LoRA, model kapasitesinin veri kümesi boyutuna olan ilişkisine bağlı olarak daha kötü bir eğitim verimliliğiyle sonuçlanır.
- Bazı senaryolarda LoRA, tam ince ayara göre büyük yığın boyutlarına daha az toleranslıdır. Yığın boyutu belirli bir noktanın ötesine geçtiğinde kayıpta daha büyük bir ceza öder. Bu ceza, LoRA derecesini artırarak azaltılamaz; bu, orijinal ağırlık matrisini optimize etmekten farklı eğitim dinamiklerine sahip olan matrislerin çarpımı parametrelendirmesinin bir özelliğidir.
- Küçük veri ortamlarında bile LoRA, tüm ağırlık matrislerine, özellikle de MLP ve MoE katmanlarına uygulandığında daha iyi performans gösterir. Yalnızca dikkat katmanlarına uygulanan LoRA, daha yüksek derece kullanarak eğitilebilir parametre sayısını eşitlesek bile daha düşük performans gösterir.
- LoRA, pekiştirmeli öğrenme için küçük derecelerle bile FullFT’ye eşdeğer performans gösterir. RL’nin (Pekiştirmeli Öğrenme) çok düşük kapasite gerektirdiğini bulduk; bu, bilgi-teorik argümanlara dayanarak beklediğimiz bir sonuçtu.
Ayrıca LoRA için kullanılan hiperparametrelerin tam ince ayara göre öğrenme oranı üzerindeki etkisini de inceledik. Başlatma ölçekleri (scales) ve çarpanlar (multipliers) gibi hiperparametrelerdeki bazı değişmezlikleri inceliyor ve 1/r ön çarpanının optimal öğrenme oranını (LR) dereceden yaklaşık olarak neden bağımsız kıldığını açıklıyoruz. Ayrıca LoRA için optimal LR’nin FullFT için optimal LR ile nasıl ilişkili olduğunu deneysel olarak gösteriyoruz.
Deneylerimizin sonucu, LoRA’nın veri kümesi boyutu ve LoRA parametreleri açısından FullFT’ye benzer performans gösterdiği bir “düşük pişmanlık rejimi”nin (low-regret regime) karakterizasyonudur. Bu rejimin çoğu eğitim sonrası senaryoyu kapsadığını bulduk, bu da birçok uygulamada verimli ince ayar kullanımının kapısını aralamaktadır.
Yöntemler ve Sonuçlar
Deneylerimizi, LoRA’nın FullFT’ye kıyasla göreceli performansını bir dizi koşulda ayrıntılı olarak ölçmek için tasarladık. İşte deneysel kurulumumuzun bazı detayları:
- LoRA derecesini 1 ile 512 arasında, üç büyüklük mertebesi boyunca değiştirdik ve bunları tam ince ayar ile karşılaştırdık.
- Optimal olmayan bir öğrenme oranının kullanılmasından kaynaklanabilecek potansiyel karıştırıcı faktörleri ortadan kaldırmak için, her bir deneysel koşul için öğrenme oranını (LR) taradık. Sabit bir öğrenme oranı programı kullandık (ısınma (warmup) veya soğuma (cooldown) yok).
- Deneylerimizde Llama 3 serisi modeller The Llama 3 Herd of Models (Dubey et al, 2024) ve bir uzmanlar karışımı (MoE) modeli de dahil olmak üzere Qwen3 modelleri Qwen3 Technical Report (Qwen Team, 2025) kullandık.
- Ana gözetimli öğrenme deneylerinde, sırasıyla talimat takibi ve akıl yürütmeye odaklanan Tulu3 Tulu 3: Pushing Frontiers in Open Language Model Post-Training (Ivison et al, 2024) ve OpenThoughts3 OpenThoughts: Data Recipes for Reasoning Models (Guha et al, 2025) veri kümelerini kullandık. Bu iki küme, kapsam, yapı ve uygulama açısından önemli ölçüde farklılık göstererek sonuçlarımızın genelliğini desteklemektedir.
- RL deneylerimizde, ödül olarak cevap doğruluğunu kullanarak matematiksel akıl yürütme görevlerini kullandık.
LoRA Derecesi
Tulu3 veri kümesi ve OpenThoughts3 veri kümelerinin bir alt kümesi üzerinde tek bir epoch (döngü) için eğitim yaptık. Her veri kümesi ve model boyutu için LoRA derecesi ve öğrenme oranı üzerinde tarama yaptık. Aşağıdaki grafiklerde, her bir derece için renkli bir çizgi çiziyoruz; bu çizgi, her eğitim adımında tüm öğrenme oranları üzerindeki noktasal minimumu alarak elde edilir:
FullFT ve yüksek dereceli LoRA’ların, adım sayısının logaritmasıyla doğrusal olarak azalan kayıpla benzer öğrenme eğrilerine sahip olduğunu görüyoruz. Orta ve düşük dereceli LoRA’lar, derece ile ilişkili bir adım eşiğinde minimum kayıplı öğrenme eğrilerinden sapıyor. Sezgisel olarak, adaptörün derece tarafından belirlenen kapasitesi tükendiğinde öğrenme yavaşlar.
Ardından, taramamızın her bir derece için en iyi öğrenme oranını kapsadığından emin olmak için kaybın LR ile nasıl değiştiğini çiziyoruz.
FullFT için optimal öğrenme oranının, yüksek dereceli LoRA’lardan 10 kat daha düşük olduğunu bulduk. [Örnekleme değerlendirmeleriyle yapılan bir deney için bkz. Biderman et al. (2024), Şekil S1, benzer bir 10 kat oran bulur.] Bu konuya daha sonra LoRA hiperparametreleri tartışmamızda geri döneceğiz.
Optimal LR, farklı derecelerdeki tüm LoRA çalışmaları için benzer görünüyor; bu bulgu için aşağıda teorik bir açıklama sunuyoruz. Ancak, derece=1 için optimal LR’nin daha yüksek dereceli LoRA’lardan daha düşük olmasıyla bir miktar derece bağımlılığı var gibi görünüyor. Optimal LR, derece=4 ile derece=512 arasında 2'den az bir faktörle değişiyor.
Yığın boyutu etkileri
Bazı durumlarda LoRA’nın büyük yığın boyutlarına FullFT’den daha az toleranslı olduğunu bulduk. Performans farkı, dereceden bağımsız olarak daha büyük yığın boyutlarıyla büyüyor. Bir sonraki deneyimiz için OpenThoughts3'ün 10.000 örneklik küçük bir alt kümesini kullandık.
Şekil 3'teki sol grafik, büyük yığın boyutlarında LoRA (kesikli çizgiler) ve FullFT (düz çizgi) öğrenme eğrileri arasında kalıcı bir fark gösteriyor. Fark, 32'lik daha küçük yığın boyutu için daha küçüktür ve zamanla azalır.
Sağdaki grafik, nihai kaybı yığın boyutunun bir fonksiyonu olarak çizmektedir. LoRA için kayıptaki farkın, daha büyük yığın boyutları için FullFT’den giderek daha fazla ayrıştığını görüyoruz.
Büyük yığınlardaki öğrenme farkı dereceye bağlı görünmüyor, daha çok LoRA’nın bir özelliği gibi duruyor. Muhtemel neden, matrislerin çarpımı parametrelendirmesinin (BA) bu veri kümesinde tam matristen (W) daha az elverişli optimizasyon dinamiklerine sahip olmasıdır. Ancak, hem LoRA hem de FullFT en iyi kayıplarına daha küçük yığın boyutlarında ulaşıyor, bu nedenle bu fark pratikte o kadar da önemli olmayabilir.
LoRA’nın Uygulandığı Katmanlar
LoRA’yı ağdaki farklı katmanlara uygulamanın etkilerini araştırdık. Hu ve diğerlerinin orijinal makalesi, LoRA’nın yalnızca dikkat matrislerine uygulanmasını önermişti ve sonraki birçok makale de bunu takip etti, ancak son zamanlardaki bir eğilim onu tüm katmanlara uygulama yönünde oldu. [Sonuçlarımıza benzer şekilde, QLoRA makalesi de LoRA’nın MLP veya MLP + dikkat’ten daha kötü performans gösterdiğini buldu, ancak onlar MLP + dikkat> MLP > dikkat bulurken, biz ilk ikisinin kabaca eşit olduğunu bulduk.] Gerçekten de, LoRA’yı tüm katmanlara, özellikle de MLP (MoE dahil) katmanlarına uyguladığımızda çok daha iyi sonuçlar elde ettik. Aslında, LoRA’yı dikkat matrislerine uygulamak, onu yalnızca MLP’lere uygulamanın ötesinde ek bir fayda göstermiyor. [Biderman et al. (2024), yalnızca dikkat katmanlarına uygulanan LoRA’nın yalnızca MLP üzerine ek bir fayda sağlamadığı benzer bir sonuç elde etti.]
Yalnızca dikkat katmanlarına uygulanan LoRA’nın düşük performansı, daha az parametreye sahip olmasıyla açıklanmıyor. Bu özel durumda, derece 256 olan yalnızca dikkat LoRA, derece 128 olan yalnızca MLP LoRA’dan daha düşük performans gösteriyor, her ikisi de yaklaşık olarak aynı sayıda parametreye sahip olmalarına rağmen. (Aşağıdaki tablodaki kalın sayılarla karşılaştırın.)
MoE deneyi için, her uzman üzerinde ayrı bir LoRA eğittik; her birinin derecesi toplam derecenin aktif uzman sayısına (Qwen3 MoE için 8'e eşit) bölünmesiyle elde edildi. Bu ölçeklendirme, LoRA parametrelerinin FullFT parametrelerine oranını MoE katmanları için diğer katmanlarla aynı tutar.
Farklı LoRA katmanlarını karşılaştıran benzer deneyleri iki ek ortamda yaptık: (1) OpenThoughts3 veri kümesinin küçük bir alt kümesinde derece=256 ile gözetimli öğrenme ve (2) MATH veri kümesinde pekiştirmeli öğrenme. Deneysel kurulumumuzu bir sonraki bölümde açıklıyoruz. Yalnızca dikkat katmanlarına uygulanan LoRA, bu ortamlarda da yalnızca MLP’ye uygulanan LoRA’dan (MLP + dikkat’e benzer performans gösteren) daha düşük performans gösterir.
Pekiştirmeli Öğrenme
Deneylerimizden elde edilen önemli bir bulgu, LoRA’nın pekiştirmeli öğrenme için politika gradyan algoritmalarını çalıştırırken, 1 gibi düşük derecelerle bile FullFT’nin öğrenme performansıyla tamamen eşleştiğidir.
Bu deneyler için, önem örneklemesi düzeltmesi olan temel bir politika gradyan algoritması kullandık; objective = ∑t plearner / psampler Advt. Birden fazla tamamlama örneği aldığımız ve grup başına ortalama ödülü çıkardığımız GRPO benzeri bir merkezleme şeması kullandık. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Shao et al, 2024)
Aşağıdaki Şekil 6, MATH Measuring Mathematical Problem Solving With the MATH Dataset (Hendrycks et al, 2021) ve GSM GSM8K: Training Verifiers to Solve Math Word Problems (Cobbe et al, 2021) veri kümelerinde, her biri için tipik hiperparametreler kullanılarak yapılan LR taramalarını göstermektedir. Qwen teknik raporlarında Qwen2.5 Technical Report (Qwen Team, 2024) açıklandığı gibi, Qwen2.5 ve Qwen3'ün matematik performanslarını artıran verilerle önceden eğitildiği bilindiğinden Llama-3.1–8B temel modelini kullandık, bu da yalnızca RL sırasında ne öğrenildiğini ölçmeyi zorlaştırıyor.
LoRA, daha geniş bir performanslı öğrenme oranı aralığı gösterir ve RL’nin gürültülülüğünün izin verdiği hassasiyet sınırları içinde en azından FullFT (siyah çizgi) ile aynı zirve performansa ulaşır.
Bu sonuç, bir bilgi-teorik argümanla öngörülmüştür. Gözetimli öğrenme, tartışmalı olarak bölüm başına O(token sayısı) bit sağlar. Buna karşılık, politika gradyan yöntemlerinde öğrenme, bölüm başına yalnızca O(1) bit sağlayan avantaj fonksiyonu tarafından yönlendirilir. Her bölüm binlerce token içerdiğinde, RL eğitimde token başına gözetimli öğrenmeden ~1000 kat daha az bilgi emer.
Deneylerimize dayanarak daha kesin sayılar kullanabiliriz. MATH örneğinde, problem başına 32 örnekle ~10.000 problem üzerinde eğitim yaptık. Her tamamlamanın tek bir bit bilgi sağladığını varsayarsak, tüm eğitim süreci yalnızca 320.000 bit emmelidir. Llama-3.1–8B için Derece-1 LoRA zaten 3 milyon parametreye sahiptir [Bunu, modeldeki tüm ağırlık matrisleri üzerinden derece*d_in (matris A için) ve derece·d_out (B için) toplayarak hesapladık.], bu sayının neredeyse 10 katı. Derece-1'de bile LoRA, eğitim sırasında sağlanan tüm bilgiyi emmek için fazlasıyla yeterli kapasiteye sahiptir.
Başka bir karşılaştırma noktası olarak, DeepSeek-R1-Zero 5.3 milyon bölüm üzerinde eğitildi [Eğitim 10.400 adım sürdü, her adım 32 benzersiz sorudan oluşuyordu, her soru 16 kez örneklendi], bu da 5.3 milyon bit bilgiye karşılık gelir. Bu, düşük dereceli bir LoRA’daki parametre sayısından daha azdır ve sonuçların LoRA ile tekrarlanabileceğini tahmin ediyoruz.
LoRA’nın akıl yürütme RL’sindeki etkinliğine dair bulgularımızın ek doğrulaması için, Qwen3–8b-base ile DeepMath veri kümesinde DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning (He et al, 2025) daha büyük ölçekli deneyler gerçekleştirdik, çünkü bu veri kümesi MATH veri kümesinden çok daha büyük ve genel olarak daha zor problemler içeriyor. Deneyleri hızlandırmak için, eğitim ve değerlendirme için örnekleri 8192 token uzunluğuyla sınırladık. Bu örnek uzunluğu geri izleme ve akıl yürütmeye izin verir, ancak daha uzun düşünce zincirine göre performansı sınırlar.
Her ayar için optimal öğrenme oranlarını seçtiğimizde, eğitimin farklı boyutlardaki LoRA’lar ve tam ince ayar için neredeyse aynı şekilde ilerlediğini gözlemliyoruz. Dahası, modelleri AIME 2024 ve AIME 2025'in tutulan problemleri üzerinde değerlendirdiğimizde benzer bulgular görüyoruz. Ayrıca, LoRA ve tam ince ayar çalışmalarından benzer niteliksel davranışlar gözlemliyoruz: her ikisi de geri izleme, öz doğrulama ve bağlam içi keşif gibi gelişmiş akıl yürütme davranışları geliştiriyor, bu da modelin CoT’lerinin uzamasında görülebilir.
LoRA Hiperparametrelerini Ayarlama
LoRA’nın benimsenmesinin önündeki engellerden biri, FullFT için optimize edilmiş olanlardan farklı olan optimal hiperparametreleri seçme zorunluluğudur. Bu bölümde, bu sorunun ilk bakışta göründüğü kadar göz korkutucu olmadığını gösteriyor ve hiperparametre seçimiyle ilgili bulgularımızı tartışıyoruz.
Optimal Öğrenme Oranı ve Derece
Hu ve diğerlerini takiben, LoRA için aşağıdaki parametrelendirmeyi ele alıyoruz:
W′ = W + (α/r)BA
Burada r LoRA derecesi, α LoRA ölçeklendirme faktörü ve A, B LoRA ağırlık matrisleridir (derece r olan). Bu makaledeki deneyler için, diğer uygulamalardaki standart uygulamayı takiben α=32 kullandık.
1/r ölçeklendirme faktörü, optimal öğrenme oranını dereceden yaklaşık olarak bağımsız kılar. Aslında, daha güçlü bir koşul geçerlidir. Öğrenme eğrisi, dereceden bağımsız olarak eğitimin başlangıcında tamamen aynıdır. Bu etki çarpıcıdır ve deneylerimizde farklı dereceler için öğrenme eğrilerinin yakınlığı, derece parametresinin göz ardı edilmesine neden olan bir hata olabileceğinden endişelenmemize neden oldu. Buradan, kısa bir eğitim rejiminde, optimal LR’nin de dereceden bağımsız olduğu sonucu çıkar. Ancak, yukarıda öğrenme oranı ve kayıp grafiklerimizde (Şekil 2) gösterdiğimiz gibi, optimal LR’nin daha uzun eğitim rejiminde bir miktar derece bağımlılığı vardır.
Bu sonucu, ilk eğitim güncellemesinden sonra LoRA matrisindeki beklenen güncellemeyi inceleyerek kısmen açıklayabiliriz. LoRA çarpımı BA’yı r adet derece-1 dış çarpımının toplamı olarak düşünebiliriz: BA = ∑i=1r bi aTi = ∑i=1r Δi, burada Δi = bi aTi olarak tanımlıyoruz. Burada, ∂Loss/∂Δi tüm i’ler için aynıdır; ancak ∂Loss/∂bi ve ∂Loss/∂ai gradyanları başlatmaya bağlı olacaktır (∂Loss/∂bi örneğin ai’ye bağlıdır). ai ve bi’nin başlatılması dereceye bağlı olmadığından, E[Δi]’nin tüm i’ler için aynı olduğu ve dereceye bağlı olmadığı sonucu çıkar. Eğitimin ilk adımında, bu terimlerin her birinden beklenen güncelleme eşittir ve dereceden bağımsızdır. Buradan, (1/r)∑i=1r Δi’nin aynı beklentiye sahip r terimin sadece bir örnek ortalaması olduğu sonucu çıkar, bu nedenle ortalamanın beklentisi, yani adaptör (1/r)BA’daki değişiklik, derece’ye bağlı değildir.
Parametrelendirme Değişmezlikleri
LoRA için potansiyel olarak uygulanabilecek dört hiperparametre vardır:
- α/r’de görünen α ölçek faktörü.
- Aşağı-projeksiyon matrisi A için öğrenme oranı, LRA.
- Yukarı-projeksiyon matrisi B için öğrenme oranı, LRB.
- Matris A’nın başlatma ölçeği, initA. Rastgele bir başlatma için bu, A’nın başlangıç elemanlarının standart sapmasıdır. Matris B sıfıra başlatıldığı için, initB’yi tanımlamaya gerek yoktur.
Dört farklı parametreyi ayarlamak zorunda kalmak bunaltıcı görünebilir. Ancak, eğitim dinamiklerindeki değişmezlikler, bunlardan ikisinin gereksiz olduğu ve öğrenme davranışının iki tanesi tarafından belirlendiği anlamına gelir. Bu değişmezliği, Adam ile ve ε=0 ile eğitim yaparken [Bu sonucu ε>0 için genişletebiliriz; bunu 1/q ile ölçeklendirmemiz gerekir çünkü gradyanlar o faktörle ölçeklenir.] optimizasyon sürecinin aşağıdaki iki parametreli dönüşüme karşı değişmez olduğunu belirterek gösteriyoruz.
p,q > 0 için:
- α → (1/pq)⋅α
- init_A → p⋅init_A
- LR_A → p⋅LR_A
- LR_B → q⋅LR_B
Dört serbestlik derecesinden ikisi öğrenme sürecini etkilemediği için, 2 boyutlu bir parametre uzayımız kalır. Bu 2D uzay için, doğrudan bir yoruma olanak tanıyan aşağıdaki gibi farklı tabanlar seçebiliriz:
- α⋅initA⋅LR_B. Bu, başlangıç güncellemelerinin ölçeğini veya eşdeğer olarak öğrenme eğrisinin başlangıç eğimini belirler. B sıfıra başlatıldığı için, LR_A ve A’daki başlangıç güncellemeleri önemsizdir.
- initA/LR_A. Adam, A’nın elemanlarını her adımda yaklaşık olarak LR_A kadar güncellediği için, bu zaman ölçeği parametresi A’yı başlangıç durumundan önemli ölçüde uzaklaştırmak için gereken adım sayısını belirler.
LoRA üzerine yapılan önceki çalışmalardan bazı önerileri bu taban açısından yeniden yorumlayabiliriz.
- LoRA+LoRA+: Efficient Low Rank Adaptation of Large Models (Hayou et al, 2024) A ve B üzerinde farklı LR’ler kullanılmasını önerir, B için daha yüksek bir oranla. Yukarıdaki tabanımız açısından ifade edildiğinde, LRB’yi artırmak, initA/LR_A’yı artırmaya eşdeğerdir, böylece A daha uzun bir zaman ölçeğinde değişir.
- Unsloth’s LoRA Hyperparameter Guide yüksek dereceli LoRA için daha yüksek α değerleri kullanılmasını önerir, örneğin 1/r ölçeklendirmesinden kaçınarak. Bu da initA/LR_A’yı artırmaya eşdeğerdir. α’yı artırdığımızda, aynı güncelleme boyutunu elde etmek için LR_A ve LR_B’nin telafi olarak düşürülmesi gerekir. Bu da sadece LR_A’yı init_A’ya göre daha küçük yapar.
Deneylerimizde, Huggingface peft kütüphanesinde PEFT: State-of-the-art Parameter-Efficient Fine-Tuning methods (Mangrulkar et al, 2022) kullanılan ve Hu ve diğerleri tarafından önerilen standart parametrelendirmeyi kullandık: A için 1/√din ölçeğinde düzgün bir dağılım, B için sıfır başlatma, her ikisi için aynı LR ve α=32. Deneylerimizde bu hiperparametreleri iyileştiremedik.
LoRA ve FullFT İçin Optimal Öğrenme Oranları
Deneylerimiz, LoRA için optimal LR’nin hem gözetimli öğrenme hem de pekiştirmeli öğrenme için aynı uygulamada FullFT için kullanılanın sürekli olarak 10 katı olduğunu gösterdi. Bu, performansın (kayıp veya ödül) öğrenme oranına karşı çizildiği her U şeklindeki grafikte ortaya çıkıyor. Bu gözlem, öğrenme hiperparametrelerini FullFT’den LoRA’ya aktarmayı daha basit hale getirmelidir.
Bu gözlem için henüz yeterli bir teorik açıklamamız yok. Bu sonucu, optimal LoRA LR’nin dereceye karşı değişmez olduğu ve tam dereceli LoRA’nın doğrudan FullFT ile karşılaştırılabilir olduğu gerçeğinden türetmeye çalışabiliriz. Bu analiz, modelin gizli boyutunun 2⋅α’ya bölünmesiyle bir LR oranı önerir, bu da optimal oranın temel modelden bağımsız olarak 10'da sabit olduğu ampirik sonucuyla eşleşmiyor.
Ampirik analizimiz için, Tulu3 veri kümesinde hem LoRA hem de FullFT için 14 farklı Llama ve Qwen modelinin LR taramasını gerçekleştirdik. Bu taramalardan, modelin gizli boyutuna ve Llama mı yoksa Qwen mi olduğuna dair bir göstergeye dayanarak optimal öğrenme oranını tahmin eden bir fonksiyon uydurduk. Kullanılan fonksiyonel form şuydu:
Burada:
- M_LoRA, LoRA kullanıldığında uygulanan bir çarpandır (FullFT ise 1).
- model_pow, her model kaynağı (Llama ve Qwen) için ayrı olarak hesaplanan bir üs ayarıdır.
- LoRA_pow, LoRA için ek bir üs ayarıdır.
- gizli boyut, modelin artık akışının boyutudur.
Tahmin edilen bir öğrenme oranını, taramamızdaki verilere dayanarak kaybı tahmin etmek için doğrusal enterpolasyon kullanarak puanladık ve parametreleri 14 problem üzerindeki tahmin edilen kaybı toplayarak derecelendirdik. Optimizasyonumuz, LoRA için FullFT’ye göre 9.8'lik bir çarpan buldu ve Qwen3 ve Llama modelleri için gizli_boyut’a farklı bir bağımlılık buldu, ancak LoRA LR’leri gizli_boyut’a FullFT LR’leriyle aynı bağımlılığa sahipti, yani optimizasyon LoRA_pow=0 buldu.
Kısa ve Uzun Süreli Çalışmalarda Öğrenme Oranları
LoRA’nın tipik başlatılması, etkili öğrenme oranında örtük bir değişim takvimi yaratır. Bu, kısa ve uzun eğitim çalışmaları arasında farklılıklara ve FullFT’ye kıyasla öğrenme eğrilerinin şeklinde bazı farklılıklara yol açar.
Eğitimin başlangıcında B sıfıra başlatılır. B çok küçükken, A’daki değişikliklerin orijinal ağ ağırlıklarına eklenen adaptör BA üzerinde ihmal edilebilir etkileri vardır. B büyüdükçe, A’daki güncellemeler ağ çıktıları üzerinde daha büyük bir etkiye sahip olmaya başlar ve etkili öğrenme oranı, B ölçek olarak A’ya yaklaştıkça eğitim boyunca artar. Tulu3 ve OpenThoughts veri kümesindeki tam eğitim çalışmalarının sonunda, B matrislerinin A matrislerinden daha büyük spektral normlara sahip olduğunu bulduk.
Bu, optimal LR’nin daha kısa eğitim çalışmaları için daha yüksek ayarlanması gerektiğini ima eder. Ön kanıtlar, kısa çalışmalar için FullFT’ye göre yaklaşık 15 katlık bir optimal çarpan öneriyor [Söylentiye dayalı kanıtlara göre, daha yüksek çarpan ~100 adım veya daha kısa sürede etkilidir.], daha uzun çalışmalar için bahsedilen 10 katlık çarpana yakınsıyor.
Tartışma
Ampirik sonuçlarımızın ötesine geçerek, hem araştırmacılar hem de geliştiriciler için ilgi çekici olabilecek LoRA performansı ve uygulanabilirliği ile ilgili bazı daha geniş değerlendirmeleri tartışmak istiyoruz.
Öncelikle, ana sonucumuzu, yani LoRA’nın tam ince ayara benzer performans gösterdiği iki koşulu daha derinlemesine inceleyelim:
- LoRA, ağın tüm katmanlarına, özellikle de parametrelerin çoğunu barındıran MLP/MoE katmanlarına uygulanır.
- LoRA, kapasite kısıtlı olmadığında iyi çalışır, yani eğitilebilir parametre sayısı, öğrenilecek bilgi miktarını aşar, bu da veri kümesi boyutu cinsinden tahmin edilebilir.
(1) karşılandığında, eğitimin en başında FullFT’ye benzer öğrenme dinamikleri elde ederiz. Ardından, (2)’ye göre, LoRA kapasite sınırlarına ulaşmaya başlayana kadar FullFT’ye benzemeye devam eder.
LoRA’ya Neden Tüm Katmanlarda İhtiyaç Duyulabilir?
Daha önce gösterdiğimiz gibi, LoRA’yı yalnızca dikkat katmanlarına koyarsak, çok küçük veri rejiminde bile daha yavaş öğrenme elde ederiz.
Olası bir açıklama, Malladi ve diğerlerini takiben, az miktarda ince ayar yaptığımızda ne olduğunu anlamak için bir yaklaşım olarak ampirik sinirsel teğet çekirdeğini (eNTK) düşünmekten gelebilir. A Kernel-Based View of Language Model Fine-Tuning (Malladi et al, 2022) eNTK, gradyanların iç çarpımlarına, özellikle gi = ∂/∂θ log p(tokeni|prefixi) gradyanlarına ve K(i,j) = gi⋅gj’ye dayanır. Sonuç olarak, en çok parametreye sahip katmanlar genellikle çekirdek üzerinde en fazla etkiye sahip olacaktır. Makale ayrıca, tüm katmanları eğittiğinizde LoRA için eNTK’nin tam ince ayar için olanla yaklaşık olarak aynı olduğunu belirtir. Yani LoRA eğitimi ≈ eNTK(LoRA) ≈ eNTK(FullFT) ≈ FullFT. eNTK(LoRA) ≈ eNTK(FullFT) yaklaşımı yalnızca LoRA’yı, iç çarpımları oluşturan parametrelerin çoğunu içeren katmanlara uyguladığımızda geçerlidir.
Gözetimli ve Pekiştirmeli Öğrenme İçin Ne Kadar Kapasite Gerekiyor?
Geçmiş çalışmalar Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws (Allen-Zhu and Li, 2024), sinir ağlarının parametre başına 2 bit depolayabildiğini göstermiştir. Bu sonuçlar, öğrenme hızına veya hesaplama verimliliğine değil, uzun eğitim sınırında emilen maksimum bilgi miktarına ilişkindir.
Parametre başına 2 bit sonucu, tam olarak belirli bir miktarda bilgi içerecek şekilde akıllıca oluşturulmuş sentetik veri kümelerine dayanıyordu. Belirli bir gerçekçi öğrenme problemi için gereken bilgi içeriğini tahmin etmek o kadar basit değildir. Klasik bir gözlem, log-kaybını en aza indirirken, eğitimin ilk epoch’u sırasında ölçülen toplam log-kaybının, veri kümesinin tanımlama uzunluğunun bir ölçümünü sağlamasıdır. Yani, veri kümesini ezberlemek için gereken bit sayısının bir üst sınırı. LLM veri kümeleri genellikle veri kümesine ve model boyutuna bağlı olarak token başına yaklaşık 1 bit (0.69 nats) kayba sahiptir.
Bu tahmin, veri kümesini mükemmel bir şekilde ezberlemek için gereken kapasiteyi ölçer, bu da test verilerindeki log-kaybını azaltan “genelleştirilebilir” öğrenme için gereken gerçek kapasiteyi olduğundan fazla tahmin eder. Gözetimli öğrenmenin kapasite gereksinimlerini ve bunların eğitilebilir parametre sayısıyla nasıl etkileşime girdiğini ölçmek, gelecekteki çalışmalar için açık bir sorudur.
RL için, politika gradyan algoritmalarının, bölümün sonunda tek bir ödül değeri olduğu göz önüne alındığında, bölüm başına kabaca 1 bit bilgi öğrendiğini iddia ettik. Bu, RL’nin temel bir özelliği değildir, çünkü diğer algoritmalar her bölümden makul olarak çok daha fazlasını öğrenebilir. Örneğin, model tabanlı RL algoritmaları, öğrenme ajanını gözlemleri tahmin etmesi ve bir dünya modeli oluşturması için eğitir, potansiyel olarak bölüm başına daha fazla bilgi çıkarır. Bölüm başına 1 bit iddiası yalnızca politika gradyan algoritmalarına dar bir şekilde uygulanabilir.
Bit sayma argümanını bilgi-teorik terimlerle keskinleştirebiliriz. Bir bölümü, bir yörünge τ ve son ödülden oluşan, bilinmeyen ödül fonksiyonu R hakkında bir miktar bilgi sağlayan bir mesaj (yani gürültülü bir kanal) olarak düşünün. Mevcut politika ve eğitim geçmişine koşullandıracağız ve politika gradyan tahmincisi ile R arasındaki karşılıklı bilgiye bakacağız. REINFORCE güncellemesi G=S⋅Adv’dir, S=∇log pθ(τ). S, geçmiş verildiğinde R’den bağımsızdır, bu nedenle tek R-bağımlı bileşen skaler avantajdır.
Veri işleme eşitsizliği ile:
I(G;R∣history) ≤ I((S,Adv);R∣history) = I(Adv;R∣S,history) ≤ H(Adv).
Avantajı B adet bölmeye ayırırsak, o zaman H(Adv) ≲ log(B). Yani, bölüm başına elde edilen yararlı bilgi bitlerinin sayısı, model boyutundan bağımsız olarak O(1)’dir. Bu bitler bize, ayrık bir ödül fonksiyonları kümesinin (veya eşdeğer olarak, optimal-politika sınıflarının) hangi üyesinde olduğumuzu söyler. Bu karşılıklı bilgi analizi, bazı teorik optimizasyon algoritması analizlerinde kullanılanları yansıtır. Information Complexity of Black-Box Convex Optimization: A New Look via Feedback Information Theory (Raginsky and Rakhlin, 2009) Bu tahminin eğitim tarafından emilen bilgi üzerinde bir üst sınır olduğunu unutmayın; öğrenilen gerçek miktar, politika başlatmasına ve diğer ayrıntılara bağlı olacaktır. Örneğin, hiç ödül almayan bir politika ile başlatırsak, avantajın entropisi sıfırdır (log(B) değil) ve hiçbir şey öğrenmez.
LoRA’nın Hesaplama Verimliliği Avantajı
Yukarıdaki deneylerimiz öğrenme ilerlemesini eğitim adımlarının sayısına göre ölçtü, ancak farklı yöntemlerin hesaplama verimliliğiyle de ilgilenebiliriz. LoRA’nın geçiş başına tam ince ayarın gerektirdiği FLOP’ların ⅔'sinden biraz fazlasını aldığını hesaplıyoruz. Sonuç olarak, genellikle genel hesaplama verimliliğinde FullFT’yi geride bırakacaktır.
Bu ⅔ oranını, belirli bir ağırlık matrisindeki ileri-geri geçişte kullanılan FLOP’ları analiz ederek türetiyoruz. Bu işlemler, sinir ağı modellerindeki FLOP’ların büyük çoğunluğunu oluşturur. Aşağıdaki notasyonu kullanıyoruz:
- W∈RN×N bir ağırlık matrisidir
- x∈RN bir girdi vektörüdür
- y=Wx∈RN bir çıktı vektörüdür
- x̄, ȳ∈RN, kayıpın x ve y’ye göre gradyanlarıdır, geri geçişte hesaplanır
- W̄∈RN×N, kayıpın W’ye göre gradyanıdır
Tam ince ayar aşağıdaki işlemleri gerçekleştirir:
- İleri
- y=Wx (N² çarpma-toplama işlemi)
- Geri
- x̄=WTȳ (N² çarpma-toplama işlemi)
- W̄+=xȳT (N² çarpma-toplama işlemi)
İleri geçiş (forward pass) N² çarpma-toplama işlemi gerektirir ve geri geçiş toplam 3N² için 2⋅N² daha gerektirir. Her ikisini de gerektiren eğitim, bu nedenle yalnızca ileri çıkarımdan 3 kat daha fazla FLOP kullanır.
LoRA ile, W’yi W+BA ile değiştiririz, burada B∈RN×R ve A∈RR×N, R≪N. Yalnızca Ā ve B̄’yi güncellediğimiz için, W̄’yi güncellemenin üçüncü adımını çok daha ucuz bir işlemle değiştiririz. A ve B N⋅R matrisleridir, bu nedenle her birindeki tam ileri-geri hesaplama W için 3N² yerine 3NR çarpma-toplama işlemi gerektirir. Her ikisi için toplam 6NR’dir. Ayrıca Wx ve x̄ üzerinde, FullFT’nin ilk iki adımına eşdeğer olan ileri-geri geçişi gerçekleştiririz. Toplam çarpma-toplama işlemi sayısı 2N² + 6NR’dir. R≪N ile bu, 3N²’nin 2/3'ünden biraz fazladır.
Eğer LoRA performansını eğitim adımları yerine FLOP’lar üzerinden çizseydik [Bu analiz, uzun bağlamlı ortamlarda önemli olabilecek dikkat için kullanılan FLOP’ları ihmal eder.], FullFT’ye göre açık bir avantaj gösterirdi.
Açık Sorular
Sonuçlarımızla ilgili gelecekte araştırılmasını çok istediğimiz birkaç soru var:
- LoRA performansına ilişkin tahminlerimizi ve tam ince ayarla eşleştiği kesin koşulları keskinleştirmek. Eşit performans rejimini kabaca karakterize ettik ve gereken kapasiteyi token veya bölüm cinsinden tahmin edebiliyoruz, ancak henüz doğru tahminler yapamıyoruz.
- LoRA öğrenme oranları ve eğitim dinamikleri hakkındaki teorik anlayışımız sınırlıdır. LoRA ve FullFT öğrenme oranları arasındaki oranı açıklayan daha tam bir teori değerli olacaktır.
- PiSSA gibi LoRA varyantları PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models (Meng, Wang & Zhang, 2024) bu makaledeki metodolojiye göre ölçüldüğünde nasıl performans gösterir?
- LoRA’yı MoE katmanlarına uygulamak için çeşitli seçenekler vardır. LoRA kullanıcıları, bunların ne kadar iyi performans gösterdiğine ve her bir yaklaşımın, büyük MoE modelleri için önemli olan tensör paralelliği ve uzman paralelliği gibi yöntemlerle ne kadar uyumlu olduğuna dair bir araştırmadan faydalanacaktır.
Tinker (LoRa API’ı)
Thinking Machines Lab Dağıtık GPU kümelerinde LoRa yapmanızı sağlayacak bir API kullanıma açacaklarını duyurdu.
Amaçları, araştırmacıları ve geliştiricileri dağıtık eğitimin karmaşıklığından kurtararak, onların tamamen kendi verilerine ve algoritmalarına odaklanmalarını sağlamak. Bu, daha fazla insanın en yeni modeller üzerinde araştırma yapmasını ve bu modelleri kendi ihtiyaçlarına göre özelleştirmesini sağlama misyonumuzu bir adım öteye taşıyor.
Tinker ile Qwen-235B-A22B gibi devasa uzmanlar karışımı (MoE) modellerinden daha küçük modellere kadar geniş bir yelpazedeki açık kaynaklı modellere kolayca ince ayar yapabilirsiniz. Küçük bir modelden büyük bir modele geçmek, Python kodunuzdaki tek bir satırı değiştirmek kadar basit olması amaçlanmaktadır.
Tinker, kendi GPU kümeleri ve eğitim altyapısı üzerinde çalışan, yönetilen bir hizmettir. Zamanlama, kaynak ataması ve hata kurtarma gibi tüm teknik detayları Thinking Machines üstlenmektedir. Bu sayede, altyapı yönetimiyle uğraşmadan, ister küçük ister büyük ölçekli eğitimlerinizi anında başlatabilirsiniz. LoRA kullandığımız için, aynı işlem gücünü birden fazla eğitim arasında paylaştırarak maliyetler düşürülmektedir.
Tinker’ın API’ı, forward_backward ve sample gibi temel işlevler sunarak size algoritmalarınız üzerinde tam kontrol imkanı tanır. Elbette, iyi sonuçlar almak için doğru yöntemleri kullanmak önemlidir. Bu nedenle, Tinker API’ı üzerinde çalışan modern eğitim metotlarının hazır uygulamalarını içeren açık kaynaklı Tinker Cookbook kütüphanesi de yayınlanmaktadır.
Princeton, Stanford, Berkeley ve Redwood Research gibi kurumlardaki araştırma grupları Tinker’ı şimdiden kullanmaya başlamıştır: Princeton Goedel Ekibi matematiksel teorem kanıtlayıcıları eğitim yapmıştır. Stanford’daki Rotskoff Kimya grubu, kimya alanında akıl yürütme görevlerini tamamlayan bir model geliştirmişlerdir. Berkeley’in SkyRL grubu, özel RL eğitim döngüleri üzerinde deneyler yapmıştır. Redwood Research ise zorlu yapay zeka kontrol görevleri için Qwen3–32B modelini Tinker ile eğitmiştir.
Nasıl Başlayabilirsiniz?
Tinker şu anda araştırmacılar ve geliştiriciler için özel beta aşamasındadır. Bugünden itibaren kullanıcıları platforma dahil etmeye başlıyorlar. Kurumsal olarak Tinker’ı kullanmakla ilgileniyorsanız sizi direkt iletişime geçmeye çağırıyorlar. Başlangıçta Tinker’ı kullanmak ücretsiz olacak. Önümüzdeki haftalarda kullanıma dayalı bir fiyatlandırma modeline geçiş yapılacakmış.
Kaynak
[1] THINKING MACHINES, (29 Eylül, 2025), LoRA Without Regret:
[https://thinkingmachines.ai/blog/lora/]
[2] Thinking Machines Lab, (1 Ekim, 2025), Announcing Tinker
[https://thinkingmachines.ai/blog/announcing-tinker/]
[3] Thinking Machines Lab, (1 Ekim, 2025) Tinker is a training API
